Compositional Freebase Questions by Kaggle | Other

About this Dataset

Compositional Freebase Questions

Compositional Freebase Questions dataset for measuring generalization

By cfq (From Huggingface) [source]

About this dataset

The Compositional Freebase Questions (CFQ) dataset is a collection of questions and their corresponding queries. It is designed to measure compositional generalization in question answering. The dataset consists of a training set, a test set for evaluating the performance of query pattern splitting, as well as additional files providing further information about the dataset.

The training set, named query_pattern_split_train.csv, contains pairs of questions and their corresponding query representations. These queries are used to train models for question answering tasks on the CFQ dataset. The file mcd2_train.csv provides additional training data specifically tailored for measuring compositional generalization in question answering.

On the other hand, the test set, named query_pattern_split_test.csv, is specifically designed to evaluate the performance of query pattern splitting techniques. This allows researchers to assess how well different approaches handle query decomposition and compositionality.

Overall, this dataset serves as a valuable resource for studying and evaluating compositional generalization in question answering systems. By providing both natural language questions and their corresponding query representations, it enables researchers to develop and test models that can comprehend complex queries involving structured knowledge bases like Freebase

Research Ideas

Compositional Generalization Measurement: The dataset can be used to measure the compositional generalization abilities of question answering models. By testing how well a model can generalize to new combinations of query patterns and questions, researchers can evaluate the language understanding and reasoning capabilities of different models.

Query Pattern Splitting Evaluation: The test set in this dataset can be used specifically for evaluating the performance of query pattern splitting techniques. Query pattern splitting involves decomposing complex queries into simpler subqueries based on patterns observed in the training data. By evaluating how well a model performs on this task, researchers can assess the effectiveness of such decomposition approaches.

Question Answering Model Training: The dataset can also be used as a training set for developing question answering models that aim to handle compositional questions based on Freebase knowledge graphs. By using this dataset, researchers and developers can build models that understand complex questions and generate appropriate queries to retrieve relevant information from knowledge graphs like Freebase

Acknowledgements

If you use this dataset in your research, please credit the original authors.
Data Source

License

License: CC0 1.0 Universal (CC0 1.0) - Public Domain Dedication
No Copyright - You can copy, modify, distribute and perform the work, even for commercial purposes, all without asking permission. See Other Information.

Columns

File: query_pattern_split_train.csv

Column name	Description
question	The natural language question asked. (Text)
query	The corresponding query representation of the question in a machine-readable format. (Text)

File: mcd2_train.csv

Column name	Description
question	The natural language question asked. (Text)
query	The corresponding query representation of the question in a machine-readable format. (Text)

File: query_pattern_split_test.csv

Column name	Description
question	The natural language question asked. (Text)
query	The corresponding query representation of the question in a machine-readable format. (Text)

Acknowledgements

If you use this dataset in your research, please credit the original authors.
If you use this dataset in your research, please credit cfq (From Huggingface).

Tables

Mcd1 Test

@kaggle.thedevastator_compositional_freebase_questions_dataset.mcd1_test

720.09 KB
11968 rows
2 columns


CREATE TABLE mcd1_test (
  "question" VARCHAR,
  "query" VARCHAR
);

Mcd1 Train

@kaggle.thedevastator_compositional_freebase_questions_dataset.mcd1_train

7.09 MB
95743 rows
2 columns


CREATE TABLE mcd1_train (
  "question" VARCHAR,
  "query" VARCHAR
);

Mcd2 Test

@kaggle.thedevastator_compositional_freebase_questions_dataset.mcd2_test

702.73 KB
11968 rows
2 columns


CREATE TABLE mcd2_test (
  "question" VARCHAR,
  "query" VARCHAR
);

Mcd2 Train

@kaggle.thedevastator_compositional_freebase_questions_dataset.mcd2_train

7.42 MB
95743 rows
2 columns


CREATE TABLE mcd2_train (
  "question" VARCHAR,
  "query" VARCHAR
);

Mcd3 Test

@kaggle.thedevastator_compositional_freebase_questions_dataset.mcd3_test

702.73 KB
11968 rows
2 columns


CREATE TABLE mcd3_test (
  "question" VARCHAR,
  "query" VARCHAR
);

Mcd3 Train

@kaggle.thedevastator_compositional_freebase_questions_dataset.mcd3_train

7.15 MB
95743 rows
2 columns


CREATE TABLE mcd3_train (
  "question" VARCHAR,
  "query" VARCHAR
);

Query Complexity Split Test

@kaggle.thedevastator_compositional_freebase_questions_dataset.query_complexity_split_test

866.41 KB
9512 rows
2 columns


CREATE TABLE query_complexity_split_test (
  "question" VARCHAR,
  "query" VARCHAR
);

Query Complexity Split Train

@kaggle.thedevastator_compositional_freebase_questions_dataset.query_complexity_split_train

7.59 MB
100654 rows
2 columns


CREATE TABLE query_complexity_split_train (
  "question" VARCHAR,
  "query" VARCHAR
);

Query Pattern Split Test

@kaggle.thedevastator_compositional_freebase_questions_dataset.query_pattern_split_test

806.68 KB
12589 rows
2 columns


CREATE TABLE query_pattern_split_test (
  "question" VARCHAR,
  "query" VARCHAR
);

Query Pattern Split Train

@kaggle.thedevastator_compositional_freebase_questions_dataset.query_pattern_split_train

7.73 MB
94600 rows
2 columns


CREATE TABLE query_pattern_split_train (
  "question" VARCHAR,
  "query" VARCHAR
);

Question Complexity Split Test

@kaggle.thedevastator_compositional_freebase_questions_dataset.question_complexity_split_test

885.18 KB
10340 rows
2 columns


CREATE TABLE question_complexity_split_test (
  "question" VARCHAR,
  "query" VARCHAR
);

Question Complexity Split Train

@kaggle.thedevastator_compositional_freebase_questions_dataset.question_complexity_split_train

7.51 MB
98999 rows
2 columns


CREATE TABLE question_complexity_split_train (
  "question" VARCHAR,
  "query" VARCHAR
);

Question Pattern Split Test

@kaggle.thedevastator_compositional_freebase_questions_dataset.question_pattern_split_test

812.28 KB
11909 rows
2 columns


CREATE TABLE question_pattern_split_test (
  "question" VARCHAR,
  "query" VARCHAR
);

Question Pattern Split Train

@kaggle.thedevastator_compositional_freebase_questions_dataset.question_pattern_split_train

7.81 MB
95654 rows
2 columns


CREATE TABLE question_pattern_split_train (
  "question" VARCHAR,
  "query" VARCHAR
);

Random Split Test

@kaggle.thedevastator_compositional_freebase_questions_dataset.random_split_test

843.63 KB
11967 rows
2 columns


CREATE TABLE random_split_test (
  "question" VARCHAR,
  "query" VARCHAR
);

Random Split Train

@kaggle.thedevastator_compositional_freebase_questions_dataset.random_split_train

7.82 MB
95744 rows
2 columns


CREATE TABLE random_split_train (
  "question" VARCHAR,
  "query" VARCHAR
);