This data is extract from WiLi-2018 wikipedia dataset

WiLI-2018, the Wikipedia language identification benchmark dataset, contains 235000 paragraphs of 235 languages.
Each language in this dataset contains 1000 rows/paragraphs.

After data selection and preprocessing I used the 22 selective languages from the original dataset Which Includes following Languages

⦁ English
⦁ Arabic
⦁ French
⦁ Hindi
⦁ Urdu
⦁ Portuguese
⦁ Persian
⦁ Pushto
⦁ Spanish
⦁ Korean
⦁ Tamil
⦁ Turkish
⦁ Estonian
⦁ Russian
⦁ Romanian
⦁ Chinese
⦁ Swedish
⦁ Latin
⦁ Indonesian
⦁ Dutch
⦁ Japanese
⦁ Thai

Related Datasets

Language Detection

@kaggle
Ethnic Power Relations Dataset (ETH, 2021)

@owid
AI Performance On Language Tasks

@owid
Lookup Comparison Of 2017-13 V 2014-2020 Thematic Categorisation Codes

@esifunds
Lookup Comparison Of 2017-13 V 2014-2020 Thematic Categorisation Codes

@esifunds
Trust Questions In The European Social Survey, Latinobarómetro And Afrobarometer

@owid

Language Detection

Ethnic Power Relations Dataset (ETH, 2021)

AI Performance On Language Tasks

Lookup Comparison Of 2017-13 V 2014-2020 Thematic Categorisation Codes

Lookup Comparison Of 2017-13 V 2014-2020 Thematic Categorisation Codes

Trust Questions In The European Social Survey, Latinobarómetro And Afrobarometer