Name: WikiANN
Creator: Kaggle
License: https://creativecommons.org/publicdomain/zero/1.0/

About this Dataset

WikiANN

Lombard Language Training Dataset

Lombard Language Training Data

By wikiann (From Huggingface) [source]

About this dataset

Overview

WikiANN (sometimes called PAN-X) is a multilingual named entity recognition dataset consisting of Wikipedia articles annotated with LOC (location), PER (person), and ORG (organisation) tags in the IOB2 format. This version corresponds to the balanced train, dev, and test splits of Rahimi et al. (2019), which supports 176 of the 282 languages from the original WikiANN corpus.

Columns

File: pdc_train.csv

Column name	Description
tokens	This column contains individual words or tokens in the Lombard language. (Text)
ner_tags	This column contains named entity recognition (NER) tags associated with each token. NER tags help identify and classify named entities such as names, locations, organizations, etc. (Text)
langs	This column indicates the language of each token. In this dataset, it specifically represents the Lombard language. (Text)
spans	This column provides information about the position or span of each token within the text. (Text)

File: sr_validation.csv

Column name	Description
tokens	This column contains individual words or tokens in the Lombard language. (Text)
ner_tags	This column contains named entity recognition (NER) tags associated with each token. NER tags help identify and classify named entities such as names, locations, organizations, etc. (Text)
langs	This column indicates the language of each token. In this dataset, it specifically represents the Lombard language. (Text)
spans	This column provides information about the position or span of each token within the text. (Text)

File: uz_train.csv

Column name	Description
tokens	This column contains individual words or tokens in the Lombard language. (Text)
ner_tags	This column contains named entity recognition (NER) tags associated with each token. NER tags help identify and classify named entities such as names, locations, organizations, etc. (Text)
langs	This column indicates the language of each token. In this dataset, it specifically represents the Lombard language. (Text)
spans	This column provides information about the position or span of each token within the text. (Text)

Research Ideas

Named Entity Recognition (NER) Training: The dataset can be used to train models for NER tasks specific to the Lombard language. By utilizing the ner_tags column, developers can create models that identify and classify named entities in Lombard text, such as names of people, places, organizations, and more.

Language Classification: Since the langs column indicates the language of each token in the dataset (which will always be Lombard), this dataset can be used for training language classification models. These models can then be utilized to automatically detect whether a given piece of text is in Lombard or another language.

Span Identification: The spans column provides information about the position or span of each token within the text. This information can be utilized to develop algorithms or applications that require analyzing specific spans within sentences or paragraphs in Lombard text. For example, it could help identify important phrases or extract certain sections of text from a larger document

Acknowledgements

If you use this dataset in your research, please credit the original authors.
Data Source

License

License: CC0 1.0 Universal (CC0 1.0) - Public Domain Dedication
No Copyright - You can copy, modify, distribute and perform the work, even for commercial purposes, all without asking permission. See Other Information.

Acknowledgements

If you use this dataset in your research, please credit the original authors.
If you use this dataset in your research, please credit wikiann (From Huggingface).

Tables

Mk Test

@kaggle.thedevastator_lombard_language_training_dataset.mk_test

79.89 kB
1,000 rows
4 columns

CREATE TABLE mk_test (
  "tokens" VARCHAR,
  "ner_tags" VARCHAR,
  "langs" VARCHAR,
  "spans" VARCHAR
);

Mk Train

@kaggle.thedevastator_lombard_language_training_dataset.mk_train

627.5 kB
10,000 rows
4 columns

CREATE TABLE mk_train (
  "tokens" VARCHAR,
  "ner_tags" VARCHAR,
  "langs" VARCHAR,
  "spans" VARCHAR
);

Mk Validation

@kaggle.thedevastator_lombard_language_training_dataset.mk_validation

80.9 kB
1,000 rows
4 columns

CREATE TABLE mk_validation (
  "tokens" VARCHAR,
  "ner_tags" VARCHAR,
  "langs" VARCHAR,
  "spans" VARCHAR
);

Ml Test

@kaggle.thedevastator_lombard_language_training_dataset.ml_test

107.26 kB
1,000 rows
4 columns

CREATE TABLE ml_test (
  "tokens" VARCHAR,
  "ner_tags" VARCHAR,
  "langs" VARCHAR,
  "spans" VARCHAR
);

Ml Train

@kaggle.thedevastator_lombard_language_training_dataset.ml_train

946.22 kB
10,000 rows
4 columns

CREATE TABLE ml_train (
  "tokens" VARCHAR,
  "ner_tags" VARCHAR,
  "langs" VARCHAR,
  "spans" VARCHAR
);

Ml Validation

@kaggle.thedevastator_lombard_language_training_dataset.ml_validation

112.85 kB
1,000 rows
4 columns

CREATE TABLE ml_validation (
  "tokens" VARCHAR,
  "ner_tags" VARCHAR,
  "langs" VARCHAR,
  "spans" VARCHAR
);

Mn Test

@kaggle.thedevastator_lombard_language_training_dataset.mn_test

13.07 kB
100 rows
4 columns

CREATE TABLE mn_test (
  "tokens" VARCHAR,
  "ner_tags" VARCHAR,
  "langs" VARCHAR,
  "spans" VARCHAR
);

Mn Train

@kaggle.thedevastator_lombard_language_training_dataset.mn_train

12.2 kB
100 rows
4 columns

CREATE TABLE mn_train (
  "tokens" VARCHAR,
  "ner_tags" VARCHAR,
  "langs" VARCHAR,
  "spans" VARCHAR
);

Mn Validation

@kaggle.thedevastator_lombard_language_training_dataset.mn_validation

11.91 kB
100 rows
4 columns

CREATE TABLE mn_validation (
  "tokens" VARCHAR,
  "ner_tags" VARCHAR,
  "langs" VARCHAR,
  "spans" VARCHAR
);

Mr Test

@kaggle.thedevastator_lombard_language_training_dataset.mr_test

86.35 kB
1,000 rows
4 columns

CREATE TABLE mr_test (
  "tokens" VARCHAR,
  "ner_tags" VARCHAR,
  "langs" VARCHAR,
  "spans" VARCHAR
);

Mr Train

@kaggle.thedevastator_lombard_language_training_dataset.mr_train

362.12 kB
5,000 rows
4 columns

CREATE TABLE mr_train (
  "tokens" VARCHAR,
  "ner_tags" VARCHAR,
  "langs" VARCHAR,
  "spans" VARCHAR
);

Mr Validation

@kaggle.thedevastator_lombard_language_training_dataset.mr_validation

83.41 kB
1,000 rows
4 columns

CREATE TABLE mr_validation (
  "tokens" VARCHAR,
  "ner_tags" VARCHAR,
  "langs" VARCHAR,
  "spans" VARCHAR
);

Ms Test

@kaggle.thedevastator_lombard_language_training_dataset.ms_test

51.15 kB
1,000 rows
4 columns

CREATE TABLE ms_test (
  "tokens" VARCHAR,
  "ner_tags" VARCHAR,
  "langs" VARCHAR,
  "spans" VARCHAR
);

Ms Train

@kaggle.thedevastator_lombard_language_training_dataset.ms_train

660.16 kB
20,000 rows
4 columns

CREATE TABLE ms_train (
  "tokens" VARCHAR,
  "ner_tags" VARCHAR,
  "langs" VARCHAR,
  "spans" VARCHAR
);

Ms Validation

@kaggle.thedevastator_lombard_language_training_dataset.ms_validation

51.2 kB
1,000 rows
4 columns

CREATE TABLE ms_validation (
  "tokens" VARCHAR,
  "ner_tags" VARCHAR,
  "langs" VARCHAR,
  "spans" VARCHAR
);

Mt Test

@kaggle.thedevastator_lombard_language_training_dataset.mt_test

12.17 kB
100 rows
4 columns

CREATE TABLE mt_test (
  "tokens" VARCHAR,
  "ner_tags" VARCHAR,
  "langs" VARCHAR,
  "spans" VARCHAR
);

Mt Train

@kaggle.thedevastator_lombard_language_training_dataset.mt_train

12.89 kB
100 rows
4 columns

CREATE TABLE mt_train (
  "tokens" VARCHAR,
  "ner_tags" VARCHAR,
  "langs" VARCHAR,
  "spans" VARCHAR
);

Mt Validation

@kaggle.thedevastator_lombard_language_training_dataset.mt_validation

12.72 kB
100 rows
4 columns

CREATE TABLE mt_validation (
  "tokens" VARCHAR,
  "ner_tags" VARCHAR,
  "langs" VARCHAR,
  "spans" VARCHAR
);

Mwl Test

@kaggle.thedevastator_lombard_language_training_dataset.mwl_test

16.02 kB
100 rows
4 columns

CREATE TABLE mwl_test (
  "tokens" VARCHAR,
  "ner_tags" VARCHAR,
  "langs" VARCHAR,
  "spans" VARCHAR
);

Mwl Train

@kaggle.thedevastator_lombard_language_training_dataset.mwl_train

16.33 kB
100 rows
4 columns

CREATE TABLE mwl_train (
  "tokens" VARCHAR,
  "ner_tags" VARCHAR,
  "langs" VARCHAR,
  "spans" VARCHAR
);

Mwl Validation

@kaggle.thedevastator_lombard_language_training_dataset.mwl_validation

20.21 kB
100 rows
4 columns

CREATE TABLE mwl_validation (
  "tokens" VARCHAR,
  "ner_tags" VARCHAR,
  "langs" VARCHAR,
  "spans" VARCHAR
);

My Test

@kaggle.thedevastator_lombard_language_training_dataset.my_test

19.5 kB
100 rows
4 columns

CREATE TABLE my_test (
  "tokens" VARCHAR,
  "ner_tags" VARCHAR,
  "langs" VARCHAR,
  "spans" VARCHAR
);

My Train

@kaggle.thedevastator_lombard_language_training_dataset.my_train

18.75 kB
100 rows
4 columns

CREATE TABLE my_train (
  "tokens" VARCHAR,
  "ner_tags" VARCHAR,
  "langs" VARCHAR,
  "spans" VARCHAR
);

My Validation

@kaggle.thedevastator_lombard_language_training_dataset.my_validation

22.23 kB
100 rows
4 columns

CREATE TABLE my_validation (
  "tokens" VARCHAR,
  "ner_tags" VARCHAR,
  "langs" VARCHAR,
  "spans" VARCHAR
);

Mzn Test

@kaggle.thedevastator_lombard_language_training_dataset.mzn_test

11.44 kB
100 rows
4 columns

CREATE TABLE mzn_test (
  "tokens" VARCHAR,
  "ner_tags" VARCHAR,
  "langs" VARCHAR,
  "spans" VARCHAR
);