Contacta'ns Publicacions Datasets

Contacta'ns Publicacions Datasets

Datasets

Hem publicat centenars de conjunts de dades en aprox. 200 idiomes diferents, tant monolingües com paral·lels. Processats i netejats amb eines pròpies o en coautoria, les sèries de corpus ParaCrawl, Europat, MaCoCu o HPLT formen part del nostre catàleg de conjunts de dades contribuïdes.

HPLT: High Performance Language Technologies

+200 datasets

193 languages

Monolingual and bilingual

Reference paper Visit website

MaCoCu: Massive collection and curation of monolingual and bilingual data: focus on under-resourced languages

+30 datasets

17 languages

Monolingual and bilingual

Reference paper Visit website

The Europat corpus: A parallel corpus of European patent data

6 datasets

7 languages

Bilingual

Reference paper Visit website

ParaCrawl: Web-scale parallel corpora for the languages of the EU

+40 datasets

56 languages

Bilingual + Monolingual (English)

Reference paper Visit website