Datasets
Hem publicat centenars de conjunts de dades en aprox. 200 idiomes diferents, tant monolingües com paral·lels. Processats i netejats amb eines pròpies o en coautoria, les sèries de corpus ParaCrawl, Europat, MaCoCu o HPLT formen part del nostre catàleg de conjunts de dades contribuïdes.
HPLT: High Performance Language Technologies
+200 datasets
193 languages
Monolingual and bilingual
MaCoCu: Massive collection and curation of monolingual and bilingual data: focus on under-resourced languages
+30 datasets
17 languages
Monolingual and bilingual
The Europat corpus: A parallel corpus of European patent data
6 datasets
7 languages
Bilingual
ParaCrawl: Web-scale parallel corpora for the languages of the EU
+40 datasets
56 languages
Bilingual + Monolingual (English)