2020-06-01 – 2022-11-31
Cieľom projektu je zostaviť aktuálne korpusy textov v siedmich jazykoch konzorcia (bulharský, chorvátsky, maďarský, poľský, rumunský, slovenský a slovinský) v oblastiach relevantných pre strojový preklad v kontexte európskych inštitúcií. Hlavné pokrytie bude v oblastiach relevantných pre DSI v rámci CEF, ako sú eHealth, Europeana alebo eGovernment. Cieľom riešiteľov z JÚĽŠ SAV je identifikácia nevyváženej štýlovo-žánrovej distribúcie textov, koordinácia zabezpečenia možnosti použitia autorských diel na základe autorských zákonov, získavanie dodatočných textov; získanie textov, kompilácia a komplexná lingvistická anotácia korpusu slovenských textov.
Koordinátor: Nyelvtudományi Kutatóközpont
Partneri:
Stránka projektu: https://curlicat.eu/
Novinky
2022-06-24 Sprístupnená druhá verzia korpusu, 67 miliónov tokenov (51 miliónov slov). Na stiahnutie: vertikálny formát curlicat-sk-20220621-v0.7.ver.xz, formát CoNLL-U Plus curlicat-sk-20220621-v0.7.conllup.xz (~ 400 MB)
2021-12-01 Sprístupnená prvá verzia korpusu (“proof of concept”): curlicat-sk-v0.1.tar
🇪🇺 Projekt je spolufinancovaný Európskou úniou prostredníctvom Nástroja na prepájanie Európy.