JÚĽŠ curlicat

2020-06-01 – 2022-11-30

Cieľom projektu je zostaviť aktuálne korpusy textov v siedmich jazykoch konzorcia (bulharský, chorvátsky, maďarský, poľský, rumunský, slovenský a slovinský) v oblastiach relevantných pre strojový preklad v kontexte európskych inštitúcií. Hlavné pokrytie bude v oblastiach relevantných pre DSI v rámci CEF, ako sú eHealth, Europeana alebo eGovernment. Cieľom riešiteľov z JÚĽŠ SAV je identifikácia nevyváženej štýlovo-žánrovej distribúcie textov, koordinácia zabezpečenia možnosti použitia autorských diel na základe autorských zákonov, získavanie dodatočných textov; získanie textov, kompilácia a komplexná lingvistická anotácia korpusu slovenských textov.

Koordinátor: Nyelvtudományi Kutatóközpont

Partneri:

Stránka projektu: https://curlicat-project.eu/

Novinky

2022-11-29 Sprístupnená tretia verzia korpusu, 67 miliónov tokenov (51 miliónov slov). Na stiahnutie: vertikálny formát curlicat-sk-20221025-v1.0.ver.xz, formát CoNLL-U Plus curlicat-sk-20221025-v1.0.conllup.xz (~ 700 MB)
Vyhľadávanie v NoSketch Engine.
2022-06-24 Sprístupnená druhá verzia korpusu, 67 miliónov tokenov (51 miliónov slov). Na stiahnutie: vertikálny formát curlicat-sk-20220621-v0.7.ver.xz, formát CoNLL-U Plus curlicat-sk-20220621-v0.7.conllup.xz (~ 400 MB)
Vyhľadávanie v NoSketch Engine.
2021-12-01 Sprístupnená prvá verzia korpusu (“proof of concept”): curlicat-sk-v0.1.tar

🇪🇺 Projekt je spolufinancovaný Európskou úniou prostredníctvom Nástroja na prepájanie Európy.

Jazykovedný ústav Ľudovíta Štúra

Slovenskej akadémie vied, v. v. i.

Novinky