2020-06-01 – 2022-11-30
Cieľom projektu je zostaviť aktuálne korpusy textov v siedmich jazykoch konzorcia (bulharský, chorvátsky, maďarský, poľský, rumunský, slovenský a slovinský) v oblastiach relevantných pre strojový preklad v kontexte európskych inštitúcií. Hlavné pokrytie bude v oblastiach relevantných pre DSI v rámci CEF, ako sú eHealth, Europeana alebo eGovernment. Cieľom riešiteľov z JÚĽŠ SAV je identifikácia nevyváženej štýlovo-žánrovej distribúcie textov, koordinácia zabezpečenia možnosti použitia autorských diel na základe autorských zákonov, získavanie dodatočných textov; získanie textov, kompilácia a komplexná lingvistická anotácia korpusu slovenských textov.
Koordinátor: Nyelvtudományi Kutatóközpont
Partneri:
- Институт за български език „Професор Любомир Андрейчин“
- Filozofski fakultet Sveučilišta u Zagrebu
- Instytut Podstaw Informatyki Polskiej Akademii Nauk
- Institutul de Cercetări pentru Inteligență Artificială “Mihai Drăgănescu”
- Jazykovedný ústav Ľ. Štúra Slovenskej akadémie vied, v. v. i.
- Institut “Jožef Stefan”
Stránka projektu: https://curlicat-project.eu/
Novinky
- 2022-11-29 Sprístupnená tretia verzia korpusu, 67 miliónov tokenov (51 miliónov slov). Na stiahnutie: vertikálny formát curlicat-sk-20221025-v1.0.ver.xz, formát CoNLL-U Plus curlicat-sk-20221025-v1.0.conllup.xz (~ 700 MB)
2022-06-24 Sprístupnená druhá verzia korpusu, 67 miliónov tokenov (51 miliónov slov). Na stiahnutie: vertikálny formát curlicat-sk-20220621-v0.7.ver.xz, formát CoNLL-U Plus curlicat-sk-20220621-v0.7.conllup.xz (~ 400 MB)
- 2021-12-01 Sprístupnená prvá verzia korpusu (“proof of concept”): curlicat-sk-v0.1.tar
🇪🇺 Projekt je spolufinancovaný Európskou úniou prostredníctvom Nástroja na prepájanie Európy.