Electronic Corpora – Contrastive Study with Focus on Design of Bulgarian-Slovak Digital Language Resources
Elektronický korpus – konfrontačná štúdia so zameraním na návrh bulharsko-slovenských elektronických jazykových zdrojov
Zodpovedný riešiteľ: Radovan Garabík
Spoluriešitelia mimo SAV: Inštitút matematiky a informatiky Bulharskej akadémie vied
Partnerské krajiny: Bulharsko
Program: Bilaterálne – iné
Anotácia: V rámci projektu sa realizoval dizajn a implementácia uchovávania textov špecializovaných korpusov slovenského jazyka, tvoril sa paralelný spôsob konverzie, morfologická anotácia a lematizácia, konverzné programy pre viacjazyčný (sk, en, cs, bg) korpus zložený z textov Official Journal of the European Union, urobil sa návrh XML parsingu pre daný korpus, implementácia vnútornej štruktúry textov, návrh a implementácia vonkajšej anotácie špecializovaných korpusov, vytvoril sa bulharsko-slovenský glosár z voľne dostupných zdrojov, vykonalo sa čistenie a konverzia existujúcich dát a deduplikácia hesiel.