Electronic Corpora – Contrastive Study with Focus on Design of Bulgarian-Slovak Digital Language Resources

Elektronický korpus – konfrontačná štúdia so zameraním na návrh bulharsko-slovenských elektronických jazykových zdrojov

Zodpovedný riešiteľ: Radovan Garabík

Spoluriešitelia mimo SAV: Inštitút matematiky a informatiky Bulharskej akadémie vied

Partnerské krajiny: Bulharsko

Program: Bilaterálne – iné

Anotácia: V rámci projektu sa realizoval dizajn a implementácia uchovávania textov špecializovaných korpusov slovenského jazyka, tvoril sa paralelný spôsob konverzie, morfologická anotácia a lematizácia, konverzné programy pre viacjazyčný (sk, en, cs, bg) korpus zložený z textov Official Journal of the European Union, urobil sa návrh XML parsingu pre daný korpus, implementácia vnútornej štruktúry textov, návrh a implementácia vonkajšej anotácie špecializovaných korpusov, vytvoril sa bulharsko-slovenský glosár z voľne dostupných zdrojov, vykonalo sa čistenie a konverzia existujúcich dát a deduplikácia hesiel.