Slovo roka
Slovo roka patrí medzi obľúbené publicistické žánre v mnohých krajinách. Kým ešte v nedávnej minulosti sa slovo roka obyčajne vyberalo na základe hlasovania verejnosti, prípadne samotných jazykovedcov, dnes už môžeme riešiť tento problém exaktnejšie – na báze analýzy korpusových dát.
Na našom pracovisku sa vyvíjajú dva druhy korpusov:
- Tradičný Slovenský národný korpus (SNK) obsahuje dáta získané od autorov, prípadne vlastníkov autorských práv, s tromi hlavnými typmi textov: umelecká literatúra, odborná literatúra a publicistika (noviny a časopisy). Výhodou tradičných korpusov typu SNK je to, že ich možno koncipovať ako „vyvážené“, čiže s vopred stanoveným podielom jednotlivých typov textov, žánrov, domén, registrov a pod., aby čo najlepšie reprezentovali jazyk ako celok. Okrem toho je výhodou aj to, že texty sú „kvalitné“, keďže väčšinou prešli jazykovou korektúrou.
Webové korpusy rodiny Aranea1 sa vytvárajú od roku 2013 tak, že sa jednotlivé texty sťahujú z internetu pomocou automatizovaných nástrojov, následne sa filtrujú a deduplikujú (odstraňujú sa rovnaké alebo podobné texty), aby sa ich podoba čo najviac priblížila tradičným korpusom. O kvalite textov, vyváženosti a reprezentatívnosti je tu však ťažko hovoriť – zloženie korpusu veľmi ovplyvniť nemôžeme. Keďže však webové korpusy možno pre väčšinu jazykov vytvoriť oveľa väčšie než príslušné tradičné korpusy a obsahujú „všetko, čo možno nájsť na internete“, nebýva to s reprezentatívnosťou až také zlé.
1 Araneum, pl. aranea je latinské slovo označujúce pavúka aj pavučinu.
Jazykové dáta zozbieral a zinterpretoval Ing. Vladimír Benko, PhD.

