Slovo roka

Slovo roka

Slovo roka patrí medzi obľúbené publicistické žánre v mnohých krajinách. Kým ešte v nedávnej minulosti sa slovo roka obyčajne vyberalo na základe hlasovania verejnosti, prípadne samotných jazykovedcov, dnes už môžeme riešiť tento problém exaktnejšie – na báze analýzy korpusových dát.

Na našom pracovisku sa vyvíjajú dva druhy korpusov:

  • Tradičný Slovenský národný korpus (SNK) obsahuje dáta získané od autorov, prípadne vlastníkov autorských práv, s tromi hlavnými typmi textov: umelecká literatúra, odborná literatúra a publicistika (noviny a časopisy). Výhodou tradičných korpusov typu SNK je to, že ich možno koncipovať ako „vyvážené“, čiže s vopred stanoveným podielom jednotlivých typov textov, žánrov, domén, registrov a pod., aby čo najlepšie reprezentovali jazyk ako celok. Okrem toho je výhodou aj to, že texty sú „kvalitné“, keďže väčšinou prešli jazykovou korektúrou.
  • Webové korpusy rodiny Aranea1 sa vytvárajú od roku 2013 tak, že sa jednotlivé texty sťahujú z internetu pomocou automatizovaných nástrojov, následne sa filtrujú a deduplikujú (odstraňujú sa rovnaké alebo podobné texty), aby sa ich podoba čo najviac priblížila tradičným korpusom. O kvalite textov, vyváženosti a reprezentatívnosti je tu však ťažko hovoriť – zloženie korpusu veľmi ovplyvniť nemôžeme. Keďže však webové korpusy možno pre väčšinu jazykov vytvoriť oveľa väčšie než príslušné tradičné korpusy a obsahujú „všetko, čo možno nájsť na internete“, nebýva to s reprezentatívnosťou až také zlé.

Slovo roka


1 Araneum, pl. aranea je latinské slovo označujúce pavúka aj pavučinu.
Jazykové dáta zozbieral a zinterpretoval Ing. Vladimír Benko, PhD.