Slovo roka

Slovo roka

Slovo roka patrí medzi obľúbené publicistické žánre v mnohých krajinách. Kým ešte v nedávnej minulosti sa slovo roka obyčajne vyberalo na základe hlasovania verejnosti, prípadne samotných jazykovedcov, dnes už môžeme riešiť tento problém exaktnejšie – na báze analýzy korpusových dát.

Na našom pracovisku sa vyvíjajú dva druhy korpusov:

  • Tradičný Slovenský národný korpus (SNK) obsahuje dáta získané od autorov, prípadne vlastníkov autorských práv, s tromi hlavnými typmi textov: umelecká literatúra, odborná literatúra a publicistika (noviny a časopisy). Výhodou tradičných korpusov typu SNK je to, že ich možno koncipovať ako „vyvážené“, čiže s vopred stanoveným podielom jednotlivých typov textov, žánrov, domén, registrov a pod., aby čo najlepšie reprezentovali jazyk ako celok. Okrem toho je výhodou aj to, že texty sú „kvalitné“, keďže väčšinou prešli jazykovou korektúrou.
  • Webové korpusy rodiny Aranea1 sa vytvárajú od roku 2013 tak, že sa jednotlivé texty sťahujú z internetu pomocou automatizovaných nástrojov, následne sa filtrujú a deduplikujú (odstraňujú sa rovnaké alebo podobné texty), aby sa ich podoba čo najviac priblížila tradičným korpusom. O kvalite textov, vyváženosti a reprezentatívnosti je tu však ťažko hovoriť – zloženie korpusu veľmi ovplyvniť nemôžeme. Keďže však webové korpusy možno pre väčšinu jazykov vytvoriť oveľa väčšie než príslušné tradičné korpusy a obsahujú „všetko, čo možno nájsť na internete“, nebýva to s reprezentatívnosťou až také zlé.

Ako sme postupovali?

Na hľadanie slov, ktoré pribudli do jazyka nedávno, prípadne veľmi vzrástla frekvencia ich výskytu v korpuse, sme použili najnovšiu verziu slovenského webového korpusu Araneum Slovacum VII. Porovnávali sme podkorpus textov, ktoré pribudli do korpusu v roku 2023 so zvyškom korpusu, čiže obdobím 2013 – 2022.

Rozhodli sme sa vyhlásiť výsledky v troch kategóriách:

  • Na úplne prvom mieste nášho zoznamu2 sa nachádza slovo ChatGPT, ktoré sme prvýkrát zaznamenali v decembri 2022 (1 výskyt), ale v roku 2023 už bolo prítomné vo vyše 700 dokumentoch (skóre 20,8) – v súvislosti s nástupom systémov umelej inteligencie ste sa s týmto slovom už určite stretli.
  • V kategórii slov domáceho pôvodu sa na prvej pozícii trochu prekvapivo nachádza slovo bezpríznakovosť – tu pritom vôbec nejde o neologizmus, jazykovedci slovo (napríklad v rámci štylistiky) používajú už dávno. Keď sa však pozrieme do korpusu, zistíme, že po novom sa slovo v prevažnej väčšine prípadov vyskytuje v spojení „(písomné) vyhlásenie o bezpríznakovosti“, čo je známe najmä rodičom školopovinných detí.
  • Posledná je kategória vlastných osobných mien, ktorej víťazom je meno Ódor. Domnievame sa, že tu nie je potrebné vysvetľovať, ako sa toto slovo v zozname vyskytlo 😊.
2023 2023 2023

2024

2023 2023 2023


1 Araneum, pl. aranea je latinské slovo označujúce pavúka aj pavučinu.
2 Na prvých miestach zoznamu sa okrem „zmysluplných“ položiek nachádzajú aj chybné slová, ktoré náhodne pribudli v roku 2023, v našom prípade to bolo napríklad „odkazujúna“ (chýbajúca medzera), či „Yahhoo“ (zdvojená hláska) – vytvorený zoznam preto treba kriticky interpretovať s vedomím tohto javu.
Jazykové dáta zozbieral a zinterpretoval Ing. Vladimír Benko, PhD.