Vektorové reprezentácie vágnych výrazov v slovenčine

2023 – 2026

Zodpovedná riešiteľka: Jana Wachtarczyková

Zástupca zodpovednej riešiteľky: Martin Ološtiak

Spoluriešiteľstvo zo SAV: Radovan Garabík, Monika Kapustová, Anna Ramšáková, Júlia Behýlová

Program a čislo projektu: VEGA 2/0107/23

Anotácia: Projekt Vektorové reprezentácie vágnych výrazov v slovenčine predstaví rozmanité vzťahy významovej podobnosti a príbuznosti pomenovaní, ktoré označujú pojmy z oblasti spoločenských, etických, ekonomických. Ide o lingvistickú interpretáciu výsledkov počítačového spracovania prirodzeného jazyka (NLP) založeného na metóde word embedding (vnorenia slov), ktorá z rozsiahleho jazykového materiálu skoncentrovaného v korpuse automaticky generuje vektorový model kvantifikujúci a hierarchizujúci vzťahy významovej podobnosti medzi slovami v priestore vektorového modelu. Získaná informácia o reálnom používaní sledovaného výrazu v priestore slovenského jazyka (prostredníctvom webového rozhrania Semä) poskytne dôležité parametre fungovania vágnych a polysémických výrazov vďaka ich zapojeniu do kontextu a vďaka poznaniu relácií, ktoré sa odkrývajú prostredníctvom vektorového modelovania. Zásluhou automatizovaného spracovania východiskových údajov sa minimalizuje subjektívne zasahovanie do výskumnej vzorky, zvyšuje sa exaktnosť, spoľahlivosť, a tým aj kognitívna plauzibilita modelov. Projekt prinesie detailnú analýzu chápania a fungovania vágnych výrazov v slovenčine prostredníctvom relačných profilov, vysvetlenia ich kontextových rámcov a vyhodnotenia emocionálno-axiologickej hodnoty sledovaných výrazov. Lingvistická analýza vektorových modelov vágnych slov predstavuje perspektívnu cestu k poznávaniu commonsensovej používateľskej konceptualizácie frekventovaných, ale mnohovýznamových a konfúzne používaných výrazov.

Jazykovedný ústav Ľudovíta Štúra

Slovenskej akadémie vied, v. v. i.

Vektorové reprezentácie vágnych výrazov v slovenčine