JÚĽŠ semä

Sémantická podobnosť slov

Základné použitie

vyberte si jazyk
napíšte slovo
- napríklad pivo ukáže slová významovo podobné pivu; v českom modeli je vidno, ako je pivo v češtine (na rozdiel od slovenčiny) vnímané presnejšie, poetickejšie, s vyhranenejšími sémantickými skupinami v okolí
- alebo zoznam slov, alebo priamo aritmetický výraz: Bratislava - Slovensko + Francúzsko by malo dať ako najbližší výraz Paríž
- alebo čo je ekvivalentom slova pes v ženskom rode? pes - on + ona
- ustálené (dvoj)slovné spojenia je možné vyhľadávať tiež, spojením slov znakom _ (podčiarkovník), napríklad kukuričný_sirup
vyberte si model
vyberte si vizualizáciu
kliknite na Choď!

O modeloch

Pre každý korpus sú vybudované tri modely - model založený na kombinácii lemy a príslušného slovného druhu, model založený na slovných tvaroch a model založený na algoritme FastText. Pri tvorbe modelov je použitá aplikácia gensim.

Pre slovenčinu existujú dve skupiny modelov, prvá vznikla pri štandardnom nastavení, druhá skupina, označená v rozhraní ako sk ll má nastavenú dolnú hranicu extrémne nízko, na hodnotu 10 výskytov v korpuse. Takáto nízka hranica umožňuje zachytiť aj okrajové lexikálne javy v jazyku, za cenu zvýšeného množstva nadbytočných, nie správnych výsledkov (preklepy, nesprávna lematizácia, nesprávna tokenizácia). Tieto modely sú preto obzvlášť vhodné pre lingvistickú prácu, keďže tu je často potrebné skúmať slová s nižším počtom výskytov a skúsený jazykovedec dokáže bez problémov odfiltrovať nesprávne alebo redundantné výsledky.

Model založený na lemách dáva najintuintívnejšie výsledky - vstupom do modelu je lema, výsledkom je zoznam sémanticky blízkych lem, a model umožňuje získať relevantné výsledky pri menších korpusoch a menej častých slovách, než druhé dva modely. Avšak tento model je zároveň najcitlivejší na chyby vyskytujúce sa v korpuse, obzvlášť chyby v lematizácii, hlavne ak uvážime, že propriá sa často nenachádzajú v morfologickej databáze používanej pri lematizácii a ich lemy su potom vysledkom heuristicko-štatistického hádania (v lematizácii nielen slovenského korpusu).

Model založený na slovných tvaroch poskytuje neskreslené výsledky (skreslenie môže nastať v kapitalizácii slov, alebo nesprávnou tokenizáciou textu).

Model založený na FastText-e ráta s vektorovou reprezentáciou 3- až 6-gramov písmen vo vnútri slova. Umožňuje získať aj vektor zodpovedajúci slovu nenachádzajúcemu sa v korpuse, je odolný voči preklepom, a použitie podreťazcov dokáže často (ale nie vždy) odhaliť či použiť sémantické vlastnosti morfém vo vnútri slova, alebo zložených slov (čo je vlastnosť obzvlášť užitočná pre nemčinu). Tento model si vyžaduje starostlivejšiu lingvistickú interpretáciu, hlavne v oblasti podobnosti morfém či iba náhodných podobných postupností písmen.

Vizualizácia

Sémantické príbuznosti slov v okolí vyhľadávaného výrazu sú zobrazené vo vizualizačnom poli. Používame 3 hlavné možnosti vizualizácie založené na redukcii dimenzionality a zobrazenie výsledkov použitím nástroja Gnuplot. Rozhranie umožňuje zobraziť výsledky redukcie do dvoch rozmerov v podobe dvojrozmerného grafu, redukcie do troch rozmerov v podobe projekcie trojrozmerného grafu, a pre používateľov schopných percepcie a konceptualizácie štvorrozmerného priestoru ponúkame redukciu do štyroch rozmerov, zobrazenú v podobe projekcie do trojrozmerného grafu, v ktorom je vzdialenosť pozdĺž ana-kata osi kódovaná v podobe farebnej informácie.

Dáta pre grafické zobrazenie v podobne krátkeho skriptu pre Gnuplot sú stiahnuteľné cez odkaz v podobe symbolu ⚙ a umožňujú prípadné ďalšie grafické spracovanie na strane používateľa (ako je napriklad rotácia, zväčšovanie a zmenšovanie grafov).

Download

Niektoré modely sú dostupné (vo formáte Gensim) tu: https://www.juls.savba.sk/data/semä/

Citácia

Garabík, Radovan. Word Embedding Based on Large-Scale Web Corpora as a Powerful Lexicographic Tool. Rasprave: Časopis Instituta za hrvatski jezik i jezikoslovlje 46, č. 2 (2020): 603-618. https://doi.org/10.31724/rihjj.46.2.8

História významných zmien

2026-04-09 nové vizualizácie (plotly)
2025-12-16 pridané modely korpusu SNK prim-11, aj 500 dimenzií
2022-09-02 pridané modely pre ukrajinčinu
2022-08-15 modely starších slovenských korpusov SNK
2021-09-01 nový lematizovaný model pre maďarčinu
2021-04-14 nové modely pre angličtinu (lema, slovo, fastText)
2020-06-29 nový fastText model pre češtinu
2020-06-20 nové modely pre francúzštinu
2020-05-11 nové modely pre češtinu (lema, slovo)
2020-03-23 nové modely pre čínsky jazyk
2020-03-02 odkaz na Diccionario de la lengua española pri španielskych modeloch
2020-02-04 nové modely pre slovenčinu (5.3 miliárd slov)
2019-10-24 pridaná možnosť priameho zápisu aritmetiky (premiér-muž+žena)
2019-10-20 chorvátsky model rozšírený o FastText
2019-10-17 slovinské odkazy rozšírené o Fran, slovarji Inštituta za slovenski jezik Frana Ramovša ZRC SAZU
2019-10-12 ruský model založený na korpuse Omnia Russica
2019-05-24 pridaný FastText model (pre niektoré jazyky)
2019-05-11 pridané štvorrozmené grafy
2019-05-10 sk ll model s extrémne nízkou hranicou výskytu slova
2019-05-03 vizualizácia v Gnuplote
2019-04-24 zmena modelu z lema na slovný druh+lema; normalizácia veľkosti písmen
2019-02-28 pridané jazyky: chorvátčina, slovinčina
2018-09 pridané jazyky: španielčina, estónčina
2018-06 pridané jazyky: angličtina, lotyština, francúzština
2018-05-02 modely z korpusov Aranea
2018-04-04 filtrovanie neznámych lem
2017-06-05 prvá verzia

Jazykovedný ústav Ľudovíta Štúra

Slovenskej akadémie vied, v. v. i.