Sémantická podobnosť slov

Základné použitie

  1. vyberte si jazyk
  2. napíšte slovo
    • napríklad pivo ukáže slová významovo podobné pivu; v českom modeli je vidno, ako je pivo v češtine (na rozdiel od slovenčiny) vnímané presnejšie, poetickejšie, s vyhranenejšími sémantickými skupinami v okolí
    • alebo zoznam slov, alebo priamo aritmetický výraz: Bratislava - Slovensko + Francúzsko by malo dať ako najbližší výraz Paríž
    • alebo čo je ekvivalentom slova pes v ženskom rode? pes - on + ona
    • ustálené (dvoj)slovné spojenia je možné vyhľadávať tiež, spojením slov znakom _ (podčiarkovník), napríklad kukuričný_sirup
  3. vyberte si model
  4. vyberte si vizualizáciu
  5. kliknite na Choď!

»Vyhľadávacie rozhranie«

O modeloch

Pre každý korpus sú vybudované tri modely - model založený na kombinácii lemy a príslušného slovného druhu, model založený na slovných tvaroch a model založený na algoritme FastText. Pri tvorbe modelov je použitá aplikácia gensim.

Pre slovenčinu existujú dve skupiny modelov, prvá vznikla pri štandardnom nastavení, druhá skupina, označená v rozhraní ako sk ll má nastavenú dolnú hranicu extrémne nízko, na hodnotu 10 výskytov v korpuse. Takáto nízka hranica umožňuje zachytiť aj okrajové lexikálne javy v jazyku, za cenu zvýšeného množstva nadbytočných, nie správnych výsledkov (preklepy, nesprávna lematizácia, nesprávna tokenizácia). Tieto modely sú preto obzvlášť vhodné pre lingvistickú prácu, keďže tu je často potrebné skúmať slová s nižším počtom výskytov a skúsený jazykovedec dokáže bez problémov odfiltrovať nesprávne alebo redundantné výsledky.

Model založený na lemách dáva najintuintívnejšie výsledky - vstupom do modelu je lema, výsledkom je zoznam sémanticky blízkych lem, a model umožňuje získať relevantné výsledky pri menších korpusoch a menej častých slovách, než druhé dva modely. Avšak tento model je zároveň najcitlivejší na chyby vyskytujúce sa v korpuse, obzvlášť chyby v lematizácii, hlavne ak uvážime, že propriá sa často nenachádzajú v morfologickej databáze používanej pri lematizácii a ich lemy su potom vysledkom heuristicko-štatistického hádania (v lematizácii nielen slovenského korpusu).

Model založený na slovných tvaroch poskytuje neskreslené výsledky (skreslenie môže nastať v kapitalizácii slov, alebo nesprávnou tokenizáciou textu).

Model založený na FastText-e ráta s vektorovou reprezentáciou 3- až 6-gramov písmen vo vnútri slova. Umožňuje získať aj vektor zodpovedajúci slovu nenachádzajúcemu sa v korpuse, je odolný voči preklepom, a použitie podreťazcov dokáže často (ale nie vždy) odhaliť či použiť sémantické vlastnosti morfém vo vnútri slova, alebo zložených slov (čo je vlastnosť obzvlášť užitočná pre nemčinu). Tento model si vyžaduje starostlivejšiu lingvistickú interpretáciu, hlavne v oblasti podobnosti morfém či iba náhodných podobných postupností písmen.

Vizualizácia

Sémantické príbuznosti slov v okolí vyhľadávaného výrazu sú zobrazené vo vizualizačnom poli. Používame 3 hlavné možnosti vizualizácie založené na redukcii dimenzionality a zobrazenie výsledkov použitím nástroja Gnuplot. Rozhranie umožňuje zobraziť výsledky redukcie do dvoch rozmerov v podobe dvojrozmerného grafu, redukcie do troch rozmerov v podobe projekcie trojrozmerného grafu, a pre používateľov schopných percepcie a konceptualizácie štvorrozmerného priestoru ponúkame redukciu do štyroch rozmerov, zobrazenú v podobe projekcie do trojrozmerného grafu, v ktorom je vzdialenosť pozdĺž ana-kata osi kódovaná v podobe farebnej informácie.

Dáta pre grafické zobrazenie v podobne krátkeho skriptu pre Gnuplot sú stiahnuteľné cez odkaz v podobe symbolu ⚙ a umožňujú prípadné ďalšie grafické spracovanie na strane používateľa (ako je napriklad rotácia, zväčšovanie a zmenšovanie grafov).

Download

Niektoré modely sú dostupné (vo formáte Gensim) tu: https://www.juls.savba.sk/data/semä/

Citácia

Garabík, Radovan. Word Embedding Based on Large-Scale Web Corpora as a Powerful Lexicographic Tool. Rasprave: Časopis Instituta za hrvatski jezik i jezikoslovlje 46, č. 2 (2020): 603-618. https://doi.org/10.31724/rihjj.46.2.8

História významných zmien

  • 2022-09-02 pridané modely pre ukrajinčinu
  • 2022-08-15 modely starších slovenských korpusov SNK
  • 2021-09-01 nový lematizovaný model pre maďarčinu
  • 2021-04-14 nové modely pre angličtinu (lema, slovo, fastText)
  • 2020-06-29 nový fastText model pre češtinu
  • 2020-06-20 nové modely pre francúzštinu
  • 2020-05-11 nové modely pre češtinu (lema, slovo)
  • 2020-03-23 nové modely pre čínsky jazyk
  • 2020-03-02 odkaz na Diccionario de la lengua española pri španielskych modeloch
  • 2020-02-04 nové modely pre slovenčinu (5.3 miliárd slov)
  • 2019-10-24 pridaná možnosť priameho zápisu aritmetiky (premiér-muž+žena)
  • 2019-10-20 chorvátsky model rozšírený o FastText
  • 2019-10-17 slovinské odkazy rozšírené o Fran, slovarji Inštituta za slovenski jezik Frana Ramovša ZRC SAZU
  • 2019-10-12 ruský model založený na korpuse Omnia Russica
  • 2019-05-24 pridaný FastText model (pre niektoré jazyky)
  • 2019-05-11 pridané štvorrozmené grafy
  • 2019-05-10 sk ll model s extrémne nízkou hranicou výskytu slova
  • 2019-05-03 vizualizácia v Gnuplote
  • 2019-04-24 zmena modelu z lema na slovný druh+lema; normalizácia veľkosti písmen
  • 2019-02-28 pridané jazyky: chorvátčina, slovinčina
  • 2018-09 pridané jazyky: španielčina, estónčina
  • 2018-06 pridané jazyky: angličtina, lotyština, francúzština
  • 2018-05-02 modely z korpusov Aranea
  • 2018-04-04 filtrovanie neznámych lem
  • 2017-06-05 prvá verzia

© 2017 – 2024 Radovan Garabík