DIAKRITIK – nástroj na rekonštrukciu diakritiky

Rekonštrukcia je založená na využití n-gramového jazykového modelu postaveného na veľkom korpuse textov slovenského jazyka.

Na rekonštrukciu je možné použiť niektorú z nasledujúcich metód s rôznym pomerom chybovosť/rýchlosť/účel:

first

Vyberie na rekonštrukciu prvú z možných možností.

random

Každé slovo, ktoré sa dá, nahradí náhodným slovom s diakritikou.

naïve

Vyberie najčastejšie sa vyskytujúce slová s diakritikou.

n-gram

Použije jazykový model – slová sú rekonštruované v úsekoch dĺžky n tak, aby bola pravdepodobnosť výskytu výslednej vety v slovenčine čo najvyššia. Čím vyššie n, tým lepšia presnosť, ale tým aj väčšia výpočtová náročnosť. Zlepšenia nad n>4 sú minimálne.

odstran diakritiku

Opačný postup, nástroj zo zadaného textu diakritiku odstráni.

Chybovosť rekonštruovaného textu, teda pomer slov s nesprávne určenou diakritikou, sa pohybuje okolo 0.2 %, t. j. zhruba jedno slovo z päťsto bude zrekonštruované nesprávne. Čím je text podobnejší štandardnej slovenčine, tým je jeho rekonštrukcia úspešnejšia.


Metoda:

Ďalšie odkazy

Nástroj na rekonštrukciu diakritiky bol pôvodne sprístupnený v SNK 18. 8. 2014. Rekonštrukcia je dostupná na adrese https://diakritik.juls.savba.sk/