JÚĽŠ typicalities

Kliknite sem pre vyhľadávanie.

Metóda na automatické získavanie krátkych, zmysluplných príkladov z textových korpusov, ktorá zoradí príklady podľa skóre založenom na ich početnosti a požadovanej dĺžky. Môžete vyhľadávať podľa lemy, slova alebo ľubovoľného CQL vyhľadávania. Obzvlášť vhodné pre príklady iných tvarov slov, než lema.

Možnosti nastavenia

korpus:
- vyberte korpus
vyhľadaj:
- buď tvar slova, lema alebo CQL výraz
typ hľadania:
- auto: automaticky vyberie CQL, ak vstup vyzerá ako platné CQL, inak ho nahradí výrazom [lemma=“query” | word=“query”]
- lema
- tvar slova
- CQL
Filter 1st
- filtruje iba prvý výskyt v dokumente. Odporúčané zapnúť, okrem zriedkavých slov.
veľkosť vzorky
- Veľkosť vzorky konkordancií. Zvýšte, ak sa nenájdete rozumné príklady alebo hľadáte zriedkavé frázy (spomaľuje vyhľadávanie).
ideálna dĺžka
- Príklady tejto veľkosti (v tokenoch) majú lepšie skóre.
váha dlhého kontextu
- Uprednostňuje dlhší kontext (dlhší ako ideálna dĺžka), násobené týmto faktorom. Číslo d 0 do 10; rozumné hodnoty sú zvyčajne medzi 0.5 a 3.
váha ľavého kontextu, váha pravého kontextu
- Násobí dĺžku ľavého alebo pravého kontextu týmto číslom. Použite na (ne)vyváženie ľavého a pravého kontextu podľa požadovaných syntaktických vlastností. Užitočné hodnoty sú medzi 0 a 1.
minimálny počet vo vzorke
- Ľavý kontext, pravý kontext a celý príklad sa musia vyskytovať aspoň toľkokrát vo vzorke. 2 je dobrá hodnota; 1 je užitočná len na testovanie (a skórovanie, vráti všetko); môžete zvýšiť hodnotu pre bežné frázy a veľké vzorky.

Kliknite sem pre rozhranie.

História

2026-01-20 pridané priame zobrazenie konkordancií
2026-01-15 pridané korpusy Omnia Slovaca
2025-10-09 prvá verzia

Citácia

Radovan Garabík, Agáta Karčová: Analyzing grammatical anomalies in lexical data for fun and profit. In: Júlia Ballagó, Veronika Lipp (eds.) 1st International Conference on Lexicology and Lexicography. Book of abstracts. Budapest: ELTE Research Centre for Linguistics, 2025. pp. 23-24.

Táto práca bola podporená projektom CA21167 UniDive, financovaným programom COST.

Jazykovedný ústav Ľudovíta Štúra

Slovenskej akadémie vied, v. v. i.

Možnosti nastavenia

História

Citácia