Kliknite sem pre vyhľadávanie.
Metóda na automatické získavanie krátkych, zmysluplných príkladov z textových korpusov, ktorá zoradí príklady podľa skóre založenom na ich početnosti a požadovanej dĺžky. Môžete vyhľadávať podľa lemy, slova alebo ľubovoľného CQL vyhľadávania.
Možnosti nastavenia
- korpus:
- vyberte korpus
- vyhľadaj:
- buď tvar slova, lema alebo CQL výraz
- typ hľadania:
- auto: automaticky vyberie CQL, ak vstup vyzerá ako platné CQL, inak ho nahradí výrazom [lemma=“query” | word=“query”]
- lema
- tvar slova
- CQL
- Filter 1st
- filtruje iba prvý výskyt v dokumente. Odporúčané zapnúť, okrem zriedkavých slov.
- veľkosť vzorky
- Veľkosť vzorky konkordancií. Zvýšte, ak sa nenájdete rozumné príklady alebo hľadáte zriedkavé frázy (spomaľuje vyhľadávanie).
- ideálna dĺžka
- Príklady tejto veľkosti (v tokenoch) majú lepšie skóre.
- váha dlhého kontextu
- Uprednostňuje dlhší kontext (dlhší ako ideálna dĺžka), násobené týmto faktorom. Číslo d 0 do 10; rozumné hodnoty sú zvyčajne medzi 0.5 a 3.
- váha ľavého kontextu, váha pravého kontextu
- Násobí dĺžku ľavého alebo pravého kontextu týmto číslom. Použite na (ne)vyváženie ľavého a pravého kontextu podľa požadovaných syntaktických vlastností. Užitočné hodnoty sú medzi 0 a 1.
- minimálny počet vo vzorke
- Ľavý kontext, pravý kontext a celý príklad sa musia vyskytovať aspoň toľkokrát vo vzorke. 2 je dobrá hodnota; 1 je užitočná len na testovanie (a skórovanie, vráti všetko); môžete zvýšiť hodnotu pre bežné frázy a veľké vzorky.
Citácia
Radovan Garabík, Agáta Karčová: Analyzing grammatical anomalies in lexical data for fun and profit. In: Júlia Ballagó, Veronika Lipp (eds.) 1st International Conference on Lexicology and Lexicography. Book of abstracts. Budapest: ELTE Research Centre for Linguistics, 2025. pp. 23-24.
Táto práca bola podporená projektom CA21167 UniDive, financovaným programom COST.