Kliknite sem pre vyhľadávanie.

Metóda na automatické získavanie krátkych, zmysluplných príkladov z textových korpusov, ktorá zoradí príklady podľa skóre založenom na ich početnosti a požadovanej dĺžky. Môžete vyhľadávať podľa lemy, slova alebo ľubovoľného CQL vyhľadávania.

Možnosti nastavenia

  • korpus:
    • vyberte korpus
  • vyhľadaj:
    • buď tvar slova, lema alebo CQL výraz
  • typ hľadania:
    • auto: automaticky vyberie CQL, ak vstup vyzerá ako platné CQL, inak ho nahradí výrazom [lemma=“query” | word=“query”]
    • lema
    • tvar slova
    • CQL
  • Filter 1st
    • filtruje iba prvý výskyt v dokumente. Odporúčané zapnúť, okrem zriedkavých slov.
  • veľkosť vzorky
    • Veľkosť vzorky konkordancií. Zvýšte, ak sa nenájdete rozumné príklady alebo hľadáte zriedkavé frázy (spomaľuje vyhľadávanie).
  • ideálna dĺžka
    • Príklady tejto veľkosti (v tokenoch) majú lepšie skóre.
  • váha dlhého kontextu
    • Uprednostňuje dlhší kontext (dlhší ako ideálna dĺžka), násobené týmto faktorom. Číslo d 0 do 10; rozumné hodnoty sú zvyčajne medzi 0.5 a 3.
  • váha ľavého kontextu, váha pravého kontextu
    • Násobí dĺžku ľavého alebo pravého kontextu týmto číslom. Použite na (ne)vyváženie ľavého a pravého kontextu podľa požadovaných syntaktických vlastností. Užitočné hodnoty sú medzi 0 a 1.
  • minimálny počet vo vzorke
    • Ľavý kontext, pravý kontext a celý príklad sa musia vyskytovať aspoň toľkokrát vo vzorke. 2 je dobrá hodnota; 1 je užitočná len na testovanie (a skórovanie, vráti všetko); môžete zvýšiť hodnotu pre bežné frázy a veľké vzorky.

Kliknite sem pre rozhranie.

Citácia

Radovan Garabík, Agáta Karčová: Analyzing grammatical anomalies in lexical data for fun and profit. In: Júlia Ballagó, Veronika Lipp (eds.) 1st International Conference on Lexicology and Lexicography. Book of abstracts. Budapest: ELTE Research Centre for Linguistics, 2025. pp. 23-24.


Táto práca bola podporená projektom CA21167 UniDive, financovaným programom COST.