Korpus časopisu Slovenská reč
Korpus obsahuje texty takmer všetkých čísel od r. 1932.
Okrem automatickej lematizácie a morfologickej anotácie je korpus anotovaný aj syntakticky podľa koncepcie Universal Depenencies. Vyhľadávať podľa prepojených uzlov nie je možné.
Toto nie je podkorpus Slovenského národného korpusu, ani nevznikol v Oddelení Slovenského národného korpusu, ale úplne nezávisle.
Vizualizácia syntaktických štruktúr: po zobrazení anotácie dokumentu (kliknutím na referenciu (anotáciu v ľavom stĺpci) v konkordancii) je graf v odkaze na atribút štruktúry <s.tree>.
Vyhľadávanie: NoSketch Engine, morfologicá anotácia & lematizácia: MorphoDita, syntaktická anotácia: UDPipe, vizualizácia: conllu viewer.
Texty obsahujú nezanedbateľné množstvo OCR chýb, viditeľných hlavne pri starších ročníkoch.
Popis atribútov:
doc.date |
dátum (rok) |
doc.issue |
číslo |
doc.name |
názov čísla (Slovenská reč + rok a číslo) |
doc.url |
odkaz na číslo v PDF formáte |
doc.wordcount |
počet slov v dokumente |
doc.tokcount |
počet tokenov (slov, interpunkcie a iných) v dokumente |
s.tree |
zobrazenie syntaktickej štruktúry vety |
s.shash |
jednoznačný identifikátor vety |
Popis pozícií:
word |
slovo (tvar) |
lemma |
lema |
tag |
morfologická značka |
guess |
0 ak je slovo prítomné v morfologickej databáze; 1 ak je slovo neznáme a lema a morfologická značka sú hádané heuristicky |
prec |
množstvo kombinácií lema+morologická značka, medzi ktorými sa lematizátor rozhodoval pri určení lemy a značky |
head |
poradové číslo tokenu vo vete, ku ktorému sa syntakticky viaže aktuálny token |
deprel |
typ syntaktickej relácie medzi aktuálnym tokenom a jemu nadradeným |
word (lowercase) |
slovo malými písmenami |