Slovenská reč – časopis pre výskum slovenského jazyka

Korpus časopisu Slovenská reč

Prístup ku korpusu

Korpus obsahuje texty takmer všetkých čísel od r. 1932.

Okrem automatickej lematizácie a morfologickej anotácie je korpus anotovaný aj syntakticky podľa koncepcie Universal Depenencies. Vyhľadávať podľa prepojených uzlov nie je možné.

Vizualizácia syntaktických štruktúr: po zobrazení anotácie dokumentu (kliknutím na referenciu (anotáciu v ľavom stĺpci) v konkordancii) je graf v odkaze na atribút štruktúry <s.tree>.

Vyhľadávanie: NoSketch Engine, morfologicá anotácia & lematizácia: MorphoDita, syntaktická anotácia: UDPipe, vizualizácia: conllu viewer.

Texty obsahujú nezanedbateľné množstvo OCR chýb, viditeľných hlavne pri starších ročníkoch.

Popis atribútov:

doc.date

dátum (rok)

doc.issue

číslo

doc.name

názov čísla (Slovenská reč + rok a číslo)

doc.url

odkaz na číslo v PDF formáte

doc.wordcount

počet slov v dokumente

doc.tokcount

počet tokenov (slov, interpunkcie a iných) v dokumente

s.tree

zobrazenie syntaktickej štruktúry vety

s.shash

jednoznačný identifikátor vety

Popis pozícií:

word

slovo (tvar)

lemma

lema

tag

morfologická značka

guess

0 ak je slovo prítomné v morfologickej databáze; 1 ak je slovo neznáme a lema a morfologická značka sú hádané heuristicky

prec

množstvo kombinácií lema+morologická značka, medzi ktorými sa lematizátor rozhodoval pri určení lemy a značky

head

poradové číslo tokenu vo vete, ku ktorému sa syntakticky viaže aktuálny token

deprel

typ syntaktickej relácie medzi aktuálnym tokenom a jemu nadradeným

word (lowercase)

slovo malými písmenami