Korpus časopisu Slovenská reč

Korpus obsahuje texty takmer všetkých čísel od r. 1932.

Okrem automatickej lematizácie a morfologickej anotácie je korpus anotovaný aj syntakticky podľa koncepcie Universal Depenencies. Vyhľadávať podľa prepojených uzlov nie je možné.

Toto nie je podkorpus Slovenského národného korpusu, ani nevznikol v Oddelení Slovenského národného korpusu, ale úplne nezávisle.

Vizualizácia syntaktických štruktúr: po zobrazení anotácie dokumentu (kliknutím na referenciu (anotáciu v ľavom stĺpci) v konkordancii) je graf v odkaze na atribút štruktúry <s.tree>.

Vyhľadávanie: NoSketch Engine, morfologicá anotácia & lematizácia: MorphoDita, syntaktická anotácia: UDPipe, vizualizácia: conllu viewer.

Texty obsahujú nezanedbateľné množstvo OCR chýb, viditeľných hlavne pri starších ročníkoch.

Popis atribútov:

doc.date	dátum (rok)
doc.issue	číslo
doc.name	názov čísla (Slovenská reč + rok a číslo)
doc.url	odkaz na číslo v PDF formáte
doc.wordcount	počet slov v dokumente
doc.tokcount	počet tokenov (slov, interpunkcie a iných) v dokumente
s.tree	zobrazenie syntaktickej štruktúry vety
s.shash	jednoznačný identifikátor vety

Popis pozícií:

word	slovo (tvar)
lemma	lema
tag	morfologická značka
guess	0 ak je slovo prítomné v morfologickej databáze; 1 ak je slovo neznáme a lema a morfologická značka sú hádané heuristicky
prec	množstvo kombinácií lema+morologická značka, medzi ktorými sa lematizátor rozhodoval pri určení lemy a značky
head	poradové číslo tokenu vo vete, ku ktorému sa syntakticky viaže aktuálny token
deprel	typ syntaktickej relácie medzi aktuálnym tokenom a jemu nadradeným
word (lowercase)	slovo malými písmenami