Korpus právnych predpisov v slovenčine
Korpus obsahuje texty právnych predpisov (aktuálnych aj minulých) v slovenčine. Okrem automatickej lematizácie a morfologickej anotácie je korpus anotovaný aj syntakticky (ide o historicky prvý sprístupnený veľký syntakticky anotovaný slovenský korpus). Anotácie uzlov (syntaktické relácie) sú označené atribútom deprel, podľa koncepcie Universal Depenencies.
Toto nie je podkorpus Slovenského národného korpusu, ani nevznikol v Oddelení Slovenského národného korpusu, ale úplne nezávisle.
Vizualizácia syntaktických štruktúr: po zobrazení anotácie dokumentu (kliknutím na referenciu (anotáciu v ľavom stĺpci) v konkordancii) je graf v odkaze na atribút štruktúry <s.tree>.
Vyhľadávanie: NoSketch Engine, morfologicá anotácia & lematizácia: MorphoDita, syntaktická anotácia: UDPipe, vizualizácia: conllu viewer; právne predpisy poskytuje právny a informačný portál Ministerstva spravodlivosti SR Slov-Lex. Celý korpus je možné stiahnuť tu.
Citácia: GARABÍK, Radovan: Corpus of Slovak legislative documents. Jazykovedný časopis, 2022, Vol. 73, No 2, pp. 175-189.
História
- verzia 1.9, texty z obdobia 1955 – 1. 2. 2022, vylepšená lematizácia a morfologická anotácia, 45 miliónov tokenov, 22. 3. 2022
- verzia 1.4, texty z obdobia 1955 – 31. 12. 2020, vylepšené označenie pomenovaných entít, 43 miliónov tokenov, 4. 2. 2021
- verzia 1.0 je priamo celá stiahnuteľná, 2. 3. 2020
- verzia 1.0 bola sprístupnená dňa 11. 2. 2020; pribudlo označkovanie pomenovaných entít (atribút ne, v BIO formáte; v testovacom režime)
- verzia 0.8 bola sprístupnená dňa 20. 12. 2019; korpus je sémanticky (terminologicky) označkovaný podľa prítomnosti IATE termínov a pomocou EuroVoc teazura; korpus právnych predpisov ku dňu 1. 7. 2019; 32 019 101 tokenov, 22 705 741 slov, 2 473 118 viet, 13 600 dokumentov; táto verzia obsahuje iba texty vzniknuté v r. 1993 a novšie; ide stále o pracovnú verziu
- verzia 0.4 bola sprístupnená dňa 16. 8. 2019; korpus právnych predpisov ku dňu 1. 7. 2019; 48 643 825 tokenov, 35 283 275 slov, 3 77 408 viet, 23 066 dokumentov
Projekt je spolufinancovaný Európskou úniou prostredníctvom Nástroja na prepájanie Európy. O projekte.