Korpus právnych predpisov v slovenčine

Korpus obsahuje texty právnych predpisov (aktuálnych aj minulých) v slovenčine. Okrem automatickej lematizácie a morfologickej anotácie je korpus anotovaný aj syntakticky (ide o historicky prvý sprístupnený veľký syntakticky anotovaný slovenský korpus). Anotácie uzlov (syntaktické relácie) sú označené atribútom deprel, podľa koncepcie Universal Depenencies. Vyhľadávať podľa prepojených uzlov zatiaľ nie je možné.

Vizualizácia syntaktických štruktúr: po zobrazení anotácie dokumentu (kliknutím na referenciu (anotáciu v ľavom stĺpci) v konkordancii) je graf v odkaze na atribút štruktúry <s.tree>.

Vyhľadávanie: NoSketch Engine, morfologicá anotácia & lematizácia: MorphoDita, syntaktická anotácia: UDPipe, vizualizácia: conllu viewer; právne predpisy poskytuje právny a informačný portál Ministerstva spravodlivosti SR Slov-Lex. Celý korpus je možné stiahnuť tu.

Citácia: T. Váradi, S. Koeva, M. Yamalov, M. Tadić, B. Sass, B. Nitoń, M. Ogrodniczuk, P. Pęzik, V. Barbu Mititelu, R. Ion, E. Irimia, M. Mitrofan, V. Păiș, D. Tufiș, R. Garabík, S. Krek, A. Repar, M. Rihtar: The MARCELL Legislative Corpus. In: Proceedings of The 12th Language Resources; Evaluation Conference, May 2020. Marseille, France, European Language Resources Association, pp. 3754–3761.

História

  • verzia 1.0 je priamo celá stiahnuteľná, 2. 3. 2020
  • verzia 1.0 bola sprístupnená dňa 11. 2. 2020; pribudlo označkovanie pomenovaných entít (atribút ne, v BIO formáte; v testovacom režime)

  • verzia 0.8 bola sprístupnená dňa 20. 12. 2019; korpus je sémanticky (terminologicky) označkovaný podľa prítomnosti IATE termínov a pomocou EuroVoc teazura; korpus právnych predpisov ku dňu 1. 7. 2019; 32 019 101 tokenov, 22 705 741 slov, 2 473 118 viet, 13 600 dokumentov; táto verzia obsahuje iba texty vzniknuté v r. 1993 a novšie; ide stále o pracovnú verziu

  • verzia 0.4 bola sprístupnená dňa 16. 8. 2019; korpus právnych predpisov ku dňu 1. 7. 2019; 48 643 825 tokenov, 35 283 275 slov, 3 77 408 viet, 23 066 dokumentov


Projekt je spolufinancovaný Európskou úniou prostredníctvom Nástroja na prepájanie Európy.