Webový korpus slovenčiny HPLT

Tento webový korpus je spracovaný z datasetu projektu High Performance Language Technologies, verzie 1.2. Korpus dopĺňa naše existujúce webové korpusy slovenčiny, Araneum Slovacum VI Beta a web-6.0.

Korpus je lematizovaný a morfologicky anotovaný, je deduplikovaný na úrovni dokumentov, veľkosť korpusu je 18 miliárd tokenov, 12 miliárd slov, 14 miliónov dokumentov.

Vyhľadávanie: NoSketch Engine, morfologická anotácia & lematizácia: MorphoDita.

Deduplikovaný podkorpus

Deduplikovaný (na úrovni odsekov) podkorpus je navyše anotovaný syntakticky. Veľkosť podkorpusu je 4 miliardy tokenov, 3 miliardy slov. Anotácie uzlov (syntaktické relácie) sú označené atribútom deprel, podľa koncepcie Universal Depenencies. Vyhľadávať podľa prepojených uzlov zatiaľ nie je možné.

Vizualizácia syntaktických štruktúr: po zobrazení anotácie dokumentu (kliknutím na referenciu (anotáciu v ľavom stĺpci) v konkordancii) je graf v odkaze na atribút štruktúry <s.tree>.

Vyhľadávanie: NoSketch Engine, morfologická anotácia & lematizácia: MorphoDita, syntaktická anotácia: UDPipe, vizualizácia: conllu viewer.

História

  • nová verzia korpusu (0.3), 2. 1. 2024
  • deduplikovaný syntakticky anotovaný podporpus (0.3), 31. 12. 2023
  • deduplikovaný syntakticky anotovaný podporpus (0.2), 29. 11. 2023
  • prvá sprístupnená verzia (0.1), 14. 11. 2023