Webový korpus slovenčiny HPLT

Tento webový korpus je spracovaný z datasetu projektu High Performance Language Technologies, verzie 2.0 cleaned. Korpus dopĺňa naše existujúce webové korpusy slovenčiny, Araneum Slovacum VI Beta a web-6.0.

Toto nie je podkorpus Slovenského národného korpusu, ani nevznikol v Oddelení Slovenského národného korpusu, ale úplne nezávisle.

Korpus je lematizovaný a morfologicky anotovaný, je dodatočne deduplikovaný na úrovni dokumentov, veľkosť korpusu je 5.2 miliárd tokenov, 4.3 miliárd slov, 21 miliónov dokumentov.

Vyhľadávanie: NoSketch Engine, morfologická anotácia & lematizácia: MorphoDita.

Deduplikovaný podkorpus

Deduplikovaný (na úrovni odsekov) podkorpus je navyše anotovaný syntakticky. Veľkosť podkorpusu je je 2.7 miliárd tokenov, 2.2 miliárd slov. Anotácie uzlov (syntaktické relácie) sú označené atribútom deprel, podľa koncepcie Universal Depenencies. Vyhľadávať podľa prepojených uzlov zatiaľ nie je možné.

Vizualizácia syntaktických štruktúr: po zobrazení anotácie dokumentu (kliknutím na referenciu (anotáciu v ľavom stĺpci) v konkordancii) je graf v odkaze na atribút štruktúry <s.tree>.

Vyhľadávanie: NoSketch Engine, morfologická anotácia & lematizácia: MorphoDita, syntaktická anotácia: UDPipe, vizualizácia: conllu viewer.

História

  • nová verzia korpusu (0.4), 8. 11. 2024
  • nová verzia korpusu (0.3), 2. 1. 2024
  • deduplikovaný syntakticky anotovaný podporpus (0.3), 31. 12. 2023
  • deduplikovaný syntakticky anotovaný podporpus (0.2), 29. 11. 2023
  • prvá sprístupnená verzia (0.1), 14. 11. 2023