Webový korpus slovenčiny HPLT
Tento webový korpus je spracovaný z datasetu projektu High Performance Language Technologies, verzie 1.2. Korpus dopĺňa naše existujúce webové korpusy slovenčiny, Araneum Slovacum VI Beta a web-6.0.
Korpus je lematizovaný a morfologicky anotovaný, je deduplikovaný na úrovni dokumentov, veľkosť korpusu je 18 miliárd tokenov, 12 miliárd slov, 14 miliónov dokumentov.
Vyhľadávanie: NoSketch Engine, morfologická anotácia & lematizácia: MorphoDita.
Deduplikovaný podkorpus
Deduplikovaný (na úrovni odsekov) podkorpus je navyše anotovaný syntakticky. Veľkosť podkorpusu je 4 miliardy tokenov, 3 miliardy slov. Anotácie uzlov (syntaktické relácie) sú označené atribútom deprel, podľa koncepcie Universal Depenencies. Vyhľadávať podľa prepojených uzlov zatiaľ nie je možné.
Vizualizácia syntaktických štruktúr: po zobrazení anotácie dokumentu (kliknutím na referenciu (anotáciu v ľavom stĺpci) v konkordancii) je graf v odkaze na atribút štruktúry <s.tree>.
Vyhľadávanie: NoSketch Engine, morfologická anotácia & lematizácia: MorphoDita, syntaktická anotácia: UDPipe, vizualizácia: conllu viewer.
História
- nová verzia korpusu (0.3), 2. 1. 2024
- deduplikovaný syntakticky anotovaný podporpus (0.3), 31. 12. 2023
- deduplikovaný syntakticky anotovaný podporpus (0.2), 29. 11. 2023
- prvá sprístupnená verzia (0.1), 14. 11. 2023