Webový korpus slovenčiny HPLT
Tento webový korpus je spracovaný z datasetu projektu High Performance Language Technologies, verzie 1.1. Korpus dopĺňa naše existujúce webové korpusy slovenčiny, Araneum Slovacum VI Beta a web-6.0. Ide o prvú, pilotnú verziu korpusu, a tak k nej aj treba pristupovať.
Korpus je lematizovaný a morfologicky anotovaný, je deduplikovaný na úrovni dokumentov, veľkosť korpusu je 5 miliárd tokenov, 3.7 miliárd slov, 4.6 miliónov dokumentov.
Vyhľadávanie: NoSketch Engine, morfologicá anotácia & lematizácia: MorphoDita.
História
- prvá sprístupnená verzia (0.1), 14. 11. 2023