Webový korpus slovenčiny HPLT

Tento webový korpus je spracovaný z datasetu projektu High Performance Language Technologies, verzie 1.1. Korpus dopĺňa naše existujúce webové korpusy slovenčiny, Araneum Slovacum VI Beta a web-6.0. Ide o prvú, pilotnú verziu korpusu, a tak k nej aj treba pristupovať.

Korpus je lematizovaný a morfologicky anotovaný, je deduplikovaný na úrovni dokumentov, veľkosť korpusu je 5 miliárd tokenov, 3.7 miliárd slov, 4.6 miliónov dokumentov.

Vyhľadávanie: NoSketch Engine, morfologicá anotácia & lematizácia: MorphoDita.

História

  • prvá sprístupnená verzia (0.1), 14. 11. 2023