Webový korpus slovenčiny ARANEUM + HPLT + FineWeb
Tento webový korpus je kombinácoiu korpusov Araneum Slovacum VII Maximum, High Performance Language Technologies, verzia 2.0 cleaned a Hugging Face FineWeb 2.
Korpus je deduplikovaný na úrovni odsekov.
Toto nie je podkorpus Slovenského národného korpusu, ani nevznikol v Oddelení Slovenského národného korpusu, ale úplne nezávisle.
Korpus je lematizovaný a morfologicky anotovaný, jeho veľkosť je 10.4 miliárd tokenov, 8.6 miliárd slov, 33.6 miliónov dokumentov.
Vyhľadávanie: NoSketch Engine, morfologická anotácia & lematizácia: MorphoDita.
História
- prvá sprístupnená verzia (0.1), 18. 3. 2025