Webový korpus slovenčiny ARANEUM + HPLT + FineWeb

Tento webový korpus je kombinácoiu korpusov Araneum Slovacum VII Maximum, High Performance Language Technologies, verzia 2.0 cleaned a Hugging Face FineWeb 2.

Korpus je deduplikovaný na úrovni odsekov.

Toto nie je podkorpus Slovenského národného korpusu, ani nevznikol v Oddelení Slovenského národného korpusu, ale úplne nezávisle.

Korpus je lematizovaný a morfologicky anotovaný, jeho veľkosť je 10.4 miliárd tokenov, 8.6 miliárd slov, 33.6 miliónov dokumentov.

Vyhľadávanie: NoSketch Engine, morfologická anotácia & lematizácia: MorphoDita.

História

  • prvá sprístupnená verzia (0.1), 18. 3. 2025