Webový korpus slovenčiny ARANEUM + HPLT + FineWeb2

Tento webový korpus je kombinácoiu korpusov Araneum Slovacum VII Maximum, High Performance Language Technologies, verzia 2.0 cleaned a Hugging Face FineWeb 2.

Korpus je deduplikovaný na úrovni odsekov.

Toto nie je podkorpus Slovenského národného korpusu, ani nevznikol v Oddelení Slovenského národného korpusu, ale úplne nezávisle.

Korpus je lematizovaný a morfologicky anotovaný, jeho veľkosť je 10.4 miliárd tokenov, 8.6 miliárd slov, 33.6 miliónov dokumentov.

Vyhľadávanie: NoSketch Engine, morfologická anotácia & lematizácia: MorphoDita.

Citácia

GARABÍK, Radovan. Webový korpus slovenčiny ARANEUM + HPLT + FineWeb2. In Kultúra slova, 2025, roč. 59, č. 5, s. 292-297. ISSN 0023-5202.

História

  • prvá sprístupnená verzia (0.1), 18. 3. 2025