Korpus syntetických paralelných slovensko-česko-anglických textov
Korpus obsahuje texty vygenerované veľkým jazykovým modelom gpt-4o-mini-2024-07-18. Ako zdroj pre generovanie slovenských textov slúžili útržky textov webového korpusu, ktoré sa ale v syntentických textoch už nevyskytujú.
Toto nie je podkorpus Slovenského národného korpusu, ani nevznikol v Oddelení Slovenského národného korpusu.
Korpus je dostupný ako stiahnuteľný dataset tu.
Varovanie: texty v korpuse obsahujú veľa nepravdivých a vymyslených údajov (halucinácií).
Pozri aj
História
- 2. 2. 2025: prvá verzia