Chybový korpus slovenčiny
Chybový korpus CHIBY založený na revíziách slovenskej Wikipédie. Tento korpus obsahuje revízie textov (odsekov) s automatickou anotáciou typu zmien; cieľom je maximalizovať inkluzívnosť, takže zahrnuté sú (po uplatení jednoduchých filtrov na vhodnosť a legitimitu zmien) všetky za sebou nasledujúce revízie, čo na druhej strane zvyšuje pravdepodobnosť, že do korpusu cez filtre prenikli aj vandalské zmeny. Vzhľadom na nízke číslo verzie sú obsah a anotácia korpusu zatiaľ nestále a môžu podliehať značným zmenám.
Toto nie je podkorpus Slovenského národného korpusu, ani nevznikol v Oddelení Slovenského národného korpusu, ale úplne nezávisle.
Rozlišujú sa nasledujúce anotácie zmien (zodpovedajú štruktúram v korpusovom manažéri, kde sa zobrazujú intuitívnymi skratkami):
- spelling – zmena v pravopise slova
- punct – zmena v interpunkcii
- typographical – typografická úprava
- diacritics – zmena (iba) v diakritike
- capitalisation – zmena (iba) vo veľkosti písmen
- lexicosemantic – všeobecná zmena slova alebo viacerých slov
- unclassified – všetko ostatné
Revízie v bielych znakoch nie sú zvlášť označené, prejavia sa v rozdielnych medzerách v paralelnom zobrazení textu.
História zmien
- 18. 12. 2024 – aktuálna verzia v0.4 založená na Wikipédii k 1. 12. 2024 obsahuje 718 610 viet (15 028 790 tokenov, 11 087 501 slov)
- 5. 8. 2019 – aktuálna verzia v0.3 priniesla doplnenie štruktúr <capitalisation> a <typographical>, presun zmien v číslicách do <unclassified> a sprístupnenie dátových súborov
- 25. 7. 2019 – prvé sprístupnenie verejnosti, verzia v0.2 založená na Wikipédii k 1. 7. 2019 obsahuje 573 689 viet (11 8301 44 tokenov, 8 713 055 slov)
- predchádzajúca verzia v0.1 slúžila len na interný vývoj a testovanie
Používa Wiki Edits 2.0.