Chybový korpus slovenčiny

Chybový korpus CHIBY založený na revíziách slovenskej Wikipédie. Tento korpus obsahuje revízie textov (odsekov) s automatickou anotáciou typu zmien; cieľom je maximalizovať inkluzívnosť, takže zahrnuté sú (po uplatení jednoduchých filtrov na vhodnosť a legitimitu zmien) všetky za sebou nasledujúce revízie, čo na druhej strane zvyšuje pravdepodobnosť, že do korpusu cez filtre prenikli aj vandalské zmeny. Vzhľadom na nízke číslo verzie sú obsah a anotácia korpusu zatiaľ nestále a môžu podliehať značným zmenám.

Rozlišujú sa nasledujúce anotácie zmien (zodpovedajú štruktúram v korpusovom manažéri, kde sa zobrazujú intuitívnymi skratkami):

Revízie v bielych znakoch nie sú zvlášť označené, prejavia sa v rozdielnych medzerách v paralelnom zobrazení textu.

História zmien

  • 5. 8. 2019 – aktuálna verzia v0.3 priniesla doplnenie štruktúr <capitalisation> a <typographical>, presun zmien v číslicách do <unclassified> a sprístupnenie dátových súborov
  • 25. 7. 2019 – prvé sprístupnenie verejnosti, verzia v0.2 založená na Wikipédii k 1. 7. 2019 obsahuje 573 689 viet (11 8301 44 tokenov, 8 713 055 slov)
  • predchádzajúca verzia v0.1 slúžila len na interný vývoj a testovanie

Založené na Wiki Edits 2.0.