Korpus textov rusínskej Wikipédie
Korpus obsahuje texty Rusínskej Wikipédie k 15. 3. 2024. Text je tokenizovaný a segmentovaný na vety, ale nie je lematizovaný. Pravopis sa drží originálneho pravopisu článkov vo Wikipédii (jeden z oficiálnych variantov, alebo neoficiálny pravopis). Korpus teda odráža preferencie autorov článkov viac než samotný jazyk.
Toto nie je podkorpus Slovenského národného korpusu, ani nevznikol v Oddelení Slovenského národného korpusu, ale úplne nezávisle.
Atribúty
word |
slovo (cyrilika, pôvodná veľkosť písmen) |
lc |
slovo (cyrilika, malé písmená) |
trans |
slovo (ASCII transliterácia, malé písmená) |
Štruktúry
doc |
dokument (článok Wikipédie) |
doc.id |
unique ID of the document |
doc.url |
URL stránky |
doc.title |
názov článku |
doc.timestamp |
čas poslednej editácie |
p |
odsek |
s |
veta |
g |
nie je tu medzera |
Transliterácia
Aby sme uľahčili používanie korpusu pomocou klávesníc, ktoré nepodporujú cyriliku a diakritiku, používame vlastnú transliterácia (zhruba založená na romanizácii BGN/PCGN 2016) v atribúte "trans" (v CQL hľadaniach) a tiež v "Jednoduchom vyhľadávaní".
а |
a |
б |
b |
в |
v |
г |
h |
ґ |
g |
д |
d |
е |
e |
ё |
jo |
є |
je |
ж |
zh |
з |
z |
и |
y |
і |
i |
ї |
ji |
й |
j |
к |
k |
л |
l |
м |
m |
н |
n |
о |
o |
п |
p |
р |
r |
с |
s |
т |
t |
у |
u |
ф |
f |
х |
x |
ц |
c |
ч |
ch |
ш |
sh |
щ |
sc |
ъ |
' |
ы |
y |
ь |
' |
ѣ |
ji |
э |
e |
ю |
ju |
я |
ja |
Citácia
Garabík, Radovan: Korpus textov rusínskej wikipédie.. In Kultúra slova, roč. 58, č.1, s. 55–59. ISSN 0023-5202.
História
- 2024-03-15 – druhá verzia
- 2023-09-21 – prvá verzia