Korpus textov rusínskej Wikipédie

Hľadanie v korpuse

Korpus obsahuje texty Rusínskej Wikipédie k 15. 3. 2024. Text je tokenizovaný a segmentovaný na vety, ale nie je lematizovaný. Pravopis sa drží originálneho pravopisu článkov vo Wikipédii (jeden z oficiálnych variantov, alebo neoficiálny pravopis). Korpus teda odráža preferencie autorov článkov viac než samotný jazyk.

Atribúty

word

slovo (cyrilika, pôvodná veľkosť písmen)

lc

slovo (cyrilika, malé písmená)

trans

slovo (ASCII transliterácia, malé písmená)

Štruktúry

doc

dokument (článok Wikipédie)

doc.id

unique ID of the document

doc.url

URL stránky

doc.title

názov článku

doc.timestamp

čas poslednej editácie

p

odsek

s

veta

g

nie je tu medzera

Transliterácia

Aby sme uľahčili používanie korpusu pomocou klávesníc, ktoré nepodporujú cyriliku a diakritiku, používame vlastnú transliterácia (zhruba založená na romanizácii BGN/PCGN 2016) v atribúte "trans" (v CQL hľadaniach) a tiež v "Jednoduchom vyhľadávaní".

а

a

б

b

в

v

г

h

ґ

g

д

d

е

e

ё

jo

є

je

ж

zh

з

z

и

y

і

i

ї

ji

й

j

к

k

л

l

м

m

н

n

о

o

п

p

р

r

с

s

т

t

у

u

ф

f

х

x

ц

c

ч

ch

ш

sh

щ

sc

ъ

'

ы

y

ь

'

ѣ

ji

э

e

ю

ju

я

ja

Citácia

Garabík, Radovan: Korpus textov rusínskej wikipédie.. In Kultúra slova, roč. 58, č.1, s. 55–59. ISSN 0023-5202.

História

  • 2024-03-15 – druhá verzia
  • 2023-09-21 – prvá verzia

Pozri aj