Vana kirjakeele korpus

Vana kirjakeele korpuse otsimootor leiab sisestatud tingimustele vastavad sõnad või sõnaühendid ja väljastab need koos märgenduse (märksõna, sõnaliik, vorm jm) ning soovitud pikkuses lauseümbrusega.

Märksõna on tänapäevases kirjaviisis sõna, nt tohnut märksõna on tooma.
Sõne on tekstisõna täpselt niisugusel kujul, nagu teda on tekstis kasutatud, nt tohnut. Liitsõnade osised on eraldi sõned, nt nelli+ +kümment.
Liitsõnade, ühend- ja väljendverbide otsimiseks vali Otsi märgendatud sõnaühendeid ning sisesta märksõna, nt nelikümmend või välja minema.

Vaata tekstide loendist, millised tekstid on märgendatud ja kui suures ulatuses. Märksõna, sõnaliigi, vormiinfo ja tähenduse järgi saad otsida ainult märgendatud tekstidest. Märgendamata tekstidest saad otsida sõne järgi.

Tekstide loend on sorditav ja filtreeritav. Sortimiseks klõpsa selle veeru päisel, mille järgi soovid sortida. Filtreerimiseks sisesta vähemalt kolm järjestikust tähte: nt kui tahad kuvada ainult ühe autori tekste, sisesta autori nimi.
Tekstid jagunevad järgmistesse liikidesse: esiteks vana kirjakeele korpuse tekstid - vaimuliku sisuga (V), ilmaliku sisuga (I), sõnastikud (S), eesti keelt kirjeldavad metatekstid (M); teiseks - vallakohtute protokollid (K), mida vana kirjakeele korpus praegu majutab.

Otsingu väljund kuvatakse sorditava tabelina. Sortimiseks klõpsa soovitud veeru päisel. Kui soovid ekraanil näha ainult päringutulemust, mitte otsingulahtreid, klõpsa üleval paremal nurgas ikoonil peida otsing.

Leitud lause vaatamiseks klõpsa ikoonil kontekst. Samas saad vaadata ka eelnevaid ja järgnevaid lauseid, kopeerida lause viite ning suunduda vaatama tervet teksti.

Oma arvutisse saad päringu tulemuse salvestada nupu Lae CSV või Lae Excel abil.

Märksõna, tähenduse, sõne, vormi, teksti autori ja pealkirja lahtris saab kasutada jokkereid: ? = suvaline märk, * = suvaline märgijada. Tärni või küsimärgi otsimiseks maskeeri see kaldkriipsuga \, nt \*. Tee sama ka kaldkriipsu otsimiseks.
Aastaarvu lahtrisse võib kirjutada nii konkreetse arvu kui ka vahemiku, nt 1960-1970 või ka -1970. Kui täpne aasta ei ole oluline, võid ajastu määrata sajandivalikust.
Mingi kindla autori tekstidest otsimiseks tuleb autori lahtrisse sisestada nimi sellisel kujul, nagu see on tekstide loendis, nt Stahl, Heinrich (muidugi võib otsida ka Stahl*).

Täida ainult väljad, mille alusel soovid korpusest otsida. Näiteks autorit, aastat ega pealkirja pole vaja valida, kui soovid otsida kogu korpusest.
Täidetud peab olema vähemalt üks helekollase taustaga otsingulahter.

Täpsem juhis, kuidas iga lahtrit täita, ilmub kohtspikrina, kui liigud hiirega lahtri ees olevale tekstile.

Et tekstid on märgendatud poolautomaatselt, esineb paratamatult vigu. Palume lahkesti neist meile teada anda ja täname kõiki, kelle abiga oleme juba saanud muuta korpust täpsemaks. Märgendamisel (v.a vallakohtute protokollid!) kasutatakse Külli Prillopi loodud tarkvara Vakker, mis rakendab tänapäeva eesti keele morfoloogiaanalüsaatorit, teisendades vana sõnakuju enne analüsaatorile andmist tänapäevaseks. Märgenduse täpsustamiseks võtab Vakker arvesse pidevalt kogunevaid teadmisi märgendatava teksti kohta. (Vt blogipostitust ja artiklit Prillop, Külli 2004. Kuidas märksõnastada vanu eestikeelseid tekste? − Keel ja Kirjandus, 2, 90−99).

Korpuse materjalidele palume viidata lühendiga VAKK.

Kohtuprotokollid on märgendatud automaatselt (vt täpsemalt M.-L. Pilvik jt "Möistus sai kuulotedu ...") ja nende ortograafia on osaliselt tänapäevastatud. Originaale saad vaadata rahvusarhiivist, selleks vajaliku protokolli numbri leiad tervikteksti vaatest teksti info alt. Olenevalt murdepiirkonnast ja ortograafia tänapäevastatuse astmest on erinevates protokollides märgenduseta või vale märgendusega u 7−60% sõnu, nt töine on saanud märksõnaks töine, mitte teine, selle on saanud märksõnaks sell, mitte see, ago on märksõnastatud agu, mitte hagu jne. Seega tuleks märksõnaotsingule lisaks kindlasti kasutada ka sõneotsingut.

Kontakt: kulli.prillop /ät/ ut.ee