Vana kirjakeele korpus
Pilt
Raamat, mille kaante vahelt leiti esimese säilinud eestikeelse trükise lehed

Eesti vana kirjakeele korpus (VAKK) sisaldab 15. kuni 19. sajandi tekste. Vanemad tekstid on morfoloogiliselt märgendatud, st neist tekstidest saab infot otsida sõnade tänapäevases kirjaviisis algvormide ning vormiinfo järgi.

  • 15. ja 16. sajandist on korpusesse lisatud kõik teadaolevad ja säilinud eestikeelsed tekstid (v.a nimeloendid), nii käsikirjad kui ka trükised. Tekstid on vana kirjakeele uurijate poolt märgendatud.
  • 17. sajandist on korpusesse lisatud enamik säilinud trükitekste. Suurem osa tekste on uurijate poolt märgendatud.
  • 18. ja 19. sajandist on lisatud valik trükitekste. Märgendatud on osa tekstidest. Märgendus on automaatne ja üldiselt ei ole uurijate poolt üle kontrollitud. Automaatne märgendaja on seadistatud nii, et tulemus oleks võimalikult täpne, mitte võimalikult palju tekstisõnu hõlmav.

Vana kirjakeele korpuse (v.a vallakohtute protokollid!) märgendamisel kasutatakse Külli Prillopi loodud tarkvara Vakker, mis rakendab tänapäeva eesti keele morfoloogiaanalüsaatorit, teisendades vana sõnakuju enne analüsaatorile andmist tänapäevaseks. Märgenduse täpsustamiseks võtab Vakker arvesse pidevalt kogunevaid teadmisi märgendatava teksti kohta. (Vt täpsemalt blogipostitust ja artiklit Prillop, Külli 2004. Kuidas märksõnastada vanu eestikeelseid tekste? − Keel ja Kirjandus, 2, 90−99).

Et tekstid on märgendatud (pool)automaatselt, esineb paratamatult vigu. Palume lahkesti neist meile teada anda ja täname kõiki, kelle abiga oleme juba saanud muuta korpust täpsemaks.

Vana kirjakeele korpuse koostamine algas 1995. aasta sügisel, kui professor Mati Erelti algatusel loodi TÜ eesti keele õppetooli juurde vana kirjakeele töörühm. Rühma juhiks sai dotsent Valve-Liivi Kingisepp. Kõige vanemaid tekste asusid koos temaga analüüsima Jaak Peebo, Külli Habicht ning Epp Ehasalu. 1996. aastal liitus uurimisrühmaga Külli Prillop, kelle esialgseks põhitööks oli märgendustarkvara arendamine ning korpuse veebipõhise kasutajaliidese loomine. Korpusetekste on sisestanud ja märgendanud ka paljud tudengid ning kraadiõppurid. (Vt V.-L. Kingisepp, K. Prillop, K. Habicht 2004, Eesti vana kirjakeele korpus: mis tehtud, mis teoksil, Keel ja Kirjandus, 4, 272−280, ja vana kirjakeele uurimisrühma algusaegade kroonikat.

[Korpuse logi]

Vana kirjakeele korpuse loomist on toetatud riiklikest programmidest "Eesti keel ja rahvuslik mälu" (EKRM04-9), "Eesti keel ja kultuurimälu" (EKKM09-88, EKKM14-298), "Eesti keele keeletehnoloogiline tugi" (EKKTT06-13). Korpuse veebiliidese aitas luua Ränivägi OÜ.

Kontakt: kulli.prillop /ät/ ut.ee