Eesti vana kirjakeele korpus (VAKK) sisaldab 15. kuni 19. sajandi tekste. Vanemad tekstid on morfoloogiliselt märgendatud, st neist tekstidest saab infot otsida sõnade tänapäevases kirjaviisis algvormide ning vormiinfo järgi.
Vana kirjakeele korpuse (v.a vallakohtute protokollid!) märgendamisel kasutatakse Külli Prillopi loodud tarkvara Vakker, mis rakendab tänapäeva eesti keele morfoloogiaanalüsaatorit, teisendades vana sõnakuju enne analüsaatorile andmist tänapäevaseks. Märgenduse täpsustamiseks võtab Vakker arvesse pidevalt kogunevaid teadmisi märgendatava teksti kohta. (Vt täpsemalt blogipostitust ja artiklit Prillop, Külli 2004. Kuidas märksõnastada vanu eestikeelseid tekste? − Keel ja Kirjandus, 2, 90−99).
Et tekstid on märgendatud (pool)automaatselt, esineb paratamatult vigu. Palume lahkesti neist meile teada anda ja täname kõiki, kelle abiga oleme juba saanud muuta korpust täpsemaks.
Vana kirjakeele korpuse koostamine algas 1995. aasta sügisel, kui professor Mati Erelti algatusel loodi TÜ eesti keele õppetooli juurde vana kirjakeele töörühm. Rühma juhiks sai dotsent Valve-Liivi Kingisepp. Kõige vanemaid tekste asusid koos temaga analüüsima Jaak Peebo, Külli Habicht ning Epp Ehasalu. 1996. aastal liitus uurimisrühmaga Külli Prillop, kelle esialgseks põhitööks oli märgendustarkvara arendamine ning korpuse veebipõhise kasutajaliidese loomine. Korpusetekste on sisestanud ja märgendanud ka paljud tudengid ning kraadiõppurid. (Vt V.-L. Kingisepp, K. Prillop, K. Habicht 2004, Eesti vana kirjakeele korpus: mis tehtud, mis teoksil, Keel ja Kirjandus, 4, 272−280, ja vana kirjakeele uurimisrühma algusaegade kroonikat.
Vana kirjakeele korpuse loomist on toetatud riiklikest programmidest "Eesti keel ja rahvuslik mälu" (EKRM04-9), "Eesti keel ja kultuurimälu" (EKKM09-88, EKKM14-298), "Eesti keele keeletehnoloogiline tugi" (EKKTT06-13). Korpuse veebiliidese aitas luua Ränivägi OÜ.
Kontakt: kulli.prillop /ät/ ut.ee