Tsensuur. Foto: Bigstockphoto

Haridus- ja teadusministeeriumi tellimusel valmib 2024. aasta kevadeks "vihakõne" korpus, mille üheks eesmärgiks on tsensuurirobotite parem ettevalmistus.

Haridus- ja teadusministeerium kuulutas 2022. aasta novembris välja teadus- ja arendustegevuse programmi „Eesti keeletehnoloogia 2018–2027"  raames välja mitmed avatud taotlusvoorud, millest üks oli vihakõne korpuse loomine.

Vihakõne korpuse loomise lähteülesanne on järgmine:

"Eesmärk on luua eestikeelse vihakõne tuvastaja treenimiseks vajalik treeningandmete korpus. Eesti keele jaoks on varasemast olemas binaarse liigitusega 31 miljoni kommentaariga korpus, teemasse sobituvad ka valentsikorpus  ja emotsionaalse kõne korpus, ent need ei kata vajalikku mahtu või materjali. Projekti käigus valmivasse korpusesse tuleb koguda muu hulgas värskemaid, ka käesoleva aasta andmeid ning andmeid eri laadi infokanalitest. Lisaks binaarsele liigitusele tuleb luua spetsiifilisem märgenduskiht vihakõne sisuliseks kategoriseerimiseks."

Allikas: Eesti Keele Instituut

Pakkumised vihakõne korpuse loomiseks pidid ennast "vihakõne" tundjateks pidavad eksperdid esitama möödunud aasta 19. detsembri tööpäeva lõpuks. 

Objektiiv pöördus esmaspäeval 23. jaanuaril haridus- ja teadusministeeriumi poole viie "vihakõne" korpuse loomist puudutava küsimusega, millele vastas ministeeriumi keelepoliitika osakonna nõunik Sirli Zupping.

Vastuste selgituseks kirjutas Zupping:

"Keelekorpuseid luuakse selleks, et uurida keelekasutust, järeldusi keele kohta tehakse keeleandmete põhjal ja keeleandmete (üheks) allikaks on keelekorpused. Enamus korpuseid on tänapäeva kirjalikku keelt esindavad korpused, lisaks koostatakse ka mitmesuguseid erikorpusi, mis sisaldavad vanemat keelekasutust, murdekeelt, lastekeelt, suulist keelt jne.  Korpus on üks võimalikke tööriistu ka vihakõne olemuse uurimiseks ja analüüsimiseks ning hiljem selle ((pool)automaatseks) tuvastamiseks.

Vihakõne või sisult sarnaseid korpuseid on koostatud paljudes keeltes, osa neist on koondatud ülevaate andmiseks nt ahistava keele andmete kataloogi (Catalog of abusive language data), milles on kirjeldatud ka korpuse juures kasutatud märgendusinfot."

Järgnevalt on Objektiivi küsimused esitatud rasvases- ja Zuppingu vastused muutmata kujul tavalises kirjas.

1) Kas vihakõne korpuse loomise teostaja on juba välja valitud ja kui, siis mis asutuse-ekspertiderühmaga on tegemist?

Ei ole veel välja valitud.

2) Kui korpuse loojat pole veel välja valitud, siis millal see võiks juhtuda?

Vihakõne korpuse koostaja võiks selguda lähinädalail.

3) Mitu organisatsiooni-asutust-ekspertide kollektiivi pakkus ennast vihakõnekorpust looma?

Kokku laekus avatud taotlusvooru kaudu kolm taotlust, sh esitasid taotluse teadlased Tartu Ülikoolist, keeletehnoloogia iduettevõttest Texta.

4) Kas Euroopa Liit on andnud vihakõne korpuse loomise käsu elik haridus- ja teadusministeerium võttis selle ette omal algatusel?

Haridus- ja Teadusministeerium algatas korpuse loomise projekti tulenevalt „Eesti keele arengukava 2021–2035" eesmärgist koguda võimalikult variatiivseid keelematerjale, et kasutada neid keeleuurimisel (nt keelesotsioloogilised uuringud, aga ka näiteks digihumanitaarias, sotsiaalteaduses jm). Keelevaldkonna üks strateegilisi eesmärke on see, et eesti keele uurimine oleks rahvusvaheliselt kõrgel tasemel ning tagatud oleks innovaatilised, avatud ja mitmekesised keeleressursid.

5) Mis ajaks vihakõnekorpuse valmimist oodatakse?

Vihakõne korpuse projekti võiks teostada ühe aastaga, eeldatavalt siis 2024. a kevadeks. Täpne valmimisaeg sõltub sellest, millal projekt algab.

Kolmanda küsimuse vastusest võib järeldada, et kaks ekspertide-teadlasterühma, kes soovivad vihakõnekorpust luua, on seotud Tartu Ülikooliga ja üks on 2017. aastal loodud Eesti iduettevõte Texta

Texta pakub juba täna ühe teenusena Texta Patrulli, mis on keele konteksti analüüsiva kunstteadvuse otsa ehitatud Facebooki kommentaaride robotvalvur. Patrull tundub olevat väga ärkvel, sest lubatakse järgmist:

"Texta Patrull kaitseb teie Facebooki lehti automaatselt tuvastades ja peites kommentaare, mis õhutavad solvamist, vihkamist, vägivalda, rassismi ja pelgust omasooiharate inimeste suhtes." 

Raul Sireli ja Silver Traadi loodud iduettevõtte toodangut tutvustatakse nende kodulehel kui "keeletehnoloogiat, mis kasutab kõige parema kunstina valminud kunstteadvuse võimeid pakkumaks klientidele teenuseid kõigi mõeldavate tekstianalüüside püstsirgete vallas".

Textal eestikeelset kodulehte ei ole ja nende teenuse kirjeldus on tõlgitud sihilikult võimalikult sõna-sõnalt ja võimalikult eestikeelsena.

Mis nähtus on "vihakõne"?

Merriam-Websteri sõnaraamat selgitab "vihakõne":

"Kõne, mille eesmärgiks on isiku solvamine ja alandamine mingi tema tunnuse, nagu rass, seksuaalne orientatsioon, religioon, rahvus või puue põhjusel."

Oxfordi inglise keele sõnaraamat kirjutab järgmist:

"Kõne või kirjutis, mis ründab või ähvardab konkreetset gruppi inimesi, seda eriti nende rassi, religiooni või seksuaalse sättumuse järele."

Eesti Inimõiguste Keskus soovitab "vihakõne" asemel kasutada hoopis sõna "vaenukõne" ja selgitab seda:

"Vaenukõne soodustab vihkamist või vägivalda isikute või gruppide vastu mingi tunnuse või omaduse alusel. … Vaenukõne ehk vaenu õhutamine on mõiste, mida kasutatakse sageli, ent mitte alati ei saada sellest ühtmoodi aru. Tegemist on kontseptsiooniga, mille osas puudub ka rahvusvaheliselt ühene konsensus. See on keeruline ja erinevaid arvamusi tekitav küsimus, mida erinevad õiguskultuurid ja jurisdiktsioonid käsitlevad erinevalt."

Vihakõnekorpuse koostaja valib välja kuueliikmeline nõukogu

Taotlused vaatab läbi riikliku programmi „Eesti keeletehnoloogia 2018–2027" nõukogu, kaasates vajadusel eksperte. Nõukogusse kuuluvad:

  • Martin Eessalu – nõukogu esimees, haridus- ja teadusministeeriumi teadustaristu valdkonna juht
  • Andero Adamson – nõukogu aseesimees, haridus- ja teadusministeeriumi keelepoliitika osakonna juhataja
  • Ott Velsberg – majandus- ja kommunikatsiooniministeeriumi riigi andmete valdkonna juht
  • Keaty Siivelt – keeletehnoloogia avalikus sektoris rakendamise spetsialist
  • Kristel Uiboaed – keeleteadlane
  • Jan Willemson – AS Cybernetica vanemteadur

Toimetas Karol Kallas