Tehisaru treeningandmete lätted kuivavad kokku

Nikaia ja Nikaia kirikukogu järgsete kirikuisade kogutud teosed (osa) Foto: Wikipedia

Nõndanimetatud "loomulikud andmed" ehk inimeste koostatud kõrge kvaliteediga tekstid, on kogu tehisaru majanduse südameks. Selline sisu võib väidetavalt otsa lõppeda juba 2026. aastal.

Andmed on kunstteadvuse mudelitele "elu" andev jõud, seda nii selle põhitalitluse kui kvaliteedi osas. Mida loomulikumad – see tähendab inimeste loodud – on andmed, mille otsas tehisaru õpetatakse, seda parem on süsteem, vahendab Futurism.

Tehisaru arendajate jaoks on kurvastavaks tõigaks siiski asjaolu, et loomulikud andmed on piiratud ressurss. Kui see läte kord ammendub, siis seisavad arendajad silmitsi tõsiste väljakutsetega.

Austraalia Macquarie Ülikooli infotehnoloogia õiguse professor Rita Matulionyte osutab The Conversationis avaldatud essees, et AI arendajad on löönud kokku kuivavate tehisaru treeningandmete peale häirekella juba ligi aasta. Ühes eelmisel aastal avaldatud uuringus hinnatakse, et tehisaru treenimiseks sobivad kõrge kvaliteediga tekstikogumikud võivad otsa lõppeda juba 2026. astal. Madala kvaliteediga teksti ja pildimaterjali jagub tehisaru õpetamiseks hinnanguliselt umbkaudu 2030. kuni 2060. aastani.

Kui andmeid tehisaru treenimiseks peale ei tule, siis võib see tähendada terve tööstusharu arengu seiskumist.

Matulionyte pakub välja, et tuleviku tehisaru mudelite õpetamiseks võiks kasutada sünteetilist materjali, ehk treenida uusi tehisaru mudeleid tehisaru loodud sisu osas. Teiselt poolt hinnatakse, et sünteetilised andmed võivad sedasi õpetatava mudeli hoopis kokku kukutada. Uuringud näitavad, et kui kasutada tehisaru õpetamiseks tehisaru loodud sisu, siis on tulemuseks omamoodi "sugulaste vaheline paaritumine", mida iseloomustavad andmekogude eripärade vähesus ja rikutud ning kummalised väljundid.

Kõige praktilisem lahendus tehisaru loomulike andmete probleemile võib olla tehisaru ettevõtete koostöö institutsioonidega, mille valduses on märkimisväärsel hulgal kõrge kvaliteediga andmeid. Näiteks piisava summa eest ostetakse õigus kasutada mõne suure kirjastuse raamatuid või meediamaja sisu.

Seni on suuremat osa tehisaru mudelitest õpetatud ilmavõrgust kokku riisutud autoriõigustega kaitsmata andmete otsas. Kuna sellised allikad hakkavad ammenduma, muutuvad nõndanimetatud "andmekoostöö" võimalused üha hinnalisemaks ja tõenäoliselt päris palju tehisaru ettevõtteid ei suuda sellisel juhul, vähemalt tipus, enam suuremate tegijatega konkureerida. Kuid isegi koostöö puhul maailma suurimate sisu valdajatega saavad need andmed kunagi otsa.

Raamatute puhul kestab autoriõigus 70 aastat peale autori surma. Internet Archive'is on ligi 40 miljonit autoriõiguste vaba klassikalist raamatut ja teksti. Autoriõiguseta on kättesaadav näiteks kogu kirikuisade looming.

Enamus tehisaru suuremaid arendajaid – OpenAI, Microsoft, Google jne – on silmitsi ise endale tekitatud probleemidega. Need on võtnud pähe, et kunstaru peab olema "kaasav", "mitmekesine", "õiglane", "poliitiliselt korrektne", progressiusklik, toetama demokraate/ühisparteid ja nii edasi.

Kui jakobiinide, Feuerbachi, Marxi, Lenini, Trotski, Mao ja teiste sarnaste autorite teosed välja jätta, siis ajaloost väga palju ärklemist, klassivõitlust, vimmaolümpiat ja "õiglust" ei leia, mis tähendab, et suurem osa lääne ning ida klassikast tänase tehisaru õpetamiseks puhtal kujul ei sobi. Probleemi muudab keerulisemaks lisaks asjaolu, et sellised tekstid tuleb tehisarusse sööta läbi ärklemise filtrite, mille tulemuseks on "ebaloomulik" sisu. Näiteks väidab üks suuremaid juturoboteid ChatGPT, et Joe Biden "muudab maailma valgemaks".

Taani tehisaru arendajad on autoriõiguse põhjusel suurema osa oma juturoboti mudelitest välja õpetanud tuginedes algselt hobuste teemade keskkonnale, millest tänaseks on kujunenud välja riigi kõige suurem ilmavõrguvärav, sisu peal, mille tulemusena on taanikeelne tehisaru märkimisväärselt hobuste sõbralik.

Toimetas Karol Kallas