2021. aastal hakkasid Taani teadlased koostama taani keele andmebaasi, mille otsas oleks võimalik õpetada välja tehisaru ja leidsid abi hobuentusiastide ilmavõrgukeskkonnast.
Probleem, millega Taani küberneetikud ja keeleteadlased kunstteadvuse õpetamise juures silmitsi seisid, seisnes asjaolus, et ligipääs väga suurele osale kaasaegsest Taanis kirjutatud tekstist, sealhulgas ajakirjanduses ilmunud artiklitele, on piiratud range autorikaitseseadusega, vahendab Bloomberg.
Teadlastel olid kasutada küll tekstikogumid, nagu näiteks riigi seadusandlus, kuid selle ja sarnaste tekstikogumike keel ei vasta sellele, kuidas taanlased igapäevaselt räägivad ja kirjutavad.
Nad mõtlesid välja Taanile ainuomase lahenduse, milleks on keskkond heste-nettet.dk.
"Heste-nettet" tähendab "hobuste (ilma)võrgustikku" ja see on 1997. aastal loodud Taani veebifoorum, mille taga on Taani hobusekasvatajad, ratsutajad ja hobuentusiastid ning see loodi eesmärgiga rääkida hobustest. Tegemist on ühe esimese taanikeelse interneti sotsiaalse platvormiga. Peatselt hakkas hobusevõrgus käsitlevate teemade ring märkimisväärselt laienema ja tänaseks räägitakse seal praktiliselt kõigest ning hobusevõrku teavad kõik ilmavõrguga kokku puutunud taanlased.
Kui näiteks sooritada ilmavõrgus taani keeles mingi otsing, pole esimene vastus sageli pärit mitte Wikipediast, vaid hobuste keskkonnast. Väidetavalt eelistavad paljud inimesed heste-nettetit Wikipediale.
Järjest populaarsemaks muutuvad keelemudelid, nagu seda on ChatGPT, Bard, LlaMA ja paljud teised, vajavad sorava jutu ajamiseks tohutut hulka teksti. Arendajad ja teadlased, kes arendavad tekstiroboteid väiksemate keelte tarbeks, nagu seda on taani ja eesti keel, vajavad hobuvõrgu sarnaseid keskkondi.
Taani kõnerobotite treenimise andmekogust moodustab heste-nettet ligikaudu 22 protsenti, olles suurim materjaliallikas. Sellega ei konkureeri isegi Taani Reddidt ja X.
Taani keelemudelite arendajad tunnistavad, et taanikeelsed kõnerobotid pole hobuste osas väga erapooletud.
Toimetas Karol Kallas