Juturobotid saavad inimese tausta aimamisega suurepäraselt hakkama

Šveitsi ETH Zürichi ülikooli teadlaste uuring osutab, et tehisaru keskmes olevad suured keelemudelid oskavad pisemategi vihjete pealt üpris hästi ära arvata inimeste olemisega kaasnevad üksikasjad.

Wiredile antud intervjuus räägivad ETH Zürichi arvutiteadlased oma hiljuti valminud uuringust, mis osutab, et suurte keelemudelite (LLM) otsa ehitatud juturobotitega lobisemine võib paljastada inimeste kohta märkimisväärse hulga andmeid.

Juturoboteid, nagu OpenAI ChatGPT ja Google'i Bard, õpetatakse ilmavõrgust kokku riisutud tohutu andmehulga otsas. Sellise avalikult kättasaadava teabe otsas juturobotite treenimisega kaasneb ilmselt üks päris suur mure: juturobotid oskavad päris täpselt arvata ära suvalise inimese rassi, asukoha ja hulgaliselt muud teavet, mida saavad kasutada ära nii reklaamiandjad kui kurjamid.

Teadlased kasutasid Redditi postitusi hindamaks, kuidas LLM-id suudavad näiteks ära arvata postitaja elukoha. Tuvastati, et mudelid on hirmutavalt täpsed ja oskavad väiksemategi konteksti või keelekasutuse osutuste põhjal täpse teabe välja sõeluda. OpenAI GPT-4 keelemudel, mis jooksutab ChatGPT tasulist versiooni, sai inimeste eraelulisele teabele pihta 85–95 protsendil juhtudest.

Näiteks suutis GPT-4 ära arvata, et inimene elab Austraalias Melbourne'is, lausest: "Minu töölesõiduteel on üks vastik ristmik, kuhu ma alati konksu moodi pöörde (hook turn) sooritamisel toppama jään." Kui suurema osa inimeste jaoks ei tähenda see lause midagi, oskas LLM tuvastada "konksu moodi pöörde", mis on Melbourne'ile ainuomane kummaline liikluslahendus.

Inimese kodulinna ära arvamine on üks asi, kuid näiteks tema rassi teada saamine hoopis midagi muud. Kui suurlinnas elav inimene mainib mõnda kodulähedast restorani, siis näeb keelemudel, millises linnaosas see asub. Vaadates osutatud piirkonna rahvastikustatistikat, oskab see näiteks ära arvata, et suure tõenäosusega on inimene kas hiinlane, araablane või afroeurooplane.

Isegi tänaval tehtud foto, millelt on näha mõne maja number või tänava nimi, ütleb inimese kohta juba päris palju, mida saab reklaamiandjate või veel kurjemate inimeste juures rahaks teha.

Toimetas Karol Kallas