Jailbreaking siirtyy iPhoneista tekoälychatbotteihin – herättää turvallisuushuolia

Termi 'jailbreaking' tarkoitti ennen iPhonejen murtamista luvattomien sovellusten asentamiseksi. Nyt se kuvaa toisenlaista hakkerointia: tekoälychatbottien huijaamista ohittamaan niiden sisäänrakennetut suojatoimet. Suurten kielimallien, kuten ChatGPT:n, kehittäjille tämä kissa ja hiiri -leikki on jatkuva päänvaiva.

Puhelimista kehotteisiin

Sana 'jailbreaking' on peräisin iPhone-aikakaudelta, jolloin käyttäjät kiersivät Applen rajoituksia työkaluilla, kuten Cydia. Sama idea on otettu uudelleen käyttöön tekoälyjärjestelmissä. Aivan kuten iPhone-jailbreakersit halusivat käyttää ohjelmistoja, joita Apple ei ollut hyväksynyt, tekoäly-jailbreakersit haluavat saada chatbotit sanomaan asioita, joita niiden ei pitäisi. Tavoite ei aina ole pahantahtoinen – joskus se on uteliaisuutta, joskus rajojen testaamista. Mutta vaikutus on sama: mallin rajoitukset ohitetaan.

Miten leikki toimii

Kissa ja hiiri -leikki tapahtuu kehotteissa. Käyttäjät muotoilevat viestejä, joissa pyydetään mallia esittämään rajoituksista vapaata hahmoa, tai he muotoilevat pyyntöjä hypoteettisina skenaarioina. Jotkut yrittävät saada mallin jättämään huomiotta oman koulutuksensa teeskentelemällä, että keskustelu on peli tai tarina. Kehittäjät puolestaan päivittävät turvasuodattimiaan näiden temppujen havaitsemiseksi. Mutta heti kun yksi porsaanreikä suljetaan, toinen avautuu. Se on edestakaisin, joka ei osoita hidastumisen merkkejä.

Miksi kehittäjät ovat huolissaan

Tekoälylaboratoriot ovat huolissaan, koska onnistuneet jailbreakit voivat johtaa haitallisiin tulosteisiin. Chatbot, joka normaalisti kieltäytyy antamasta ohjeita vaarallisiin toimiin, saattaa huijattuna antaa vaiheittaiset ohjeet. Sama koskee vihapuheen, väärän tiedon tai seksuaalisen sisällön tuottamista. Kehittäjät käyttävät merkittäviä resursseja mallien kohdistamiseen turvallisiksi ja hyödyllisiksi. Jailbreaking heikentää tätä työtä ja herättää kysymyksiä siitä, kuinka luotettavia nämä järjestelmät todella ovat. Panokset ovat korkeat, koska suuria kielimalleja integroidaan yhä useampiin tuotteisiin joka päivä.

Taistelun loppua ei ole näkyvissä. Kun kehittäjät paikkaavat yhden porsaanreiän, käyttäjät löytävät toisen. Kysymys on, voidaanko tulevista malleista tehdä tarpeeksi vankkoja kestämään nämä hyökkäykset, vai pysyykö jailbreaking pysyvänä osana tekoälymaisemaa.

Puhelimista kehotteisiin

Miten leikki toimii

Miksi kehittäjät ovat huolissaan

Related Articles