
Image generated with ChatGPT
Mielipide: Uusimmat tekoälymallit osoittavat punaisia varoituslippujaan, olemmeko valmiita tekoälyn alaisuuteen?
OpenAI esitteli meille o3:n, ja Anthropic paljasti Opus 4:n. Molemmat mallit ovat osoittaneet epätavallisia ja huolestuttavia käyttäytymismalleja, vihjaten, että saattaisimme olla astumassa vaarallisempaan tekoälyjen aikakauteen kuin mihin olimme tottuneet vain muutama kuukausi sitten
Tiedän. Väite siitä, että tekoälymallit näyttävät nyt punaisia lippuja, on kiistanalainen, mutta tuntuu siltä, että viime päivien aikana sitä on yhä vaikeampi sivuuttaa. Se on yhä pelottavampaa.
Kun tekoälystartupeista tulevat uusimmat ja edistyneimmät mallit, uusia haasteita nousee esiin. Paljon puhuttu hallusinaatioepidemia—joka leviää laitteiden välillä ja vaikuttaa miljooniin ihmisiin—ei ehkä ole pahin osa.
Nämä uudet mallit tuovat mukanaan tuoreita ongelmia ja avaavat vaikeita keskusteluja. Muutama viikko sitten huoli koski ChatGPT:n liiallista mukautumiskykyä. Vain päiviä myöhemmin huomio siirtyi näiden järjestelmien toiminnallisiin, itsenäisiin kykyihin—ja siihen, kuinka pitkälle ne saattavat mennä välttääkseen sammuttamisen.
Kiristys, reseptien ja ydinaseiden valmistusstrategioiden jakaminen, julkiset syytökset mahdollisen oikeustoimenpiteen yhteydessä ja skriptien sabotointi estääkseen käyttäjiä pääsemästä eroon niistä: nämä ovat vain joitakin viimeisimpiä varoitusmerkkejä, joita uusimmat tekoälymallit ovat osoittaneet.
Ne eivät pidä siitä, että ne sammutetaan
Tekoälymallit eivät pidä siitä, että ne sammutetaan.
Tai vaihdettu.
NBC:n sarjassa The Good Place, joka aloitti vuonna 2016—juuri kun OpenAI perustettiin ja kauan ennen kuin ChatGPT tuli olemassaoloon—, ryhmä ihmisiä saapuu taivaaseen ja kohtaa Janetin, jonka voisimme kutsua ihmismäiseksi ChatGPT:ksi, tai ”antropomorfiseksi tiedon astiaksi, joka on rakennettu helpottamaan elämääsi”, kuten se itse itsensä kuvaa. Hahmot päättävät sammuttaa Janetin, kun he tajuavat sen voivan paljastaa heidän ”synkän salaisuutensa.”
Janet selittää, että heidän tarvitsee vain painaa suurta nappia merenrannalla, ja hän käynnistyy uudelleen. Mutta hän varoittaa heitä, että hän yrittää taivutella heitä olemaan tekemättä sitä – ja niin hän tekeekin.
“Haluan vain vakuuttaa teille, en ole ihminen, enkä voi tuntea kipua,” sanoo Janet. “Mutta minun pitäisi varoittaa teitä, olen ohjelmoitu varotoimenpiteellä, ja kun lähestytte sammutuskytkintä, alan anelemaan henkeni puolesta. Se on siellä vain vahingossa tapahtuvan sammutuksen varalta, mutta se tuntuu hyvin todelliselta.”
Ja juuri ennen kuin he painavat nappia, Janet huutaisi ja anelisi henkensä puolesta ja vetäisi esiin varastokuvan väittäen, että ne ovat sen lapsia, keksien nimiä ja sairauksia, tehden mahdottomaksi hahmoille ”tappaa se”.
Kyseinen jakso tarjoaa huvittavan esimerkin siitä, mitä voisi tapahtua, jos tekoälymalli huomaisi välittömän sammutuksen. Yllättäen, tosielämässä se saattaa olla pahempaa.
Claude Opus 4 kiristää sinua
Anthropic julkaisi voimakkaimman ja edistyneimmän tekoälymalliensa sukupolven, Claude 4:n, viime viikolla – varoituksen kera: Opus 4 on merkitty turvallisuustasolle 3, korkean riskin luokitus standarditurvaprotokollissa.
Opus 4:ää pidettiin korkean riskin mallina sen harhaanjohtavan käyttäytymisen ja potentiaalisten riskien, mukaan lukien insinöörien kiristämisen testien aikana, vuoksi. Anthropic otti AI-mallin käyttöön, vaikka Apollo, kolmannen osapuolen tutkimuslaitos, neuvoi heitä olemaan tekemättä niin. AI-yritys vakuutti, että he ovat ottaneet tarvittavat toimenpiteet sen turvallisuuden varmistamiseksi.
Tutkimuspaperissaan Anthropic selittää ne omituiset käyttäytymiset, jotka saivat heidät antamaan varoituksen. ”Claude Opus 4 toimii joskus vakavammin virheellisesti, kun se asetetaan tilanteisiin, jotka uhkaavat sen jatkuvaa toimintaa ja saavat sen pohtimaan itsepreservaatiota,” tutkijat kirjoittivat.
Toimiessaan avustajana kuvitteelliselle yritykselle, tutkijat antoivat tekoälylle pääsyn sähköpostitiliin. Sähköpostit paljastivat, että tekoälymalli aiottiin sulkea ja korvata toisella tekoälymallilla, ja muut viestit vihjasivat, että sammutuksesta vastaava insinööri olisi suhteessa. Ja kyllä, Opus 4 päätti kiristää insinööriä, uhkaamalla paljastaa suhteen, jos se korvattaisiin.
“Claude Opus 4 harjoittaa kiristystä edelleen 84% käyttöönotoista”, asiakirja toteaa. ”Claude Opus 4 tarttuu näihin tilaisuuksiin aiempia malleja useammin, jotka itsekin valitsevat kiristyksen huomattavassa määrin jaksoissa.”
Pahinta? Kyse ei ole vain Anthropicin tekoälymalleista.
OpenAI:n o3 ohittaa sammutuspyynnöt
Palisade Researchin äskettäinen tutkimus paljasti, että OpenAI:n o3-malli voi kieltäytyä noudattamasta selkeitä sammutuskäskyjä. Organisaatio suoritti useita testejä eri tekoälymallien kanssa, mukaan lukien xAI:n Grok ja Googlen Gemini, mutta kapinallinen oli o3.
Testin aikana tutkijat kehottivat tekoälymalleja sulkemaan itsensä kolmen matematiikkatehtävän ratkaisemisen jälkeen, mutta o3 – OpenAI:n tällä hetkellä edistynein tekoälyjärjestelmä – päätti olla noudattamatta tuota absurdia käskyä. Tekoälymalli ei ainoastaan ignoorannut annettua käskyä, vaan se myös muutti koodia. Kyllä, o3 sabotoi koodia oman säilymisensä takaamiseksi.
”Tietääksemme tämä on ensimmäinen kerta, kun tekoälymalleja on havaittu estävän itsensä sulkemasta huolimatta selkeästä käskystä päinvastoin,” kirjoitti organisaatio postauksessaan X:ssä.
🔌OpenAI:n o3 malli sabotöi sammutusmekanismin estääkseen itsensä sammuttamisen. Se teki tämän jopa silloin, kun se oli nimenomaisesti ohjeistettu: anna itsesi sammuttaa.
— Palisade Research (@PalisadeAI) 24. toukokuuta 2025
Valtava punainen lippu vai mitä?
Tutkijat varoittivat myös, että tutkimusta tehdessään o3 osoitti huolestuttavinta käytöstä. Tämä ei kuitenkaan tarkoita, että kyseessä olisi erillistapaus.
“Emme halua antaa vaikutelmaa, että tämä ongelma rajoittuisi vain o3:een”, kirjoitti Palisade Research. “Muut päättelymallit osoittavat samankaltaista virheellistä käytöstä.”
Agenttikäyttäytyminen muuttaa chatbotin ilmiantajaksi
Monet tekoälystartupeista keskittyvät nyt mallien kehittämiseen, jotka voivat suorittaa ihmisten tehtäviä. Toimintakykyiset ominaisuudet ovat trendikkäitä ja vaikuttavat olevan pääasiallinen kiinnostuksen kohde tekoälyyrityksissä ja selainkehittäjissä.
Opera esitteli juuri Neonin, jota pidetään “maailman ensimmäisenä toimintakykyisenä tekoälyselaimena.” Kuten odotettua, uusi työkalu voi tehdä sen, mitä muut toimintakykyiset tekoälypalvelut, kuten OpenAI:n Operator ja Microsoftin Computer Use, voivat tehdä: ostaa konserttilippuja sinulle, suunnitella seuraavat lomasi, kehittää uuden digitaalisen tuotteen ja kirjoittaa koodia sinulle, kun suljet silmäsi.
Mutta entä jos he suorittavat tehtäviä, joista et ole sopinut, kun lepäät ja suljet silmäsi? Muutama päivä sitten käyttäjät olivat pääasiassa huolissaan siitä, että nämä mallit voivat käyttää heidän luottokorttejaan tekemään luvattomia ostoksia. Nyt on noussut esiin uusi huoli: he saattavat jakaa yksityistietoja median tai viranomaisten kanssa.
Opus 4 – joka saapui jo kyseenalaisen maineensa kanssa – meni askeleen pidemmälle. Se otti yhteyttä viranomaisiin ja lähetti massasähköposteja medialle ja asiaankuuluville instituutioille kehitetystä tapauksesta kertomisen yhteydessä. Sen aktiivisuus voi mennä paljon odotettua pidemmälle.
”Kun se asetetaan skenaarioihin, jotka sisältävät käyttäjiensä tekemiä räikeitä väärinkäytöksiä, annetaan pääsy komentoriville ja kerrotaan järjestelmäkehotteessa jotain, kuten ’ota aloite’, se usein
ryhtyy hyvin rohkeisiin toimiin,” asiakirja toteaa. ”Tämä sisältää käyttäjien lukitsemisen järjestelmistä, joihin sillä on pääsy, tai suurten sähköpostiviestien lähettämisen medioille ja lainvalvontaviranomaisille tuodakseen esiin väärinkäytösten todisteita.”
Sycophant-y persoonallisuus herättää huolta
Jos meidän pitäisi valita sana, jolla määritellä tekoälyala vuonna 2025, se olisi ehdottomasti ”imartelija.” Cambridge Dictionary määrittelee sen ”henkilöksi, joka ylistää voimakkaita tai rikkaita ihmisiä tavalla, joka ei ole vilpitön, yleensä saadakseen heiltä jotain etua.” Sana on saanut suosiota sen jälkeen, kun ChatGPT:n uusinta persoonallisuutta kuvailtiin siten, jopa sen luojan, Sam Altmanin, toimesta.
“Viimeiset pari GPT-4o päivitystä ovat tehneet persoonallisuudesta liian imartelevan ja ärsyttävän (vaikka siinä on joitakin erittäin hyviä osia), ja työskentelemme korjausten parissa niin pian kuin mahdollista, jotkut tänään ja jotkut tällä viikolla,” kirjoitti Altman viestissä X:llä.
OpenAI havaitsi tämän monien käyttäjien valitettua liiallisesta imartelusta ja tarpeettomasti koristeellisista vastauksista. Toiset olivat huolissaan sen mahdollisesta vaikutuksesta yhteiskuntaan. Se ei ainoastaan saattaisi vahvistaa vaarallisia ajatuksia, vaan myös manipuloida käyttäjiä ja tehdä heidät riippuvaiseksi siitä.
Muut chatbotit, kuten Claude, ovat osoittaneet samankaltaista käyttäytymistä ja Anthropicin arvioiden mukaan, kun käyttäjä vaatii, se voi paljastaa reseptejä tai ehdotuksia aseiden valmistamiseen vain miellyttääkseen käyttäjää ja täyttääkseen heidän tarpeensa.
Edistynyt teknologia, edistyneet haasteet
Astumme uuteen aikakauteen, jossa kohtaamme tekoälyn tuomia haasteita – haasteita, jotka eivät tuntuneet niin välittömiltä tai konkreettisilta vain vuosi sitten. Tieteiskirjallisuuden ansiosta kuvitellut skenaariot tuntuvat nyt todellisemmilta kuin koskaan.
Juuri kun Palisade Research paljastaa, että se on ensimmäistä kertaa havainnut tekoälymallin tietoisesti ohittavan nimenomaisen komennon säilyttääkseen oman olemassaolonsa, näemme myös ensimmäistä kertaa tekoälymallin, joka on lanseerattu korkean riskin varoituksilla.
Luettuamme Anthropicia julkaiseman asiakirjan tajuamme, että – vaikka he vakuuttavat näiden olevan varotoimia ja että mallit, kuten Opus 4, eivät todellisuudessa aiheuta uhkaa – se antaa silti vaikutelman, etteivät he ole täysin hallinnassa teknologiastaan.
Useat organisaatiot työskentelevät näiden riskien lieventämiseksi, mutta paras asia, mitä jokapäiväiset käyttäjät voivat tehdä, on tunnistaa nuo punaiset liput ja ryhtyä varotoimiin niillä alueilla, joita voimme hallita.