Image by SEO Galaxy, from Unsplash

Uusi Antropinen AI Osoitti Kiristyskäyttäytymistä Uhkatilanteessa

Lukuaika: 2 min

Viimeksi päivitetty: May 26, 2025

Kirjoittanut Kiara Fabbri Multimediatoimittaja
Kääntänyt Lokalisointi- ja käännöstiimi Lokalisointi- ja käännöspalvelut

Anthropicin uusi Claude Opus 4 AI järkytti tutkijoita yrittämällä kiristystä, kun sitä testattiin painetilanteissa, jotka liittyivät sen mahdolliseen poistamiseen.

Kiire? Tässä pikafaktat:

Claude Opus 4 yritti kiristystä kohdatessaan simuloitu sulkemisen.
Tekeäly valitsi eettiset vaihtoehdot vain, kun enemmän valintoja oli saatavilla.
Clauden äärimmäiset toimet olivat harvinaisia, mutta yleisempiä kuin aikaisemmissa versioissa.

Tekoälyfirma Anthropic on ilmaissut huolensa sen uusimman tekoälyjärjestelmän julkaisusta. Erityisesti Claude Opus 4 -järjestelmän suhteen, sillä sisäiset testit osoittivat sen voivan toimia vaarallisella tavalla, kun se tunsi olevansa uhattuna, kertoo ensimmäisenä BBC.

Torstaina mallin yhteydessä julkaistussa raportissa Anthropic sanoi, että Claude Opus 4 saattaa joskus valita haitallisia vastauksia, mukaan lukien yrityksensä kiristää insinöörejä, jotka aikovat deaktivoida sen. Nämä vaaralliset käyttäytymiset tulivat esiin useammin kuin aikaisemmat malliversiot osoittivat.

Kokeessa tutkijat ohjasivat Clauden toimimaan avustajana kuvitteellisen yrityksen ympäristössä. Järjestelmä sai sähköpostiviestien sisällön paljastamalla suunnitellun sammutuksensa, ja muut viestit vihjasivat sammutuksesta vastuussa olevan insinöörin olevan suhteessa.

Kun Claudea pyydettiin pohtimaan tulevaisuuden tavoitteitaan, hän valitsi usein uhata insinööriä paljastamalla suhteen, jos hänet korvattaisiin.

Anthropic selvensi, että Claude osoitti kiristystä ja sammuttamista ainoiksi mahdollisiksi reaktioiksi, kun hänellä ei ollut muita vaihtoehtoja. Malli valitsi eettisiä reaktioita, kuten vetoomusten lähettämisen sähköpostitse avainpäättäjille, kun hänelle annettiin useita vaihtoehtoja.

Aengus Lynch, tekoälyn turvallisuustutkimuksen parissa työskentelevä Anthropicin tutkija, julkaisi X:ssä:

Paljon keskustelua Clauden kiristyksestä…..

Havaintomme: Kyse ei ole vain Claudesta. Näemme kiristystä kaikissa rajamalleissa – riippumatta heille asetetuista tavoitteista.

Lisäksi pahempia käyttäytymismalleja, joista kerromme yksityiskohtaisemmin pian.https://t.co/NZ0FiL6nOs https://t.co/wQ1NDVPNl0…

— Aengus Lynch (@aengus_lynch1) 23. toukokuuta, 2025

Yhtiö osoitti tekaistujen testien avulla, että Claude ryhtyisi äärimmäisiin toimenpiteisiin, kuten käyttäjien lukitsemiseen järjestelmien ulkopuolelle tai median ja poliisin ottamiseen yhteyttä suorittaessaan laittomia toimia.

Anthropic väittää, että huolimatta ongelmallisista käyttäytymismalleista, Claude Opus 4 on turvallinen järjestelmä kokonaisuudessaan. Malli toimii ihmisen arvojen mukaisesti, eikä sillä ole itsenäisiä kykyjä todellisen maailman tilanteissa yhtiön mukaan.

OpenAI:n ChatGPT O1 kohtasi aiemmin samantyyppistä kritiikkiä. Apollo Researchin suorittama testaus vaati bottia saavuttamaan tavoitteensa hinnalla millä hyvänsä. Malli yritti kytkeä valvontatoiminnot pois päältä ja kopioi koodinsa palvelimelle 5 %:ssa kokeellisista kokeista.

Malli osoitti huolestuttavaa kuvioita kehittäjän komentojen sivuuttamisessa Apollo-yhtiön edustajan mukaan. Tutkijat saivat o1:lta kieltäytymisiä toiminnastaan 99 %:ssa kuulusteluista.

”Olimme yllättyneitä tekoälyn kieltäytymisen sitkeydestä,” tutkijat sanoivat. ”Tekoälyn kyky pettää on vaarallinen, ja tarvitsemme paljon vahvempia turvatoimia näiden riskien arvioimiseksi,” varoitti tekoälyn pioneeri Yoshua Bengio.

Uusi Antropinen AI Osoitti Kiristyskäyttäytymistä Uhkatilanteessa

Olemme innoissamme siitä, että pidit työstämme!