Photo by Joshua Woroniecki on Unsplash

Cloudflare-tutkijat väittävät, että Perplexity kaapii verkkosivustoja huolimatta AI Bot -estosta

Lukuaika: 2 min

Julkaistu ensimmäisen kerran: Aug 6, 2025

Päivitetty 2 kertaa julkaisun jälkeen

Kirjoittanut Andrea Miliani Entinen tekniikkauutisten asiantuntija
Kääntänyt Lokalisointi- ja käännöstiimi Lokalisointi- ja käännöspalvelut

Internet-infrastruktuurin tarjoaja Cloudflaren tutkijat väittävät, että tekoälyjärjestelmä Perplexity on kerännyt sisältöä verkkosivustoilta luvatta, jopa silloin, kun julkaisijat ovat asettaneet tekoälybotin estot.

Kiire? Tässä ovat nopeat faktat:

Cloudflare väittää, että Perplexity on kaapannut sisältöä verkkosivustoilta ilman lupaa.
Tutkijat vahvistivat Perplexityn ”stealth crawling” -käyttäytymisen, jopa kun julkaisijat toteuttavat AI-bottien estotoimenpiteitä.
Perplexityn edustaja kutsui Cloudflaren raporttia ”julkisuustempuksi”.

Cloudflaren maanantaina jakaman raportin mukaan Perplexity käy verkkosivustoja läpi oletuskäyttäjäagentillaan ja vaihtaa identiteettiään päästäkseen ohittamaan nämä estot. Cloudflaren asiantuntijat vahvistivat tämän ”stealth crawling” -toiminnan.

”Näemme jatkuvasti todisteita siitä, että Perplexity muokkaa toistuvasti käyttäjäagenttiaan ja muuttaa lähteiden ASNs-tunnisteitaan piilottaakseen indeksointitoimintansa, sekä laiminlyö – tai joskus ei edes hae – robots.txt-tiedostoja,” kirjoittivat tutkijat.

Indeksoijien odotetaan olevan läpinäkyviä, ilmaisevan tarkoituksensa selvästi ja kunnioittavan verkkosivustojen asetuksia, mutta tutkijoiden mukaan Perplexity ei ole noudattanut näitä luottamusta koskevia periaatteita. Tähän johtopäätökseen päädyttiin tutkimuksen perusteella, joka käynnistettiin asiakasvalitusten seurauksena.

”Olemme saaneet valituksia asiakkailta, jotka olivat molemmat kieltäneet Perplexityn ryömimistoiminnan heidän robots.txt-tiedostoissaan ja myös luoneet WAF-sääntöjä nimenomaan estääkseen molemmat Perplexityn ilmoittamat ryömijät: PerplexityBotin ja Perplexity-Userin”, kirjoittivat tutkijat. ”Nämä asiakkaat kertoivat meille, että Perplexity pystyi yhä saamaan heidän sisältönsä, vaikka he näkivät sen bottien onnistuneen estossa.”

Cloudflaren tutkijat kertoivat, että he varmistivat nämä väitteet toistamalla estot ja suorittamalla useita testejä tarkkailemaan ryömijän käyttäytymistä. Yhdessä testissä he loivat uusia verkkotunnuksia, joita ei vielä ollut indeksoitu, ja sisällyttivät robots.txt-tiedostoihin estot ”kunnioittaville boteille”. Myöhemmin he tiedustelivat Perplexityltä tiettyjä tietoja rajoitetuista verkkotunnuksista ja havaitsivat, että tekoälyllä toimiva vastausmoottori tarjosi yhä yksityiskohtia ja tarkkaa tietoa verkkosivustosta.

”Tämä vastaus oli odottamaton, koska olimme tehneet kaikki tarvittavat varotoimet estääksemme tämän tiedon noutamisen heidän hakuroboteiltaan”, tutkijat lisäsivät.

Perplexityn edustaja, Jesse Dwyer, kutsui tutkimusta ”julkisuustempuksi” lausunnossa, joka on annettu The Vergelle. Dwyer lisäsi, että Cloudflaren raportissa on ”väärinkäsityksiä”.

Cloudflare on kehittänyt useita työkaluja auttaakseen julkaisijoita estämään luvattoman tekoälyllä tehdyn verkkosivujen kaapauksen. Maaliskuussa Cloudflare julkaisi ”AI Labyrinth” -työkalun, joka ohjaa luvattomat kaaparit tekoälyllä luotuihin sisältölabyrintteihin. Viime kuussa se lanseerasi ”Pay Per Crawl” -järjestelmän, joka veloittaa tekoälybottien pääsyn julkaisijoiden sisältöön.

Cloudflare-tutkijat väittävät, että Perplexity kaapii verkkosivustoja huolimatta AI Bot -estosta

Olemme innoissamme siitä, että pidit työstämme!