Tekoälyn kouluttamisessa hyödynnetään julkisia verkkosivuja – kannattaako oman sisällön käyttö estää vai sallia?

Tiesitkö, että verkkosivujesi sisältöä voidaan käyttää tekoälymallien kouluttamiseen tietoa haravoivien bottien avulla? Tällaisessa bottiliikenteessä on plussansa ja miinuksensa. Tässä blogissa kerromme, millaisia syitä bottien estämiselle ja sallimiselle on, sekä miten voit halutessasi estää omien sisältöjesi käytön.

Pirkka Suksi

Projektipäällikkö

Jasmina Koivumäki

Sisällöntuottaja, SEM-asiantuntija

Nettikäyttäjien luoman sisällön hyödyntäminen eri tekoälymallien kouluttamisessa on puhuttanut viime aikoina paljon. Erilaiset tekoälymallit tarvitsevat toimiakseen valtavan määrän dataa, jota käytetään esimerkiksi tekstin, kuvien ja musiikin generointiin. Tekoälyä kehittävät tahot hyödyntävät datan keräämisessä monia keinoja, joista yksi on tekoälybotit tai haravointibotit. Nämä botit surffaavat pitkin internetiä yötä päivää haravoiden dataa miljoonilta sivustoilta tekoälyn kouluttamiseksi.

Jos omistat julkisen verkkosivuston (joka ei ole esimerkiksi salasanasuojan takana), on tärkeää tiedostaa, että myös sinun sisältöjäsi voidaan käyttää tekoälymallien kouluttamiseen. Hyvä uutinen kuitenkin on, että tämä voidaan halutessasi estää. Toisaalta tunnettujen tekoälykehittäjien bottien – kuten GPTBotin ja ClaudeBotin – tiedonharavoinnista voi olla sivustolle hyötyäkin, eikä niiden tuomaa liikennettä välttämättä haluta aina estää. Esimerkiksi Morganilla ei oletusarvoisesti estetä haravointibotteja eikä estämisen suhteen ole olemassa lakeja, eli bottiliikenteen rajoittamiseen liittyvät päätökset ovat täysin sivuston omistajan.

Tarkastellaan seuraavaksi, mitä syitä tiedonharavoinnin estämiseen ja sallimiseen on, sekä miten estäminen tehdään.

Miksi estää haravointibotit

  • Tekoälymallit eivät voi hyödyntää sisältöäsi – kuten tekstiä ja kuvia – generoidessaan vastauksia.
  • Mahdollinen tekijänoikeussuojattu sisältösi on paremmin turvassa.
  • Sivustosi sisältö yhdistetään vähemmän todennäköisesti harhaanjohtavaan tai asiattomaan informaatioon.
  • Bottiliikenne ei hidasta sivustoasi. Suuri osa sivustoista – kuten Morganin ylläpitämät sivustot – kestää raskaankin bottiliikenteen hidastumatta laadukkaiden palvelimien ansiosta. Mutta mikäli verkkosivujesi palvelin on hidas, voi bottiliikenne hetkellisesti jopa estää pääsyn sivustolle.

Miksi sallia haravointibotit

  • Yrityksesi ja brändisi voi saada bottien keräämän datan avulla näkyvyyttä muun muassa ChatGPT:n hakuominaisuuden kautta sekä muissa tekoälypohjaisissa hakukoneissa.
  • Voit hyödyntää tekoälyä oman verkkosivustosi sisältöjen nopeaan arviointiin linkittämällä sivustosi. Lisäksi voit generoida uutta sisältöä, joka vastaa sivustosi äänensävyä (tone of voice).

Näin estät tiedonharavoinnin julkisella sivustollasi

Nopea ja tehokas tapa haravointibottien estämiseen on pyytää verkkosivustosi ylläpitäjää muokkaamaan niin sanottua Robots.txt-tiedostoa. Kyseinen tiedosto mahdollistaa sääntöjen ja kieltojen asettamisen boteille sivustoilla. Tiedoston avulla voidaan kieltää kaikkia tai vain tiettyjä botteja haravoimasta koko sivustolta tai sen osista dataa. Toisaalta tiedosto myös mahdollistaa haravoinnin sallimisen yksittäisille boteille, vaikka muu bottiliikenne olisi estetty.

On hyvä huomata, että sääntöjen noudattaminen on boteille vapaaehtoista. Kuitenkin tunnetut tekoälykehittäjät kuten OpenAI ja Google kertovat kunnioittavansa boteille asetettuja kieltoja.

Robots.txt-tiedoston sisällöstä vastaa verkkosivuston ylläpitäjä, joka voi muokata sisältöä sivuston omistajan toiveiden mukaan. Esimerkiksi me Morganilla huolehdimme ylläpitämiemme sivustojen tiedostoista. 

Oletko hosting-asiakkaamme ja haluat vaikuttaa tiedonharavointiin sivustollasi? Ota yhteyttä projektipäällikköömme Pirkkaan: pirkka.suksi@morgan.fi tai +358 44 3200 374.

Yleiskatsaus
Morgan Digital

Tämä verkkosivusto käyttää evästeitä, jotta voisimme tarjota kävijöille mahdollisimman hyvän käyttökokemuksen. Verkkoselaimeen tallentuvat evästeet tunnistavat palaavat kävijät ja heidän kielensä. Lisäksi evästeet antavat meille tärkeää tietoa mm. siitä, mitkä sivut kiinnostavat kävijöitä.

Välttämättömät evästeet

Välttämättömien evästeiden tulisi aina olla käytössä, jotta voimme tallentaa toiveesi kielestä ja evästeiden asetuksista.

Kolmansien osapuolien evästeet

Tämä sivusto käyttää Facebookia, Google Analyticsia, Hotjaria, Leadfeederiä, LinkedIniä ja Microsoft Claritya kerätäkseen nimetöntä tietoa sivuston käytöstä, kuten kävijöiden määrästä ja suosituimmista sivuista. Pitämällä tämän evästeen käytössä autat meitä parantamaan sivustoa.