Tekoälyn kouluttamisessa hyödynnetään julkisia verkkosivuja – kannattaako oman sisällön käyttö estää vai sallia? 12.6.2025 Blogi Tiesitkö, että verkkosivujesi sisältöä voidaan käyttää tekoälymallien kouluttamiseen tietoa haravoivien bottien avulla? Tällaisessa bottiliikenteessä on plussansa ja miinuksensa. Tässä blogissa kerromme, millaisia syitä bottien estämiselle ja sallimiselle on, sekä miten voit halutessasi estää omien sisältöjesi käytön. Pirkka Suksi Projektipäällikkö Jasmina Koivumäki Sisällöntuottaja, SEM-asiantuntija Nettikäyttäjien luoman sisällön hyödyntäminen eri tekoälymallien kouluttamisessa on puhuttanut viime aikoina paljon. Erilaiset tekoälymallit tarvitsevat toimiakseen valtavan määrän dataa, jota käytetään esimerkiksi tekstin, kuvien ja musiikin generointiin. Tekoälyä kehittävät tahot hyödyntävät datan keräämisessä monia keinoja, joista yksi on tekoälybotit tai haravointibotit. Nämä botit surffaavat pitkin internetiä yötä päivää haravoiden dataa miljoonilta sivustoilta tekoälyn kouluttamiseksi. Jos omistat julkisen verkkosivuston (joka ei ole esimerkiksi salasanasuojan takana), on tärkeää tiedostaa, että myös sinun sisältöjäsi voidaan käyttää tekoälymallien kouluttamiseen. Hyvä uutinen kuitenkin on, että tämä voidaan halutessasi estää. Toisaalta tunnettujen tekoälykehittäjien bottien – kuten GPTBotin ja ClaudeBotin – tiedonharavoinnista voi olla sivustolle hyötyäkin, eikä niiden tuomaa liikennettä välttämättä haluta aina estää. Esimerkiksi Morganilla ei oletusarvoisesti estetä haravointibotteja eikä estämisen suhteen ole olemassa lakeja, eli bottiliikenteen rajoittamiseen liittyvät päätökset ovat täysin sivuston omistajan. Tarkastellaan seuraavaksi, mitä syitä tiedonharavoinnin estämiseen ja sallimiseen on, sekä miten estäminen tehdään. Miksi estää haravointibotit Tekoälymallit eivät voi hyödyntää sisältöäsi – kuten tekstiä ja kuvia – generoidessaan vastauksia. Mahdollinen tekijänoikeussuojattu sisältösi on paremmin turvassa. Sivustosi sisältö yhdistetään vähemmän todennäköisesti harhaanjohtavaan tai asiattomaan informaatioon. Bottiliikenne ei hidasta sivustoasi. Suuri osa sivustoista – kuten Morganin ylläpitämät sivustot – kestää raskaankin bottiliikenteen hidastumatta laadukkaiden palvelimien ansiosta. Mutta mikäli verkkosivujesi palvelin on hidas, voi bottiliikenne hetkellisesti jopa estää pääsyn sivustolle. Miksi sallia haravointibotit Yrityksesi ja brändisi voi saada bottien keräämän datan avulla näkyvyyttä muun muassa ChatGPT:n hakuominaisuuden kautta sekä muissa tekoälypohjaisissa hakukoneissa. Voit hyödyntää tekoälyä oman verkkosivustosi sisältöjen nopeaan arviointiin linkittämällä sivustosi. Lisäksi voit generoida uutta sisältöä, joka vastaa sivustosi äänensävyä (tone of voice). Näin estät tiedonharavoinnin julkisella sivustollasi Nopea ja tehokas tapa haravointibottien estämiseen on pyytää verkkosivustosi ylläpitäjää muokkaamaan niin sanottua Robots.txt-tiedostoa. Kyseinen tiedosto mahdollistaa sääntöjen ja kieltojen asettamisen boteille sivustoilla. Tiedoston avulla voidaan kieltää kaikkia tai vain tiettyjä botteja haravoimasta koko sivustolta tai sen osista dataa. Toisaalta tiedosto myös mahdollistaa haravoinnin sallimisen yksittäisille boteille, vaikka muu bottiliikenne olisi estetty. On hyvä huomata, että sääntöjen noudattaminen on boteille vapaaehtoista. Kuitenkin tunnetut tekoälykehittäjät kuten OpenAI ja Google kertovat kunnioittavansa boteille asetettuja kieltoja. Robots.txt-tiedoston sisällöstä vastaa verkkosivuston ylläpitäjä, joka voi muokata sisältöä sivuston omistajan toiveiden mukaan. Esimerkiksi me Morganilla huolehdimme ylläpitämiemme sivustojen tiedostoista. Oletko hosting-asiakkaamme ja haluat vaikuttaa tiedonharavointiin sivustollasi? Ota yhteyttä projektipäällikköömme Pirkkaan: pirkka.suksi@morgan.fi tai +358 44 3200 374.
25.9.2024 Blogi Saavutettavuusvaatimukset laajenevat verkkokauppoihin – mitä yritysten tulee nyt tietää ja tehdä? Vuonna 2025 astuvat voimaan laajemmat saavutettavuusvaatimukset, jotka koskettavat myös useita verkkokauppoja. Tässä blogissa kerromme, mitä muutos tarkoittaa verkkokauppayrityksille ja miten…
18.9.2024 Ajankohtaista Sarianna Kallio-Könnö liittyi Morganin sisältötiimiin Morganin uusin vahvistus Sarianna Kallio-Könnö täydentää sisältötiimiä, jota odottaa varsin vilkas syksy isoine projekteineen.
23.4.2024 Blogi Remppa vai muutto – milloin WP-verkkosivusto kannattaa uusia ja koska vanhan kehitys riittää? Parhaimmillaan verkkosivusto palvelee, markkinoi, rekrytoi, rakentaa brändiä ja tekee kauppaa. Saatko omasta sivustostasi kaiken mahdollisen hyödyn irti? Mikäli et, jotain…