Come impedire ai crawler di OpenAI di eseguire lo scraping del tuo sito web

Come impedire ai crawler di OpenAI di eseguire lo scraping del tuo sito web
I lettori come te aiutano a sostenere MUO. Quando effettui un acquisto utilizzando i link sul nostro sito, potremmo guadagnare una commissione di affiliazione. Per saperne di più.

Mentre gli utenti adorano ChatGPT per l'enorme quantità di informazioni che contiene attualmente, lo stesso non si può dire dei proprietari di siti web.





MUO Video della giornata SCORRI PER CONTINUARE CON I CONTENUTI

ChatGPT di OpenAI utilizza i crawler per eseguire lo scraping dei siti Web, ma se sei il proprietario di un sito Web e non desideri che il crawler di OpenAI acceda al tuo sito Web, ecco alcune cose che puoi fare per impedirlo.





Come funziona la scansione OpenAI?

UN crawler web (noto anche come spider o bot dei motori di ricerca) è un programma automatico che esegue la scansione di Internet alla ricerca di informazioni. Quindi compila tali informazioni in modo che sia facile per il tuo motore di ricerca accedervi.



I web crawler indicizzano ogni pagina di ogni URL pertinente, di solito concentrandosi sui siti Web più pertinenti alle tue query di ricerca. Ad esempio, supponiamo che tu stia cercando su Google un particolare errore di Windows. Il web crawler all'interno del tuo motore di ricerca eseguirà la scansione di tutti gli URL dai siti Web che ritiene più autorevoli sull'argomento degli errori di Windows.

Il web crawler di OpenAI si chiama GPTBot e secondo La documentazione di OpenAI , dare a GPTBot l'accesso al tuo sito web può aiutare ad addestrare il modello di intelligenza artificiale affinché diventi più sicuro e accurato e può persino aiutare a espandere le capacità del modello di intelligenza artificiale.



Come impedire a OpenAI di eseguire la scansione del tuo sito web

Come la maggior parte degli altri web crawler, GPTBot può essere bloccato dall'accesso al tuo sito web modificando il sito web robots.txt protocollo (noto anche come protocollo di esclusione dei robot). Questo file .txt è ospitato sul server del sito web e controlla il comportamento dei web crawler e di altri programmi automatici sul tuo sito web.

Ecco un breve elenco di ciò che il robot.txt file può fare:





  • Può impedire completamente a GPTBot di accedere al sito web.
  • Può bloccare l'accesso di GPTBot solo a determinate pagine di un URL.
  • Può dire a GPTBot quali collegamenti può seguire e quali no.

Ecco come controllare cosa può fare GPTBot sul tuo sito web:

Blocca completamente GPTBot dall'accesso al tuo sito web

  1. Configura il file robot.txt e quindi modificarlo con qualsiasi strumento di modifica del testo.
  2. Aggiungi il GPTBot al tuo sito robots.txt come segue:
 User-agent: GPTBot 
Disallow: /

Impedisci l'accesso solo a determinate pagine da parte di GPTBot

  1. Imposta il robot.txt file, quindi modificalo con il tuo strumento di modifica del testo preferito.
  2. Aggiungi il GPTBot al tuo sito robots.txt come segue:
 User-agent: GPTBot 
Allow: /directory-1/
Disallow: /directory-2/

Tuttavia, tieni presente che cambiando il file robot.txt file non è una soluzione retroattiva e qualsiasi informazione che GPTBot potrebbe aver già raccolto dal tuo sito Web non sarà recuperabile.





OpenAI consente ai proprietari di siti Web di rinunciare alla scansione

Da quando i crawler sono stati utilizzati per addestrare i modelli di intelligenza artificiale, i proprietari di siti Web hanno cercato modi per mantenere privati ​​i propri dati.

quanto costa netflix al mese?

Alcuni temono che i modelli di intelligenza artificiale stiano sostanzialmente rubando il loro lavoro, attribuendo anche un minor numero di visite al sito Web al fatto che ora gli utenti ottengono le loro informazioni senza mai dover visitare i loro siti Web.

Tutto sommato, se vuoi bloccare completamente i chatbot AI dalla scansione dei tuoi siti Web è completamente una tua scelta.