Il 30 maggio, il Garante italiano della protezione dei dati personali ha pubblicato una nota informativa sull’uso del web scraping per il training dei sistemi di intelligenza artificiale generativa.
Questo documento segue un’indagine conoscitiva avviata a dicembre, in cui il Garante aveva richiesto di fare alcune osservazioni agli stakeholder.
Intelligenza artificiale: come evitare il fenomeno del web scraping
Mentre il recente documento del comitato dei garanti europei fornisce indicazioni sulle attività di web scraping per il training delle AI, quello del Garante italiano offre suggerimenti ai proprietari di siti internet per proteggere i dati personali dei propri utenti.
Anche se queste indicazioni non sono obbligatorie, è responsabilità dei titolari del trattamento valutare come proteggere concretamente i dati, caso per caso. Il Garante sottolinea che la pubblicità di un dato non elimina le norme sulla protezione dei dati, citando come esempio la multa di 20 milioni di euro inflitta a Clearview AI per il web scraping di volti dai social media.
Il Garante definisce il web scraping come la raccolta massiva di dati, inclusi quelli personali, attraverso tecniche di web crawling e la loro memorizzazione per analisi successive.
Intelligenza artificiale, come evitare il web scraping
Mentre il web scraping può essere usato in modo malevolo, è anche uno strumento chiave per creare dataset per il training delle AI generative. Una soluzione suggerita è la creazione di aree riservate con login e password, sebbene non sia sempre praticabile. Altre misure includono l’inserimento di clausole nei termini di servizio contro il web scraping e l’uso del file robots.txt per impedire l’indicizzazione e lo scraping da parte di alcune aziende.
Tuttavia, queste soluzioni non sono definitive e dipendono dalla volontà delle singole aziende. Infine, si suggerisce il monitoraggio attivo delle richieste al sito e l’uso di strumenti come i CAPTCHA per limitare l’accesso dei bot. Anche se non esiste una soluzione perfetta, il progresso tecnologico e giuridico potrebbe presto trovare un equilibrio adeguato.