Intelligenza artificiale, come evitare il web scraping

Il 30 maggio, il Garante italiano della protezione dei dati personali ha pubblicato una nota informativa sull’uso del web scraping per il training dei sistemi di intelligenza artificiale generativa. Questo documento segue un’indagine conoscitiva avviata a dicembre, in cui il Garante aveva richiesto di fare alcune osservazioni agli stakeholder.

Intelligenza artificiale: come evitare il fenomeno del web scraping

Mentre il recente documento del comitato dei garanti europei fornisce indicazioni sulle attività di web scraping per il training delle AI, quello del Garante italiano offre suggerimenti ai proprietari di siti internet per proteggere i dati personali dei propri utenti. Anche se queste indicazioni non sono obbligatorie, è responsabilità dei titolari del trattamento valutare come proteggere concretamente i dati, caso per caso. Il Garante sottolinea che la pubblicità di un dato non elimina le norme sulla protezione dei dati, citando come esempio la multa di 20 milioni di euro inflitta a Clearview AI per il web scraping di volti dai social media.

Il Garante definisce il web scraping come la raccolta massiva di dati, inclusi quelli personali, attraverso tecniche di web crawling e la loro memorizzazione per analisi successive.

Intelligenza artificiale, come evitare il web scraping

Mentre il web scraping può essere usato in modo malevolo, è anche uno strumento chiave per creare dataset per il training delle AI generative. Una soluzione suggerita è la creazione di aree riservate con login e password, sebbene non sia sempre praticabile. Altre misure includono l’inserimento di clausole nei termini di servizio contro il web scraping e l’uso del file robots.txt per impedire l’indicizzazione e lo scraping da parte di alcune aziende. Tuttavia, queste soluzioni non sono definitive e dipendono dalla volontà delle singole aziende. Infine, si suggerisce il monitoraggio attivo delle richieste al sito e l’uso di strumenti come i CAPTCHA per limitare l’accesso dei bot. Anche se non esiste una soluzione perfetta, il progresso tecnologico e giuridico potrebbe presto trovare un equilibrio adeguato.

25 aprile: Mattarella, 'Guido Rossa testimone valori che a Genova edificarono Repubblica'

25 aprile: Mattarella, 'non ci può essere pace solo per alcuni, è lezione papa Francesco'

25 aprile: Mattarella, 'onoriamo Pertini, no astensionismo per onorare sacrifici per libertà'

25 aprile: Mattarella, 'tutti componenti Ue difendano libertà e Stato diritto'

25 aprile: Mattarella, 'da diverse Resistenze nacque Europa dei popoli'

Papa: Uefa, 1' silenzio prima semifinali Champions

25 aprile: Mattarella, 'Resistenza decisiva per crollo Linea Gotica, libertà non recata in dono'

25 aprile: Mattarella, 'a cimitero Staglieno patrioti due Risorgimenti'

Papa, quarta riunione dei cardinali in Vaticano

25 aprile: Mattarella, 'da Liguria lezione moralità Resistenza'

Intelligenza artificiale: come evitare il fenomeno del web scraping

Intelligenza artificiale: come evitare il fenomeno del web scraping

Intelligenza artificiale, come evitare il web scraping

IRTOP CONSULTING E ADMIND PORTANO L’AI NELLE INVESTOR RELATIONS E NEI CAPITAL MARKETS

L’AI di Google trasforma documenti in podcast audio

Apple rischia grosso: i ritardi e la vera sfida dell'intelligenza artificiale

Regole del web e dazi, la (vera) battaglia economica tra UE e USA

X in down: perché l'ex Twitter non funziona? Ecco la verità

Spotify craccato si è bloccato: l'AI potrebbe essere la causa?