Web scraping: le azioni di contrasto a tutela dei dati personali

Notizia originaria del 31 maggio 2024, modificata nelle parti in corsivo e sottolineato – Il Garante per la protezione dei dati personali, con provvedimento n. 329 del 20 maggio 2024, ha adottato una nota informativa in materia di web scraping per finalità di addestramento di intelligenza artificiale generativa, contenente possibili azioni di contrasto a tutela dei dati personali, conformemente al GDPR.

Il provvedimento in questione è stato pubblicato nella Gazzetta Ufficiale n. 132 del 7 giugno 2024.

Il Garante, con la nota in oggetto, intende fornire delle prime indicazioni sul fenomeno della raccolta massiva di dati personali dal web per finalità di addestramento dei modelli di intelligenza artificiale generativa (c.d. IAG).

Ciò, al fine di:

segnalare possibili azioni di contrasto che potrebbero implementare i gestori di siti internet e di piattaforme online, sia pubblici che privati, operanti in Italia, quali titolari del trattamento dei dati personali oggetto di pubblicazione,
prevenire, ove ritenuta incompatibile con le basi giuridiche e le finalità della pubblicazione, la raccolta di dati da parte di terzi per finalità di addestramento dei modelli di intelligenza artificiale.

Il documento pubblicato concerne esclusivamente dati personali oggetto di diffusione in quanto pubblicati su siti web e piattaforme online e tiene conto dei contributi ricevuti dall’Autorità nell’ambito dell’indagine conoscitiva in materia di web scraping, deliberata con provvedimento del 21 dicembre 2023 (pubblicato nella Gazzetta Ufficiale n. 14 del 18 gennaio 2024).

Sono rimesse ai gestori dei suddetti siti e piattaforme nella misura in cui siano al contempo titolari del trattamento dei dati personali ai sensi del GDPR, le valutazioni da effettuare caso per caso, sulla base della natura, dell’ambito di applicazione, del contesto e delle finalità dei dati personali trattati, del regime di pubblicità, accesso e riuso da assicurare, della tutela apprestata da altre specifiche normative (ad esempio, la normativa a tutela del diritto di autore), tenendo conto dello stato dell’arte (inteso in senso precipuamente tecnologico) e dei costi di attuazione (in particolare con riferimento alle piccole e medie imprese).

Il Garante ricorda che nella misura in cui il web scraping implica la raccolta di informazioni riconducibile a una persona fisica indentificata o identificabile, si determina un problema di protezione dati personali.

Il documento pubblicato propone una diversa prospettiva, esaminando la posizione dei soggetti, pubblici e privati, gestori di siti web e piattaforme online, operanti quali titolari del trattamento di dati personali, che rendano pubblicamente disponibili, dati (anche personali) che vengono raccolti da terze parti.

In linea con tale impostazione, il documento indica alcune tra le possibili cautele che, sulla scorta di una valutazione da effettuarsi caso per caso, i titolari del trattamento di dati personali resi disponibili online per finalità diverse e sulla base di differenti condizioni di legittimità possono implementare al fine di prevenire o mitigare, in maniera selettiva, l’attività di web scraping per finalità di addestramento di modelli di intelligenza artificiale generativa.

Le possibili cautele suggerite concernono:

La creazione di aree riservate, a cui si può accedere solo previa registrazione, rappresenta una valida cautela in quanto sottrae dati dalla ritenuta pubblica disponibilità; di contro, tale misura non può dar luogo però ad un trattamento di dati eccessivo da parte del titolare, in violazione del principio di minimizzazione di cui all’art. 5, par. 1, lett. c), GDPR (il Garante ricorda che i titolari del trattamento non dovrebbero imporre in sede di registrazione, agli utenti che navighino sui loro siti web o sulle loro piattaforme online e che fruiscano dei relativi servizi, oneri di registrazione ulteriori ed ingiustificati)
L’inserimento di clausole ad hoc nei termini di servizio di un sito web o di una piattaforma online, come l’espresso divieto di utilizzare tecniche di web scraping, consente ai gestori di detti siti e piattaforme, se non rispettata, di agire in giudizio per far dichiarare l’inadempimento contrattuale della controparte: pur essendo una cautela di mera natura giuridica che opera, in quanto tale ex post, può fungere da strumento di carattere special-preventivo e, in tal modo, fungere da deterrente
Il monitoraggio del traffico di rete: il monitoraggio delle richieste HTTP ricevute da un sito web o da una piattaforma consente di individuare eventuali flussi anomali di dati in ingresso ed in uscita da un sito web o da una piattaforma online e di intraprendere adeguate contromisure di protezione; tale cautela può essere accompagnata anche da un Rate Limiting, ovvero una misura tecnica che permette di limitare il traffico di rete ed il numero di richieste selezionando solo quelle provenienti da determinati indirizzi IP, al fine di impedire a priori un traffico eccessivo di dati
L’intervento sui bot, come l’inserimento di verifiche CAPTCHA (Completely Automated Public Turing-test-to-tell Computers and Humans Apart) le quali, imponendo un’azione eseguibile solo da un essere umano, impediscono l’operatività dei bot.

Il Garante ricorda che ogni titolare del trattamento di dati personali ai sensi del Regolamento, può rendere disponibili al pubblico tali dati personali esclusivamente per finalità specifiche e sulla base di una o più condizioni di legittimità tra quelle previste all’art. 6 del Regolamento (es: obblighi di trasparenza, pubblicità legale, procedure a evidenza pubblica, diritto di cronaca, contratto in essere con gli interessati).

Il Garante precisa che il documento pubblicato non indica le misure di sicurezza che i titolari del trattamento debbono implementare per proteggere i dati personali da operazioni qualificabili come web scraping “malevolo”, in quanto in grado di sfruttare le vulnerabilità dei sistemi informativi non adeguatamente protetti dal punto di vista della sicurezza informatica.

Sotto tale profilo, il Garante ricorda che rimane fermo, ai sensi dell’art. 32 del GDPR, l’obbligo in capo ai titolari del trattamento di assicurare, su base permanente, la riservatezza, l’integrità, la disponibilità e la resilienza dei sistemi e dei servizi di trattamento: in proposito, richiama i principi espressi nella decisione adottata, nel novembre 2022, dall’autorità irlandese nei confronti di Meta, in merito alla mancata adeguata protezione dei dati ed alla conseguente raccolta online, tramite tecniche di web scraping adottate da terze parti, dei dati di milioni di utenti del servizio Facebook nel periodo compreso tra il 25 maggio 2018 e settembre 2019.