Web scraping di dati per l’AI: le autorità internazionali richiamano al rispetto della normativa privacy

21 Novembre 2023

Il c.d. scraping (traducibile come “raschiatura”) dei dati nel web rappresenta una prassi diffusa da tempo ma che attualmente ha rinfocolato un acceso dibattito quale fonte non autorizzata di immensi dataset utilizzati per il training di varie forme di intelligenza artificiale. Un consesso internazionale di autorità di controllo privacy richiama ora gli operatori web – soprattutto, ma non solo, dei maggiori social media, uno dei bersagli elettivi dello scraping - al rispetto delle normative privacy, mettendo in guardia sia i titolari che gli interessati dai rischi di violazione insiti in questa pratica.

Il quadro normativo

Il fenomeno del c.d. “web scraping” (ovvero l'estrazione automatizzata “a tappeto”, tramite software come web crawler/bot, di grandi quantità di dati da siti e pagine online – si badi che comunque non vi è una definizione normativa, a oggi) sta assumendo sempre maggiore importanza, pur non essendo una novità. Un esempio tra i tanti: si potrebbero copiare i dati pubblicati in una propria pagina social da parte di un utente (foto, contatti, testi, dati identificativi diretti) per costruirne un profilo rivendibile a fini di marketing mirato, oppure per rubarne l'identità e spacciarsi per l'utente. Il tutto a insaputa dell'utente stesso che ha involontariamente e facilmente fornito i dati agli scrapers, lasciandoli pubblicamente visibili e accessibili, senza adeguata protezione da parte del sito web ospitante.

Di recente, i produttori di soluzioni di IA generativa – come quelle di OpenAI, quali ChatGPT e DALL-E – paiono aver utilizzato per il training dell'AI fonti di dataset realizzate pure tramite il web scraping di innumerevoli siti web, come i social media - ovviamente includendovi i dati degli utenti stessi, almeno in qualche misura.

L'assunto basilare, che ormai dovrebbe essere noto, è che la pubblicazione di un dato o contenuto su Internet non lo rende - di per sé - liberamente disponibile.

Queste prassi, perciò, prestano il fianco a numerose criticità sotto diversi punti di vista regolatori. Basti citare la proprietà intellettuale, per cui i contenuti utilizzati sarebbero analizzati e utilizzati – secondo alcune interpretazioni – in violazione dei diritti riservati spettanti agli aventi diritto. O, ancora, comportare una violazione contrattuale dei termini di servizio dei siti oggetto di scraping, che solitamente vietano tali operazioni. Al contempo, se i dati oggetto di scraping sono categorizzabili come dati personali (ai sensi dell'art. 4 n. 1 GDPR), ciò può comportare violazioni di diverse prescrizioni del GDPR: pensando alle basi giuridiche (ex artt. 6 e 9 GDPR), in genere si reputa il consenso dell'interessato quella idonea per poter effettuare copia e analisi dei dati presenti su pagine social media. Tanto più che se si tratta di dati particolari, nemmeno è invocabile il legittimo interesse a supporto. Così come, in genere, manca un qualsiasi rapporto preesistente con l'interessato e, pertanto, è davvero arduo poter ipotizzare un valido legittimo interesse.

Altri possibili profili di illecito privacy legati al web scraping includono: mancanza di trasparenza (con lacuna delle informazioni dovute ex artt. 13-14 GDPR), finalità incerte o comunque diverse da quelle originarie di condivisione dei dati, conservazione dei dati incerta o indeterminata o eccessiva (rispetto ai fini), condivisione non autorizzata dei dati verso terzi, ostacolo nell'esercizio dei diritti spettanti all'interessato ex artt. 15-22 GDPR.

Pertanto, lo scraping può ben configurare forme di data breach che i titolari dei siti web colpiti dovrebbero valutare e, nel caso, notificare come incidenti alle autorità di controllo ex art. 33 GDPR (oltre che agli interessati stessi, se di rischio elevato, ex art. 34 GDPR).

Per un confronto, si badi che altri sistemi giuridici – come quello degli Stati Uniti – non necessariamente condividono le medesime criticità su tale prassi, anche per l'assenza di normative quadro come il GDPR.

Normativamente, a livello europeo, si può segnalare come il Digital Services Act (Reg. UE 2065/2022), al considerando 77, menzioni l'uso di bot e crawler per lo scraping: i titolari di piattaforme online e motori di ricerca dovrebbero escluderli dal conteggio dei propri utenti attivi (dato che utenti reali non sono, bensì automatizzati), se sono in grado di farlo.

Giova citare, infine, che la bozza di AI Act in gestazione, nelle ultime versioni note, vieta espressamente l'uso di dati biometrici frutto di web scraping (da social media o videoriprese CCTV) per il riconoscimento facciale a fini di sorveglianza di massa.

La dichiarazione congiunta delle autorità di controllo

L'iniziativa di una decina di autorità di controllo privacy di tutto il mondo (dall'ICO inglese all'Officer canadese, dal PDPC di Hong Kong alla norvegese Datatilsynet, ecc. – non è presente il nostro Garante per la protezione dei dati personali) è stata quella di una dichiarazione congiunta, intitolata "   ”,  pubblicata il 24 agosto 2023 e rivolta a mettere in guardia, specificamente, gli operatori dei social media così come gli utenti degli stessi servizi.

In particolare, il documento puntualizza come i dati estratti possano potenzialmente cagionare rischi rilevanti per la privacy degli utenti.

Tra i destinatari diretti ed espressi del provvedimento (pur non in via esclusiva) troviamo YouTube, TikTok, Instagram, Facebook, LinkedIn, Weibo, e X (ex-Twitter).

Il provvedimento colpisce perché si tratta di un non frequente caso di comunicato congiunto internazionale, aggravato dagli evidenti connotati transfrontalieri che complicano qualsiasi tentativo di rimedio: secondo i firmatari, il comunicato dovrebbe contribuire “a fornire certezza e coerenza transfrontaliera” nella tutela dei dati pubblicati dagli interessati.

Le autorità incoraggiano i titolari stessi a fornire un feedback al comunicato e “minacciano” di effettuare delle verifiche sulla dovuta compliance da parte degli stessi, implicitamente già inclusi nei piani ispettivi periodici di queste autorità.

L'obiettivo ultimo dichiarato è quello di arrivare a una miglior compliance da parte di titolari e, così, di limitare attivamente il fenomeno del web scraping. D'altro canto, è importante altresì per rinnovare la fiducia che gli utenti - i quali sempre di più segnalano alle autorità le violazioni dovute allo scraping - potranno riporre nelle proprie attività online.

I rischi per la privacy

Nel documento, le autorità riescono a riassumere i maggiori rischi che si possono configurare dal web scraping. Come detto, i potenziali danni potranno scaturire dalla copia, totale o parziale, di dati degli utenti di pagine social con contenuti pubblici, che dunque possono riguardare diversi aspetti della vita dell'utente, sia in forma testuale che di altro tipo (dalle foto agli audiovisivi):

  • attacchi informatici mirati: può accadere per es. che le informazioni di identità e di contatto “raschiate”, in seguito pubblicate su forum di hacking, possano essere utilizzate da malintenzionati in attacchi mirati di social engineering o phishing;
  • furto di identità: i dati raccolti possono essere utilizzati per inviare richieste fraudolente di prestiti o carte di credito, oppure creando falsi account di social media;
  • monitoraggio, profilazione e sorveglianza delle persone: i dati possono essere utilizzati per popolare i database di riconoscimento facciale e fornirne un accesso non lecito persino alle autorità pubbliche;
  • scopi politici o di raccolta di intelligence non autorizzati: i dati possono essere utilizzati da governi stranieri o agenzie di intelligence per fini illeciti o comunque mai autorizzati dagli interessati;
  • marketing diretto indesiderato o spam: i dati possono includere informazioni di contatto che possono essere utilizzate per inviare massivamente messaggi di marketing non richiesti;
  • perdita di controllo sui propri dati personali: in via generale, i dati sono raccolti a insaputa e contro le aspettative degli interessati, oltre a poter essere aggregati e combinati con altre informazioni personali, sempre per scopi imprevisti.

Sebbene le autorità non affrontino questo discorso, va accennato altresì che i terzi che utilizzino il web scraping illecitamente per alimentare i propri dataset o allenarvi algoritmi di AI, a loro volta trasferiranno tali criticità giuridiche agli utilizzatori dei propri dataset o software.

Le misure di protezione attese dai social media

Le autorità richiamano i social media - e altri siti web che ospitano e pubblicano dati personali dei propri utenti – alle proprie responsabilità in merito, quanto alla protezione dovuta (accountability, ai sensi del GDPR). Protezione dinamica, pluristratificata in differenti misure a coprire la moltitudine di rischi potenziali, soggetti a continui cambiamenti.

In tal senso, le autorità suggeriscono e si attendono misure come le seguenti:

  • designare un team e/o ruoli specifici interni per identificare e implementare i controlli contro il fenomeno;
  • limitare il numero di visite all'ora o al giorno - da parte di un account - ai profili di account terzi, oltre a limitare l'accesso se viene rilevata un'attività insolita (ciò per tamponare le attività automatizzate dai bot con falsi account);
  • monitorare quanto velocemente e “aggressivamente” un nuovo account inizi a cercare altri utenti – nel caso di attività anormalmente elevata, potrebbe essere una spia dello scraping effettuato da un bot, così come potrebbero essere altri indici, per es. quando si registrino più IP di brevi accessi usando le stesse credenziali;
  • adottare misure tecniche per rilevare i bot, per es. utilizzando il c.d. CAPTCHA;
  • laddove si sospetti e/o si confermi lo scraping dei dati, intraprendere azioni legali appropriate - come l'invio di lettere di diffida, richieste e relative conferme di cancellazione delle informazioni carpite;
  • nelle giurisdizioni in cui lo scraping può costituire un data breach, notificarlo agli interessati e alle autorità di controllo privacy;
  • supportare in modo proattivo i propri utenti, in modo che possano prendere decisioni informate su come utilizzare la piattaforma e quali informazioni personali condividono, comprendendo meglio le impostazioni sulla privacy che possono utilizzare, oltre che su come proteggersi.

I controlli dovrebbero essere regolarmente sottoposti a stress test e aggiornati per garantire che rimangano efficaci e stiano al passo con l'evoluzione delle tecnologie.

Le misure di protezione consigliate agli utenti interessati

Le autorità nel comunicato si indirizzano, oltre che ai titolari, altresì agli interessati stessi, arrivando a suggerire condotte in autotutela che possano arginare, almeno in parte, i rischi dello scraping.

A premessa, da una parte le autorità invitano i titolari a rendere le proprie impostazioni privacy (accessibili con dashboard e altre interfacce preposte) - compresa la loro gestione e comprensione, la consapevolezza e sensibilità degli utenti su questi temi - più facili, chiare e comprensibili possibile. Per favorire la possibilità di effettuare scelte consapevoli e di garantire la massima trasparenza.

Dal lato utente-interessato, le autorità arrivano ad auspicare un risultato: incoraggiando a pensare a lungo termine, a meditare e selezionare quali siano esattamente i propri contenuti che stimano possono essere condivisi nel tempo, senza che si debbano pentire.

Da ultimo le autorità ricordano come per qualsiasi chiarimento o domanda gli utenti possano sempre fare riferimento ai titolari stessi dei social media, oltre che alle autorità qualora non siano soddisfatti.

I precedenti noti e rilevanti

Che si tratti di una fattispecie di rischio concreta e non meramente ipotetica lo dimostrano i pertinenti casi pregressi, presenti sia livello nazionale che internazionale.

Quello che possiamo definire il leading case in Italia è quello di Clearview, società statunitense sanzionata dal nostro Garante (ordinanza-ingiunzione del 10 febbraio 2022, doc web. 9751362) per aver effettuato un massiccio scraping dei dati biometrici degli utenti di vari social media, sì da costituire una propria enorme banca dati per il training di un sistema di intelligenza artificiale - destinato al riconoscimento dei volti e delle fattezze delle persone, quale prodotto/servizio rivenduto a terzi (pubblici e privati) per vari fini.

Contro Clearview si contano numerose altre azioni legali o amministrative, in varie parti del mondo: in Europa sono stati presentati reclami per violazione del GDPR anche in Francia, Austria, Grecia, oltre che nel Regno Unito.

Oltretutto la stessa EDPS ha esaminato il possibile utilizzo di Clearview, da parte dell'agenzia unionale Europol per la cooperazione all'attività di enforcement.

Quanto all'uso dei dati per il training di IA, il Garante con il discusso provv. del 30 marzo 2023 (doc web 9870832) avverso OpenAI per l'uso di ChatGPT, aveva ingiunto la limitazione del trattamento anche in “assenza di idonea base giuridica in relazione alla raccolta dei dati personali e al loro trattamento per scopo di addestramento degli algoritmi sottesi al funzionamento di ChatGPT”.

Casi “minori” ma interessanti, e già vagliati dal Garante sul tema web scraping, ve ne sono: uno di questi è il provv. del 17 maggio 2023 (doc. web 9903067). Il titolare sanzionato era quello del sito web www.trovanumeri.com, il quale effettuava lo scraping non autorizzato di numeri telefonici online (e altri dati) onde costituire, combinandoli, un proprio dataset, poi reso disponibile al pubblico sulla propria piattaforma, per chi volesse rintracciare il numero di un determinato soggetto. La mancanza di qualsivoglia consenso degli interessati era una delle più palesi e gravi illiceità.

Rilevante è altresì il provvedimento-linea guida in materia di propaganda elettorale e comunicazione politica, del 18 aprile 2019 (doc web 9105201): il Garante ha ben chiarito, a partiti e associazioni politiche, che è illecito (se privo di consenso, tra l'altro) l'uso di dati di cittadini - frutto di scraping, poi combinati tra loro - per costituire dataset a uso di propaganda politica mirata.

Possiamo fare una breve panoramica a livello internazionale, anzitutto con una cernita delle azioni avverso la citata Clearview.

Negli USA la società è stata citata in giudizio dall'American Civil Liberties Union – ACLU - nello Stato dell'Illinois nel 2020, per aver violato l'Illinois Biometric Privacy Act, così da far interrompere la vendita del suo prodotto a società private statunitensi. Il procedimento ha avuto come esito un accordo vincolante con determinate condizioni da rispettare a carico di Clearview.

In Canada, nel febbraio 2021, il Privacy Commissioner ha stabilito che il “raschiamento” dei volti sui social media di Clearview è illecito e crea un sistema che "infligge un danno diffuso a tutti i membri della società, che si trovano continuamente in una fila di polizia". In Australia, l'autorità privacy (OAIC) ha statuito che Clearview ha violato la Privacy Act 1988 dell'Australia, raccogliendo dati personali degli australiani senza alcun consenso, raccogliendo informazioni personali con mezzi scorretti e non adottando misure ragionevoli per informare gli interessati.

Attualmente sono in corso o allo studio diversi interventi, anche in sede giudiziaria, in tutto il mondo, destinati a colpire l'uso dello scraping per alimentare i sistemi di AI. Caso emblematico è quello della class action avviata dallo studio legale Clarkson in California contro OpenAI, nel giugno 2023. L'oggetto è la lamentata violazione sia della normativa copyright USA che di normative (perlopiù locali californiane) sulla privacy, focalizzandosi proprio sull'uso non autorizzato dello scraping nella raccolta.

Un caso già deciso, e noto, di diritto USA circa il fenomeno dello scraping è quello “LinkedIn vs Hiq Labs”, con sentenza della Corte d'Appello del Nono Circuito degli Stati Uniti, nel 2019: convenuta era Hiq Labs, una società che utilizza dati pubblici per analizzare i profili di dipendenti aziendali terzi, tramite web scraping delle informazioni personali tratte dai profili pubblici LinkedIn dei lavoratori stessi. La Corte ha stabilito che lo scraping di dati accessibili al pubblico su Internet non è una violazione della norma federale Computer Fraud and Abuse Act (CFAA), cioè non costituirebbe un hacking informatico, ed è pertanto lecito.

In conclusione

Il panorama nella gestione dei dati personali sfruttati dalle prassi di web scraping non è confortante. Oltretutto in molti casi “il genio è uscito dalla bottiglia”, cioè anche volendo porvi rimedio ex post - per esempio intimando la cancellazione di dati e dataset – ciò potrebbe non avere, però, ricadute sui modelli di AI già “educati” con queste fonti. Modelli che rendono arduo effettuare cancellazioni mirate di dati (c.d. machine unlearning), e pertanto l'esercizio stesso del diritto all'oblio dei dati “raschiati”.

L'impegno di caratura internazionale delle autorità coinvolte nel comunicato qui esaminato testimonia la necessità di dover “fare qualcosa”, di voler dare segnali di lotta a condotte e processi sempre più percepiti pubblicamente come abusi. Tanto più perché la minaccia è spesso invisibile all'utente.

L'uso dello scraping è entrato in una fase cruciale, con un dibattito acceso tra la necessità di accedere a enormi dataset per l'addestramento di intelligenze artificiali (generative) e la crescente attenzione alla tutela dei diritti fondamentali. Il richiamo delle autorità comporta per gli operatori del settore digitale, specialmente quelli dei social media, di rivedere le loro pratiche, di adottare un approccio maggiormente responsabile e conforme alle normative privacy. La distanza europea (e non solo) dalla visione giuridica statunitense sullo scraping (che, come accennato, è ben più permissiva, almeno a livello federale) non aiuterà, considerandone l'ampiezza transfrontaliera.

Sarebbe fondamentale bilanciare la sempre invocata innovazione tecnologica con il rispetto per gli utenti e delle norme a loro tutela. La consapevolezza dei rischi connessi al scraping sono ora più importanti che mai per preservare l'integrità e la fiducia nell'ecosistema digitale: si tratta di un tassello importante sebbene non risolutivo.

La portata ed efficacia dei “suggerimenti” contenuti nel documento congiunto – per quanto rivolto agli utenti - non pare plausibilmente significativa, se non rientrerà in un sistema di comunicazione, sensibilizzazione e divulgazione al pubblico che richiederebbe ben altro dispiego di mezzi. Ancora una volta, presumibilmente, dovrebbero essere le piattaforme stesse, cioè i privati, a supplire alle lacune del settore pubblico.

In conclusione, il grido d'allarme è stato lanciato dalle istituzioni di più Paesi, benché non tempestivamente. Auspichiamo sia solo il primo passo per azioni di enforcement coordinate e all'altezza dei diritti che le autorità devono tutelare.

Guida all'approfondimento

AA. VV., Web Scraping Collecting and Retrieving Data from the Web, in Applied Data Science in Tourism, Berlino, 2022, 67 ss.

DI MALTA, Clearview AI, sanzione privacy importante ma danni irreversibili, in www.agendadigitale.it, 10/3/2022

MANCOSU – VEGETTI, What You Can Scrape and What Is Right to Scrape: A Proposal for a Tool to Collect Public Facebook Data, Social Media + Society 2020: 1–11, 31/7/2020

PARKS, Unfair Collection: Reclaiming Control of Publicly Available Personal Information from Internet Data Scrapers, 120 Mich. L. Rev., 2022

PELINO, Web scraping e protezione dei dati personali: quali sono i limiti applicativi del GDPR, in www.cybersecurity360.it, 18/5/2022

RAIELI, Machine unlearning: The duty of forgetting, in www.towardsdatascience.com, 12/9/2022

SNELL - MENALDO, Web Scraping in an Era of Big Data 2.0, Electronic Commerce & Law Report, 21 ECLR 920, 6/8/2016.

Vuoi leggere tutti i contenuti?

Attiva la prova gratuita per 15 giorni, oppure abbonati subito per poter
continuare a leggere questo e tanti altri articoli.

Sommario