Apple e privacy differenziale

Al Worldwide Developers Conference del 13 giugno, Apple annuncia una nuova tecnologia: la privacy differenziale. 

Starting with iOS 10, Apple is using technology called Differential Privacy to help discover the usage patterns of a large number of users without compromising individual privacy. In iOS 10, this technology will help improve QuickType and emoji suggestions, Spotlight deep link suggestions and Lookup Hints in Notes. 

Il vice presidente della divisione ingegneria del software, Craig Federighi, spiega che la privacy differenziale è un modo per imparare il più possibile su di un gruppo, nel mentre si apprende il meno possibile sugli individui del gruppo medesimo. L’intento è di rendere migliori i servizi, quindi senza violare la loro privacy, non di raccogliere dati sulle abitudini degli utenti. Con la privacy differenziale Apple può raccogliere e memorizzare dati dei propri utenti in un formato che gli permette di avere informazioni utili su ciò che le persone fanno, senza però avere specifiche informazioni sui singoli. Simpaticamente Apple fa l’esempio di come l’algoritmo ricava le emoji più utilizzate senza violare la privacy. 

Con questo annuncio i dirigenti di Apple vogliono sottolineare ancora una volta il loro costante impegno nella tutela della privacy degli utenti, e che continuano a differenziarsi dalle altre aziende tecnologiche proprio per una maggiore attenzione ai diritti delle persone. Oggi Apple, infatti, si distingue per mantenere il più possibile i dati sul dispositivo dell’utente invece che caricarli sul cloud. 


Privacy

La maggiore attenzione alla tutela dei dati personali da parte di Apple è indubbiamente un vantaggio competitivo per l'azienda, che così riesce ad attrarre utenti con maggiori esigenze di privacy. Di contro, però, tale approccio determina una drastica riduzione dei dati raccolti. E questo può essere un problema visto che oggi la fornitura di servizi personalizzati è il vero valore aggiunto rispetto alla concorrenza. Attualmente le principali aziende tecnologiche stanno sviluppando sistemi di intelligenza artificiale (assistenti vocali: Siri, Google Now, Hound, Alexa, Cortana) in grado di agire in maniera "proattiva", non più solo rispondendo alle domande dell’utente, ma anticipando le sue esigenze, fornendo le informazioni prima che queste vengano chieste. Ad esempio, andando in palestra il sistema deve essere in grado di avviare la musica preferita. 
 

Aaron Roth - Privacy differenziale

 

Per emergere in questo settore una rinuncia anche parziale ai dati degli utenti è inconcepibile, significa lasciare spazio alla concorrenza (Google, Facebook, Microsoft e Amazon), ed ecco che Apple annuncia che, partire da iOS 10, raccoglierà una serie di nuove informazioni per rendere Siri e l'iPhone in grado di prevedere meglio quali informazioni gli utenti potrebbero desiderare in un certo momento. 
La privacy differenziale appare, quindi, un modo per non rinunciare alla raccolta collettiva dei dati degli utenti salvando nel contempo la reputazione di azienda che tiene alla privacy. 


Privacy differenziale

La privacy differenziale, ovviamente, non è un’invenzione di Apple, quanto piuttosto un tema di ricerca specifico nell’ambito della statistica ed analisi dei dati, con ampia documentazione nella letteratura scientifica. 

In passato si è capito che per ottenere l’anonimato è necessario o distruggere i dati oppure applicare una cifratura affidabile. Varie tecniche di anonimizzazione si sono rivelate inefficaci. È noto il caso di un insieme di dati offerto già “offuscato” da Netflix, spogliato dai dati di identificazione (anonimo quindi), che però ha consentito comunque a due studiosi, Narayanan e Shmatikov, di identificare parte degli individui dell’insieme semplicemente incrociando i dati  con altri dati pubblici. Da ciò l’elaborazione di nuove tecniche di protezione della privacy, tra le quali la più promettente sembra essere la privacy differenziale. 

La privacy differenziale, quindi, è una tecnica di anonimizzazione progettata per raccogliere dati dagli utenti senza rivelare informazioni personali. Si studia da vari anni, una delle prime ricerche in materia risale al 2008, e i suoi sviluppatori sono Cynthia Dwork, ricercatrice Microsoft, Nissim, McSherry e Smith. 
Federighi nel suo discorso cita anche Aaron Roth, che è autore di uno studio del 2014 sulla privacy differenziale, scritto insieme a Cynthia Dwork. 

Federighi nel suo discorso ha nominato tre tecniche di “anonimizzazione”: l’hashing, una funzione crittografica che trasforma in modo irreversibile i dati in una stringa di caratteri pseudo-casuali, il sottocampionamento, cioè prendere solo una parte dei dati, e infine l’iniezione di rumore per oscurare i dati reali. L’iniezione di rumore in un modello di utilizzo è il metodo descritto ampiamente da Dwork della Microsoft. Man mano che più persone condividono lo stesso modello, cominciano ad emergere modelli generali in grado di migliorare l’esperienza del singolo utente. 
Si tratta, quindi, di introdurre elementi spuri all’interno di un insieme in modo che non sia possibile riconoscere i dati veri da quelli falsi. 

Supponiamo di avere un database (anonimo!) che consente di calcolare il reddito complessivo dei residenti di Milano. Sapendo che il signor Rossi si trasferisce a Roma, interrogando il database prima e dopo il trasferimento è facile conoscere il reddito del signor Rossi. L’introduzione di rumore casuale attraverso il meccanismo di Laplace garantisce che il risultato non consenta di conoscere il dato specifico (reddito del signor Rossi). 
Purtroppo non è così semplice, perché basterebbe interrogare il database più volte e fare una media delle interrogazione, per ottenere il dato reale ripulito del rumore casuale aggiunto. Quindi il sistema funziona solo finché si garantisce che il numero delle interrogazioni è inferiore al numero che consente di calcolare la media per ricavare il dato reale. 

Il crittografo Matthew Green, professore presso la Johns Hopkins University, precisa che quante più richieste vengono effettuate al database, maggiore è il rumore che deve essere iniettato per mantenere un certo livello di privacy. 

 

Accuratezza e privacy

Appare immediatamente ovvio che il problema sta nella quantità di rumore che viene introdotto, se è elevato si ha una sensibile perdita di dati e quindi l’insieme finisce per non essere più utile, se invece è basso i dati rimangono riconoscibili. Quindi, la sfida sta nel trovare il giusto compromesso tra accuratezza e privacy (quanto è offuscata la posizione GPS? A livello di Stato, città, isolato, oppure di stanza?), laddove ovviamente il compromesso dipende dalle specifiche decisioni dei progettisti del sistema e dai parametri da essi scelti. 

Continua Green: “L'accuratezza diminuisce mentre la privacy aumenta”, “non ho mai sentito di applicazioni concrete prima. Quindi, se Apple la sta utilizzando, hanno realizzato un'implementazione personalizzata”. 

In conclusione, molto dipende dall’attuazione della tecnica statistica, e dalle scelte dei progettisti dell’algoritmo che devono stabilire quanto rumore iniettare per bilanciare i valori in gioco (efficienza dell’algoritmo e privacy degli utenti). 
Ovviamente sarebbe utile anche sapere come Apple intende procedere. Le modalità sono due, raccogliere tutti i dati grezzi e poi applicare gli algoritmi di privacy differenziale sull’enorme database raccolto (con enorme rischio di attacco hacker), oppure applicare gli algoritmi direttamente nella fase di estrazione dei dati. 
Google utilizza il secondo approccio nella raccolta di dati tramite Chrome, ma la citazione dell’hashing sembra far propendere per il medesimo approccio anche per Apple. Il sistema RAPPOR di Google sembra anche risolvere il problema delle richieste ripetute al database. 


Per quanto si voglia dare il beneficio del dubbio a Apple e alle altre aziende che stanno lavorando sulla privacy differenziale, occorre ricordare sempre che tali soggetti privati sono mossi da interessi economici, laddove la tutela dei diritti dei cittadini (come la privacy) è solo un elemento che viene sfruttato per attirare clienti. 
Con la privacy differenziale, in realtà, Apple, dopo aver reclamizzato per anni che non ha bisogno dei dati degli utenti, adesso ammette che invece ne ha bisogno almeno in una certa quantità, per il funzionamento dei servizi. L’annuncio di Apple sostanzialmente vuol dire che l’azienda si appresta a fare un utilizzo intensivo dei dati degli utenti, come i suoi concorrenti, solo che quei dati saranno in forma differenziale. 

È noto che IOS scruta all’interno dei messaggi di posta elettronica, e esamina l’attività del telefono per i suggerimenti agli utenti. Apple sostiene di voler utilizzare la privacy differenziale proprio per fornire suggerimenti migliori agli utenti, ma proprio questa considerazione può far sorgere qualche dubbio, in quanto secondo gli esperti della materia la privacy differenziale è una buona idea se si è interessati a medie e statistiche (es. la telemetria di Windows 10), e non alle singole opinioni, mentre l’uso di Apple sarebbe per personalizzare la fornitura di servizi ai singoli utenti. Apple ha precisato che non accederà, a tali fini, alle fotografie memorizzate nel cloud, ma non ha nemmeno precisato quali set di dati utilizzerà per addestrare i propri algoritmi. 
 
La privacy differenziale, a sentire gli esperti della materia, sembrerebbe in grado, se correttamente applicata, di risolvere i problemi di privacy. Ma non dobbiamo dimenticare che essa non è altro che un mezzo per consentire alle aziende di utilizzare comunque tutti i dati degli utenti. Chi controllerà se Apple, e le altre aziende tecnologiche, utilizzano correttamente queste tecniche di “anonimizzazione”? 

Non rimane che attendere l’attuazione di questa tecnica con IOS 10. Al momento Apple sembra, però, aver fatto una parziale marcia indietro, precisando che la privacy differenziale sarà attiva solo in quattro casi, e per gli utenti che espressamente la autorizzano (opt-in). Non dimentichiamo che la normativa attuale (la GDPR europea ad esempio, art. 33) consente l’utilizzo di dati pseudonimi anche senza il consenso individuale.