L’aspetto più critico della riforma in materia di copyright in discussione al Parlamento europeo (ne abbiamo parlato anche qui) riguarda l’obbligo per le piattaforme del web di utilizzare filtri automatizzati e preventivi per scandagliare i contenuti immessi dagli utenti prima che essi siano visualizzati.
Tali tipi di filtri, come ben noto, sono già usati in forma volontaria da alcune piattaforme del web, come Google, Youtube, Spotify, Facebook ed altre. In particolare Google, probabilmente per rintuzzare continui e reiterati tentativi dell’industria del copyright di costringerla ad implementare soluzioni sempre più drastiche, ha iniziato da tempo a realizzare report pubblici in modo che chiunque possa avere un quadro d’insieme trasparente del funzionamento di questi sistemi di filtraggio. Esistono comunque dati da altre aziende, ma in genere i più completi sono quelli di Mountain View.
Poi sono rintracciabili in rete numerosissimi esempi di casi in cui il filtraggio dei contenuti in rete ha condotto a vere e proprie aberrazioni, cioè alla palese cancellazione di contenuti che non solo non violavano alcun diritto d’autore, ma che non avevano nulla a che fare con questioni di copyright. Un esempio è, la cancellazione di un video di gatti che fanno le fusa, oppure un video nel quale un contadino, senza alcuna musica di sottofondo, spiegava come coltivare l’insalata. In giro per la rete vi sono tantissimi di casi simili.
Occorre, però, per comprendere bene la problematica, fare alcune premesse relativamente al funzionamento dello strumento in questione.
Sistemi di identificazione
Cominciamo col dire che ogni file (video, audio…) contiene alcune informazioni al suo interno che descrivono il contenuto del file stesso. Tali informazioni si chiamano metadata. Ad esempio, il nome del cantante, il nome della canzone, la lunghezza, il tipo di codifica.
Per identificare un file, quindi, è possibile utilizzare i metadata in esso contenuti, comparandoli (matching) con quelli di un altro file.
Un diverso modo di identificazione di un file è basato sul cosiddetto hash. l’hash è un numero che viene calcolato utilizzando appositi algoritmi sul file stesso, in modo che un file produca sempre lo stesso hash. In tal modo l’hash può essere utilizzato per identificare uno specifico file.
Infine c’è il cosiddetto fingerprint (impronta). Piuttosto che analizzare i singoli bit del file, questo metodo estrapola le caratteristiche del contenuto, che potrebbero essere, ad esempio, le note di una canzone, la quantità di ripetizioni della stessa, ecc... In tal modo anche modifiche del file, quali l’alterazione della rappresentazione binaria, non comportano differenze per l’algoritmo di identificazione del contenuto, in quanto una canzone deve sostanzialmente rimanere la stessa. Per capirci, è il sistema che Shazam e Soundhound utilizzano per riconoscere la musica che ascoltate.
Il terzo sistema di identificazione è nato per gli evidenti limiti dei primi due. Infatti, è piuttosto semplice alterare i metadata di un file (cambiando ad esempio il nome della canzone) così rendendo impossibile identificare quel file come copia della canzone originale. Allo stesso modo è sufficiente fare alcune modifiche minime al file (es. aggiungere qualche decimo di secondo ad una canzone) per alterare l’hash rendendolo inutile a fini identificativi.
In conclusione l’unico metodo davvero efficace per identificare un file e verificare se si tratti di una copia, casomai illecita, di altro file, sembrerebbe il fingerprint. È doveroso però precisare che efficace in questo caso non è sinonimo di affidabile, perché anche il fingerprint, proprio per le sua caratteristiche è passibile di errori, intesi sia come falsi positivi che negativi. E questo è tanto più vero considerato che il sistema di identificazione dipende da come è scritto l’algoritmo, quali parametri usa per l’identificazione. Non dimentichiamo che molti dei software che usano tali sistemi sono proprietari, quindi non è nemmeno dato sapere come funzionano esattamente.
Problemi dei sistemi di identificazione
Un altro problema del fingerprint è che è un metodo utilizzabile solo per alcuni tipi di contenuti, in particolare video e audio e immagini (fotografie). Non è utilizzabile, invece, per file di testo né per software, ed in genere per tutti gli altri tipi di contenuto.
Un altro aspetto che non va trascurato, considerato che i filtri sarebbero a carico della piattaforma del web e sono un costo, sia economico sia di elaborazione, non indifferente (l’industria del copyright scarica sulle piattaforme del web il costo della tutela dei propri interessi economici) è il tempo occorrente per l’identificazione del contenuto. Ad esempio, i metadata possono essere processati senza nemmeno leggere tutto il file. Immaginate un video di 10 GB, basta leggere pochi kb di dati. Il calcolo dell’hash, invece è più complesso perché per quello occorre quanto meno il caricamento dell’intero file.
Il metodo di identificazione basato sul calcolo dell’hash, quindi, comporta maggiori costi di elaborazione, rispetto a quello basato sui metadata, quanto più grande è il file (es. un video piuttosto che una canzone).
L’elaborazione di un file, ai fini dell'identificazione tramite fingerprint, è indubitabilmente il metodo più costoso, in termini di tempo, spazio sui server e elaborazione computazionale. Questo perché occorre caricare l’intero file e sottoporlo ad un algoritmo di estrapolazione della caratteristiche del file stesso. È ovvio, quindi, che l’algoritmo utilizzato deve essere differente a seconda del tipo di contenuto, perché, ad esempio, l’estrapolazione del peso di una determinata nota non ha senso per l’identificazione di file di immagini.
Comunque anche il fingerprint può essere ingannato, con sistemi di alterazione del file, il più semplice è la cifratura dello stesso. Non solo, essendo l’algoritmo tarato sul sistema di decodifica, l’evoluzione del codec comporta immancabilmente l’esigenza di dover ritarare l’intero algoritmo. Anche la transcodifica (cioè il passaggio da un formato di codifica ad un altro) modifica integralmente la natura del formato, determinando ovvie difficoltà per l’algoritmo di identificazione.
Altro aspetto da non dimenticare è che un sistema di identificazione basato sul fingerprint è utilizzabile solo se il titolare del contenuto fornisce le “impronte” del file, in modo che la piattaforma abbia un elemento a cui comparare le impronte dei file immessi sui suoi server. Ciò purtroppo non accade sempre, molte piattaforma lamentano che l’industria del copyright si rifiuta di fornire loro tali impronte, rendendo impossibile alle piattaforme l’utilizzo di software di comparazione. È noto il caso di 4shared che, pur implementando un sistema di filtraggio analogo a quello di Google, denuncia che i titolari dei diritti preferiscono inviare richieste di takedown direttamente al motore di ricerca Google. In tal modo, paradossalmente, ottengono minori risultati, perché dialogando con Google si può avere solo la rimozione del contenuto dall’indice di ricerca, mentre dialogando direttamente con 4shared si può ottenere la cancellazione del contenuto stesso.
Costo elevato
Tornando al problema del costo dell'implementazione di tali sistemi di filtraggio, con riferimento proprio al costo economico, non è una questione di poco conto. Non dimentichiamo che il noto ContentId di Youtube costò circa 60 milioni.
I software di identificazione non sono molti, anzi davvero pochissimi. Il più conosciuto per i file audio, anche perché citato da un membro della Commissione europea (che nello specifico indicò, erroneamente, che erano software dai prezzi abbordabili), è Audible Magic.
Audible Magic, nel magnificare l’efficacia del proprio software dinanzi al Copyright Office americano stimò il costo del suo uso in circa 900 dollari al mese. Purtroppo questa stima era basata su una ipotesi di partenza del tutto irrealizzabile nella pratica, e cioè una piattaforma che ospiti circa 5000 canzoni al mese. Per capire considerate che all’avvio del suo servizio Soundcloud aggiungeva circa 10 ore di nuova musica ogni minuto.
Un’azienda media, invece, dovrebbe pagare tra i 10mila e i 25mila dollari al mese per l’utilizzo del software Audible Magic. Come potrebbe un servizio del tutto nuovo nascere sopportando costi così onerosi? Inoltre, chi mai investirebbe soldi in un servizio nascente che si trova sul capo una spada di damocle costituita da un tale obbligo legale?
Veoh, una piattaforma di hosting video che, per aver deciso di difendersi nei confronti di alcune aziende del copyright, ed aver prevalso in un giudizio, è stata costretta, per la lunghezza del processo, a dichiarare bancarotta.
Filtri anche per i siti che aiutano gli artisti
L’industria del copyright fa girare la voce che le proteste contro tali obblighi in realtà vengono da voci pagate da Google. Ma è evidente che l’effetto primario dell’introduzione di tale obbligo porterebbe all’ingessatura dell’intero mercato a favore degli attuali monopolisti (Google, Facebook ecc…).
L’industria del copyright sostiene che queste nuove norme sono necessarie per tutelare gli artisti e i creatori. Pensiamo alla piattaforma Kickstarter, che è nata proprio per favorire i creatori e gli artisti, i quali possono grazie ad essa ottenere finanziamenti per i loro progetti, di tutti i tipi, direttamente dagli utenti. Kickstarter ha ospitato oltre 400mila progetti, e quindi dovrebbe implementare filtri per identificare non solo contenuti audio, ma anche video e per immagini, e anche per software. Il costo sarebbe proibitivo (ed impossibile per i software), e porterebbe alla chiusura del sito. Ma è un sito che aiuta gli artisti!