Il tempo della fiducia cieca nei big data deve finire

Il tempo della fiducia cieca nei big data deve finire

Quella che segue è una sintesi di Irene Guidarelli di una presentazione di Cathy O’Neil dell’aprile 2017 ad una Conferenza TED. Cathy è una matematica, cura il blog mathbabe.org ed ha scritto diversi libri tra cui il più recente “Weapons of Math Destruction“.

Gli algoritmi sono ovunque. Ordinano e separano i vincitori dai perdenti.I vincitori ottengono il lavoro o una buona offerta di carte di credito. I perdenti non ottengono neanche un colloquio o pagano di più per l’assicurazione. Siamo valutati con formule segrete che non possiamo capire che spesso non hanno un sistema per appellarsi. ciò ci fa chiedere: e se gli algoritmi si sbagliassero?

Per costruire un algoritmo servono due cose: servono i dati, lo storico, e la definizione di successo, quello che stai cercando o che stai sperando. Si allena un algoritmo guardandolo, scoprendolo. L’algoritmo scopre cosa è associato con il successo. Quali situazioni portano al successo?

Gli algoritmi sono opinioni incastrate in codici. Si crede che gli algoritmi siano oggettivi, veri e scientifici. Ma questo è un trucchetto di marketing per intimidirti con gli algoritmi, e per ottenere la tua fiducia e avere timore degli algoritmi perché ti fidi e sei impaurito dalla matematica. Molto può andare storto quando mettiamo una fede cieca nei grandi dati.

Kiri Soares è la preside di un liceo a Brooklyn. Nel 2011 mi ha detto che  gli insegnanti venivano valutati con un algoritmo complesso e segreto chiamato “modello a valore aggiunto”. Le ho detto “beh cerca di capire qual è la formula e fammela vedere così te la spiego”. Lei mi ha risposto “ho provato ad ottenere la formula, ma il mio contatto al Dipartimento di educazione mi ha detto che è matematica e che non l’avrei potuta capire”. La cosa peggiora ulteriormente. Il New York Post ha presentato una richiesta di “legge sulla libertà di informazione” ,ha ottenuto tutti i nomi degli insegnanti e tutti i loro punteggi e li ha pubblicati come un atto di umiliazione per gli insegnanti.

Quando ho provato ad ottenere la formula, la sorgente del codice, attraverso gli stessi mezzi, mi è stato detto che non potevo, mi è stato negato. Successivamente ho scoperto che nessuno a New York aveva l’accesso a quella formula. Nessuno capiva perché. Finché qualcuno davvero intelligente è stato coinvolto, Gary Rubinstein. Ha scoperto 665 insegnanti dell’elenco pubblicato dal New York Post aveva due punteggi. Questo poteva succedere solo se insegnassero matematica  in seconda terza media. Decise di tracciarli. Ogni punto rappresentava un insegnante. Questo metodo non sarebbe mai dovuto essere usato per valutazioni individuali, essendo quasi un generatore di numeri casuali, ma ciò è stato fatto.

So che molti di voi penseranno, specialmente gli esperti di dati, “io non farei mai un algoritmo così inconsistente”. Ma gli algoritmi possono sbagliare, e avere anche degli effetti profondamente distruttivi nonostante le buone intenzioni. Mentre un aereo progettato male si schianta sulla terra e tutti lo vedono, un algoritmo progettato male può andare avanti per molto tempo, scatenando silenziosamente il caos.

Cosa accadrebbe  se sostituissimo il processo di assunzione con un algoritmo di apprendimento automatico? Quali sarebbero i dati utilizzati? Una scelta ragionevole sarebbe considerare gli ultimi 21 anni di assunzioni. E la definizione di successo? La scelta più ragionevole sarebbe qualcuno che è stato impiegato per quattro anni ed è stato promosso almeno una volta. A questo punto l’algoritmo verrebbe  addestrato per cercare persone per imparare cosa le ha portate al successo, e che tipo di applications storicamente hanno portato al successo per definizione. Ora pensa a cosa accadrebbe se noi applicassimo questo all’attuale bacino candidati. Filtrerebbe via le donne perché non assomiglia a nessuno che precedentemente ha avuto successo.

Gli algoritmi non fanno le cose giuste se noi li applichiamo blandamente e alla ceca. Ripetono le nostre pratiche passate, i nostri schemi. Rendono automatico lo status quo. Questo sarebbe fantastico se avessimo un mondo perfetto, ma non è così. E aggiungerò che la maggior parte delle aziende non ha a carico processi imbarazzanti, ma agli scienziati di dati di quelle società viene detto di seguire i dati, per concentrarsi sull’accuratezza. Pensate a cosa questo vuol dire. Tutti abbiamo dei pregiudizi e quindi potremo codificare sessismo o altri tipi di bigottismi.

Pensiamo a questo esempio: siamo in una società interamente segregata, l’intera città e quartieri sono segregati per razze, e mandiamo la polizia solo nei quartieri dove vivono le minoranze per cercare i crimini. I dati sugli arresti sarebbero molto di parte. E se oltre a questo pagassimo gli esperti di dati per predire dove accadrà il prossimo crimine? La risposta sarà nei quartieri dove ci sono le minoranze. La risposta sarà qualcuno appartenente a una minoranza. Gli esperti di dati si vanteranno anche di quanto accurato e funzionante sia il loro modello, e avrebbero ragione.

Ora, la realtà non è così drastica, ma esistono dei casi di segregazione grave in molti città e abbiamo diverse prove delle attività di polizia e dati di sistema della giustizia parziali. Ed effettivamente facciamo previsioni sui punti caldi o sui luoghi dove gli atti criminosi accadranno, prevediamo la criminalità individuale. La nuova organizzazione ProPublica recentemente ha esaminato quegli algoritmi sul rischio della recidività, utilizzati in Florida durante  le sentenze dei giudici. Bernand, un afro-americano, ha un punteggio di 10 su 10, ad alto rischio. Dylan, un bianco, ha invece un punteggio di 3 su 10, a basso rischio. Entrambi sono stata fermati per possesso di droga. Entrambi avevano precedenti, ma Dylan aveva un precedente penale e Bernand no. Questo è importante perché con un punteggio alto è più probabile che ti venga data una sentenza più lunga.

Che succede quindi? Riciclaggio di dati. E’ un processo con cui i tecnici nascondo le brutte verità in algoritmi a scatola nera e li chiamo oggettivi, meritocratici. Quando invece sono segreti, importanti e distruttivi, ho coniato un termine per questi algoritmi: “armi di distruzione matematica”.

Sono compagnie private che costruiscono algoritmi privati per scopi privati. Anche quelli di cui vi ho parlato utilizzati per gli insegnanti pubblici e per la polizia, sono stati costruiti da compagnie private e venduti alle istituzioni di governo. La chiamano la “salsa segreta” , per questo non possono dirci cosa ci sia dentro. E’ un potere privato, traggono profitto per maneggiare l’autorità dell imperscrutabile.Ora si potrebbe pensare, dal momento che tutte queste cose sono private e c’è competizione, forse il libero mercato risolverà questo problema. Non lo farà. Si fanno troppi soldi con l’ingiustizia.

La buona notizia è che possiamo controllare la correttezza. Gli algoritmi possono essere interrogati e possono dirci la verità ogni volta e possiamo aggiustarli, possiamo migliorarli. Questo lo chiamo audit algoritmico.

Per prima cosa il controllo dell’integrità dei dati. Secondo poi, dovremmo pensare alla definizione di successo. Dobbiamo anche considerare l’accuratezza. È qui che il modello a valore aggiunto per gli insegnanti fallirebbe immediatamente. Nessun algoritmo è perfetto, ovviamente, quindi dobbiamo considerare gli errori di ognuno.  Quante volte ci sono errori e per chi questo modello fallisce? Qual è il costo di tale fallimento?

E infine, dobbiamo considerare gli effetti a lungo termine dell’algoritmo, i feedback che stanno generando. Ho altri due messaggi da comunicare, il prima per gli esperti di dati lì fuori. Esperti di dati: noi non dovremmo essere gli arbitri della verità. Ma dovremmo essere traduttori di discussioni etiche che accadono nella società più ampia. E per al  resto di voi, i non esperti di dati: questo non è un test di matematica, questa  è una lotta politica. Dobbiamo esigere la responsabilità dei nostri signori degli algoritmi. L’era della fede cieca nei Big Data deve finire.

Guarda la presentazione originale di Cathy O’Neil sul sito TED.

Leave a Reply