Machine learning come servizio: è possibile insegnare la privacy?

L’apprendimento automatico richiede enormi quantità di dati per insegnare il modello. Ma spesso carichiamo tali dati su servizi cloud di machine learning gestiti da persone come Amazon e Google, dove potrebbero essere esposti ad attori malintenzionati. Possiamo utilizzare il machine learning come servizio e proteggere la privacy?

In che modo il machine learning e l'intelligenza artificiale aiutano un'agenzia digitale a creare esperienze cliente uniche

caratteristica speciale

Come implementare l'intelligenza artificiale e l'apprendimento automatico

La prossima ondata di innovazione IT sarà alimentata dall’intelligenza artificiale e dall’apprendimento automatico. Esaminiamo i modi in cui le aziende possono trarne vantaggio e come iniziare.

Leggi ora

L’apprendimento automatico è oggi una delle discipline più calde dell’informatica. Così interessante, infatti, che i fornitori di servizi cloud stanno facendo un buon business e in rapida crescita nel campo del machine learning-as-a-service (MLaaS).

Ma questi servizi hanno un avvertimento: tutti i dati relativi alla formazione devono essere comunicati all'operatore del servizio. Anche se l'operatore del servizio non accede intenzionalmente ai dati, qualcuno con motivi nefasti può farlo. Oppure potrebbero esserci ragioni legali per preservare la privacy, come nel caso dei dati sanitari.

In un recente articolo, Chiron: Machine Learning as a Service che preserva la privacy Tyler Hunt, dell'Università del Texas, e altri, presentano un sistema che preserva la privacy consentendo al tempo stesso l'uso del cloud MLaaS.

La privacy taglia in entrambe le direzioni

Anche se gli utenti potrebbero non voler rivelare i propri dati di formazione, i fornitori di servizi hanno i loro stessi problemi di privacy. In genere non consentono ai clienti di vedere gli algoritmi nella loro tecnologia MLaaS.

A quello scopo,

... Chiron nasconde i dati di allenamento all'operatore del servizio. [E] in linea con il numero di piattaforme ML-as-a-service esistenti, Chiron non rivela né il l'algoritmo di training né la struttura del modello per l'utente, fornendo solo l'accesso black-box agli addestrati modello.

Chiron utilizza le enclavi sicure Software Guard Extensions (SGX) di Intel, un'architettura progettata per aumentare la sicurezza del codice dell'applicazione. Ma il solo SGX non è sufficiente. Chiron utilizza anche la piattaforma SGX per Sabbiera Ryoan, una sandbox distribuita e protetta che protegge il codice utente non attendibile da infrastrutture dannose, come quelle che potresti trovare nel cloud.

Modello di minaccia

L'obiettivo di Chiron è proteggere i dati di training dell'utente, nonché le query e gli output dei modelli addestrati, mentre si trovano nel cloud. A quello scopo:

Partiamo dal presupposto che l'intera piattaforma non sia attendibile, incluso il... sistema operativo e hypervisor. L'aggressore potrebbe essere il proprietario e l'operatore della macchina, un amministratore curioso o addirittura malintenzionato, oppure un invasore che ha preso il controllo del sistema operativo e/o dell'hypervisor. L'attaccante... potrebbe anche essere uno sviluppatore di sistemi operativi dannosi e aggiungere funzionalità che registrano direttamente l'input dell'utente.

Poiché i modelli addestrati possono far trapelare dati di addestramento attraverso determinate query, Chiron garantisce che solo l'entità che ha fornito i dati di addestramento possa interrogare il modello risultante. Persino un utente malintenzionato con il controllo completo dell'infrastruttura non potrebbe interrogare il modello per accedere ai dati di addestramento.

Sembra abbastanza completo, ma ci sono problemi con l'hardware sottostante.

Limitazioni

Lo stesso SGX non è a prova di proiettile. In particolare, la Performance Monitoring Unit (PMU) di Intel consente a una piattaforma non attendibile di analizzare in profondità ciò che sta facendo il sistema.

L'attuale specifica per SGX consente al software privilegiato di manipolare le tabelle delle pagine di un'enclave per osservarne il codice e la traccia dei dati a livello di granularità della pagina. Ciò può portare ad attacchi devastanti...

Poiché Chiron si basa sull'SGX di Intel, non può essere utilizzato con le GPU, poiché queste non dispongono di funzionalità simili a SGX. Quindi l’attuale implementazione è tutt’altro che ideale finché anche i fornitori di GPU non inizieranno a prendere sul serio la sicurezza.

Prestazione

Nonostante le limitazioni, Hunt et. al. ha testato Chiron e ha scoperto che le sue prestazioni erano competitive rispetto alle infrastrutture standard, non protette.

I bit di archiviazione richiedono

Il ragazzino olandese ha avuto vita facile: è riuscito a tappare un buco nella diga con un dito. Nel nostro moderno e massiccio mondo di dati ci sono milioni di buchi, sfruttabili in migliaia di modi.

La perfetta sicurezza non sembra probabile, ma possiamo certamente fare meglio di quanto abbiamo fatto finora; giusto, Facebook? Se riusciamo a renderlo più difficile, elimineremo i criminali informatici di strada - i rapinatori - e lasceremo il... campo a attori grandi e ben finanziati, contro i quali possiamo schierare strumenti grandi e ben finanziati, come Chirone.

Tenetevi stretti i cappelli. I Big Data ci stanno portando in una corsa sfrenata.

Commenti cortesi sono benvenuti, ovviamente.