Data 2020 Outlook Parte II: IA spiegabile e database multimodello

  • Sep 05, 2023

Nella Parte II delle nostre prospettive per l’anno prossimo, esploriamo le questioni dormienti che guideranno la gestione dei dati e l’integrazione dell’intelligenza artificiale nell’analisi.

spiegabile-ai-accenture.jpg
Credito: Accenture

Nell’anno a venire, consideriamo il cloud, l’intelligenza artificiale e la gestione dei dati come le megaforze dell’agenda dei dati e dell’analisi. E così, riprendiamo da dove Big on Data, fratello Andrea Brust lasciato fuori la settimana scorsa, stiamo esaminando alcune delle questioni di fondo che stanno influenzando l'adozione.

Nel mondo dei dati e dell'analisi, non è possibile avviare una conversazione oggi senza l'utilizzo del cloud e dell'intelligenza artificiale. Ieri nella prima parte, abbiamo selezionato la casella di controllo del cloud: abbiamo esplorato come l'imminente cambio generazionale delle applicazioni aziendali cambierà a sua volta il contesto di come le aziende valuteranno l'implementazione del cloud. Oggi rivolgiamo la nostra attenzione all'elemento fondamentale: cosa sta succedendo nei database e cosa ci aspettiamo diventi il ​​problema dormiente quest'anno nell'intelligenza artificiale.

Adesso si tratta di dati, non di Big Data

Ma prima un po' di contesto. Fino ad ora, abbiamo incorniciato le nostre prospettive annuali come riguardante i Big Data perché fino a poco tempo fa erano considerati eccezionali. La definizione di Big Data è stata introdotta da Doug Laney, oggi preside a Caserta, ai tempi della società di analisi Meta Group nel 2001. I Big Data erano una novità perché la loro elaborazione andava oltre le tecnologie di data warehousing esistenti e gli strumenti analitici BI dell’epoca.

Oggi i Big Data sono solo Dati perché la necessità è diventata la madre dell’invenzione. Come noteremo di seguito, l'universo dei database si è espanso ben oltre il modello relazionale principale per comprendere un ampio spettro di piattaforme e tipologie di dati. Quindi ora li chiamiamo semplicemente dati e cambiamo il nome della nostra prospettiva annuale. Naturalmente non siamo i primi a fare questa osservazione, poiché Gartner ha eliminato i Big Data dal ciclo di hype nel 2015.

Ora torniamo al nostro programma regolarmente programmato.

Far uscire l’intelligenza artificiale dalla scatola nera

Tra le osservazioni del settore riportate da Andrew la scorsa settimana c’era la percezione che l’intelligenza artificiale sia diventata mainstream nell’analisi. In effetti, l’analisi è la punta dell’iceberg poiché consumatori, macchine e organizzazioni consumano ogni giorno servizi basati sull’intelligenza artificiale. Ma man mano che il consumo dei risultati dell’intelligenza artificiale si diffonde tra i servizi che alimentano l’economia, il consumo dei risultati dell’intelligenza artificiale è in crescita preoccupazione per l'etica, i pregiudizi o altri presupposti che possono facilmente distorcere gli algoritmi e la selezione dei dati alimenta l’intelligenza artificiale.

Oggi, l'IA difficilmente è considerato intelligente. Sebbene i set di dati e i modelli possano essere complessi, le decisioni mancano di contesto umano. L’intelligenza artificiale può prendere decisioni sì/no, rilevare modelli e fornire raccomandazioni predittive o prescrittive, ma per nel prossimo futuro, a differenza degli esseri umani, l’intelligenza artificiale non sarà in grado di imparare qualcosa in un contesto e applicarlo un altro. Ma anche prendendo decisioni semplici, come concedere un prestito o formulare raccomandazioni, l’intelligenza artificiale può comunque causare danni. L'ex analista di Wall Street Cathy O'Neil ha portato alla luce i potenziali pregiudizi dell'intelligenza artificiale con il suo libro del 2016 Armi di distruzione della matematica.

La selezione e la gestione dei dati è un altro. Ottieni un set di dati sufficientemente ampio e puoi sempre trovare almeno qualche schema. Ad esempio, raccogli le abitudini alimentari di un gruppo sufficientemente ampio di conducenti con patente e potresti trovare alcuni modelli relativi al rischio. Ma poiché la correlazione non è sempre causalità, determinare se tali modelli sono rilevanti per modificare gli standard di sottoscrizione o semplicemente sono fenomeni di campionamento richiede ancora un essere umano nel ciclo.

Man mano che l’intelligenza artificiale diventa sempre più diffusa, le aziende diventeranno sempre più responsabili delle decisioni realizzati con l'aiuto di algoritmi AI, indipendentemente da quanto potenti o limitati siano capacità. Nell'ultimo anno abbiamo assistito all'emergere dei primi tentativi di rendere l'intelligenza artificiale "spiegabile". IBM, Google, H2O.ai e altri.

Come ci si aspetterebbe, dato che siamo ancora agli inizi per quanto riguarda la spiegabilità dell'intelligenza artificiale e il rilevamento dei bias, le capacità sono ancora abbastanza rudimentali: tipicamente operano a livello di caratteristica o attributo individuale, in modo simile a vedere gli alberi ma non il foresta. Consulta le pagine informative come questo o video che dipingono un quadro realistico di ciò che è possibile oggi.

Ad esempio, le capacità odierne possono identificare statisticamente quali caratteristiche di un modello hanno maggiormente influenzato il risultato (ad esempio, generare una decisione, una previsione o riconoscere un'immagine o un testo). Per modelli estremamente semplici, come quelli nell’ultimo passaggio di una catena alimentare per prendere decisioni in settori regolamentati come la finanza o la sanità, possono generare "codici motivo". Possono anche identificare quali attributi o caratteristiche dovrebbero essere monitorati per potenziali distorsioni (il che è simile agli strumenti di sicurezza dei dati per identificare le PII dati). E sulla base di questi risultati, gli strumenti odierni possono condurre “analisi di impatto disparate”, che è un termine di fantasia per identificare se il modello era parziale rispetto a un particolare segmento di persone. In alcuni casi, le capacità di interpretare o spiegare i modelli sono limitate a un singolo framework come TensorFlow. Quanto a qualcosa di più ambizioso, oggi nella migliore delle ipotesi ci sono migliori ipotesi per estrapolare spiegazioni più olistiche sul motivo per cui i modelli prendono decisioni.

La nostra opinione è che la spiegabilità o interpretabilità del modello sia matura per lo sviluppo. Cerca gli annunci qui. Dietro tutto il rumore degli annunci di prodotti legati all’intelligenza artificiale quest’anno, ci aspettiamo che gli strumenti di collaborazione di data science e i servizi di intelligenza artificiale e AutoML basati su cloud miglioreranno il loro gioco in termini di spiegabilità. Oggi, la maggior parte di questi servizi può documentare le modifiche ai modelli nel tempo e probabilmente utilizzeranno il modello dati di derivazione come punto di partenza per sviluppare le proprie capacità di articolare il motivo per cui i modelli vengono creati decisioni. Inizialmente, è probabile che queste funzionalità presentino i loro risultati attraverso visualizzazioni statistiche, richiedendo la traduzione da parte di un data scientist. In seguito, probabilmente aggiungeranno ulteriori funzionalità di linguaggio naturale rivolte agli uomini d'affari.

La spiegabilità dell’intelligenza artificiale non riguarderà solo la tecnologia, ma coinvolgerà anche le migliori pratiche. Una delle lezioni interessanti che abbiamo imparato ascoltando H2O.ai Patrizio Sala è che, se vuoi rendere spiegabile il tuo modello, non renderlo troppo complesso. I data scientist potrebbero imparare una o due cose dagli sviluppatori di app.

Tuttavia, entro la fine dell’anno saremo ancora lontani dal riuscire a ottenere spiegazioni olistiche che vadano oltre i singoli dettagli o attributi. La spiegabilità dell’intelligenza artificiale sarà un lavoro in corso per qualche tempo a venire.

Credito: ovulo

Scontro tra titani: Specializzati vs. Database multimodello

Dopo la conclusione dell'anno 2000, il database relazionale è diventato di fatto lo standard aziendale, ma come volumi di dati e i tipi sono esplosi, così come una nuova generazione di piattaforme, dal valore-chiave al documento, al grafico, agli archivi di colonne, alla blockchain e Di più. Siamo arrivati ​​al punto in cui il portafoglio di Amazon ora elenca 15 piattaforme di database distinte.

E questo ha aperto un dibattito tra i fornitori di piattaforme che dovrebbe suonare familiare: il dibattito secolare La distinzione tra piattaforma unica e migliore del settore si è ora diffusa dall'applicazione al database spazio. Da un lato, Amazon promuove la strategia di scegliere il database giusto per il lavoro; sugli altri ci sono giocatori simili Oracolo, Microsofte persino SAP che hanno promosso l’approccio del coltellino svizzero. Tradizionalmente, le piattaforme di database come Oracle o SQL Server si sono avvicinate alla capacità multimodello estendere le proprie capacità di query SQL o aggiungere funzionalità, come R o Python nel database supporto.

Con la nuova generazione di database nati nel cloud, molti archiviano i dati in un formato canonico per poi esporli tramite API. Microsoft Azure Cosmos DB è l'emblema di questo approccio, ma scruta sotto la superficie e scoprirai che alcuni di essi Anche le piattaforme di database specializzate native del cloud di altri fornitori utilizzano le API in modo prominente nei loro architetture.

In una vita precedente come Ovulo analista, già nel 2014 avevamo previsto che l’avvento della diversità dei database avrebbe portato anche alla sovrapposizione dei database (vedi diagramma). I database specializzati continuerebbero a prosperare, ma aggiungerebbero funzionalità che si sovrappongono ad altre forme di dati, come i database relazionali che eseguono query su documenti JSON o i database orientati ai documenti per avere query di tipo SQL le lingue. Ciò è utile per potenziare l'ampia base di sviluppatori SQL e fornire loro ulteriori funzionalità di query. Tuttavia, il fatto che, ad esempio, Oracolo O IBM DB2 potrebbe interrogare JSON non era destinato a sostituire la necessità di MongoDB; li abbiamo invece considerati casi limite, nel caso in cui l'organizzazione di linea che lavora con un database delle transazioni dei clienti desiderasse anche la possibilità di interrogare dati non relazionali sul profilo del cliente.

A proposito, in quella stessa ricerca, abbiamo posto la domanda su chi sarebbe "proprietario" della query. Entra nell'era attuale dei cataloghi di dati.

Come abbiamo notato in Parte I delle nostre prospettive per il 2020, la nostra opinione secondo cui le aziende guarderanno sempre più al cloud-native poiché la loro scelta di implementazione predefinita non farà altro che intensificare questo dibattito quasi secolare. La nostra opinione è che non esiste un’unica soluzione miracolosa o binaria.

Non fraintenderci, i database adatti allo scopo sono qui per restare. Se il caso d'uso è fortemente incentrato su un singolo tipo di dati, un database promosso come multimodello sarà eccessivo. C'è anche la questione delle capacità altamente sofisticate, come la scrittura di istruzioni SQL estremamente complesse che richiedono più unioni di tabelle o query su grafici che attraversano più di tre salti. Per questi, è meglio restare con i migliori della categoria.

Ma prevediamo anche che i casi limite che richiedono un mix di approcci di accesso ai dati diventeranno molto più comuni. Associa un sistema di transazioni di gestione delle risorse con dati IoT per pianificare la manutenzione o un sistema di pianificazione della catena di fornitura con dati mobili e IoT e avrai una soluzione pronta per l'estensibilità.

Ed è qui che vorremmo vedere i fornitori di database nativi del cloud farsi avanti. Poiché alcune delle loro piattaforme utilizzano già le API per esporre i dati, dovrebbero sfruttare il potenziale di fornire più percorsi ai dati, associando, ad esempio, SQL, JSON, grafico e/o ricerca. Non è solo questione di estendere SQL. Ci aspettiamo di saperne di più sulle capacità trasversali da ciascuno dei principali fornitori di database cloud quest'anno.

Il nostro Data Outlook per il 2020 è diviso in due parti. Per la Parte I, riguardante il cloud ibrido predefinito, clicca qui.