SiSense annuncia Prism 10x

  • Oct 27, 2023

SiSense annuncia una nuova versione della sua suite di motori di database BI per la visualizzazione dei dati, insieme a importanti miglioramenti delle prestazioni.

Divulgazione: I lettori dovrebbero tenere presente che SiSense è un cliente della mia azienda, Blue Badge Insights. Questo articolo non è commissionato né compensato da SiSense e lo intendo come un rapporto obiettivo sull'annuncio del nuovo prodotto dell'azienda. Tuttavia il mio punto di vista è certamente soggettivo e i lettori dovrebbero tenerlo presente.

SiSense, un'azienda di cui ho parlato in precedenza, ha introdotto una nuova versione del suo prodotto Prism, denominata Prism 10X, che offre importanti miglioramenti al motore di database ElastiCube sottostante. L'azienda afferma che la nuova versione fornisce 100 volte la capacità di dati e 10 volte la velocità rispetto alle soluzioni di analisi in memoria concorrenti eseguite sullo stesso hardware.

Pensa globale, agisci locale
Molte delle soluzioni Big Data disponibili funzionano con un approccio "scale-out" all'elaborazione dei dati. In genere ciò significa aggiungere più server di base a un cluster, in modo che più dati possano essere elaborati in parallelo, consentendo ai tempi di elaborazione di rimanere ragionevoli anche con l'aumento dei volumi di dati.

Un'architettura di questo tipo è molto potente, ma può distogliere l'attenzione dalle ottimizzazioni parallele che possono essere ottenute su una singola macchina. Queste ottimizzazioni in macchina sono esattamente dove gli ingegneri di SiSense hanno concentrato i loro sforzi, impiegando una combinazione di riconoscimento della cache, compressione colonnare, prelettura predittiva e vettorizzazione.

Flusso della cache
Il motore ElastiCube di SiSense si concentra non solo sull'elaborazione dei dati in memoria, ma anche all'interno della cache integrata di un'unità di elaborazione centrale (CPU). Lo spostamento dei dati dentro e fuori dalla cache è molto più veloce rispetto alla RAM (Random Access Memory). mentre molti motori di dati utilizzano la cache solo incidentalmente, Prism mira alla manipolazione dei dati nella cache esplicitamente.

La cache è molto più piccola della memoria, quindi il motore ElastiCube utilizza la compressione colonnare, non solo per l'archiviazione dei dati su disco, ma anche per la loro persistenza nella cache. Il motore inoltre suddivide le query in sottoquery (che SiSense chiama "istruzioni" e dice tendono a ripetere) e prerecupera i risultati per le sottoquery che la sua euristica dice agli utenti Volere. È interessante notare che queste euristiche migliorano all'aumentare del carico di lavoro del motore, quindi un carico maggiore sul sistema può effettivamente portare a prestazioni migliori.

Prism non si limita a prendere di mira la cache, ma utilizza le istruzioni SIMD (single instructions, multiple data) delle CPU più recenti, che elaborano più valori di dati contemporaneamente, anziché uno alla volta. Ciò facilita l'elaborazione parallela all'interno di una macchina, piuttosto che tra i nodi (server) in un cluster. Questa tecnica viene talvolta definita vettorizzazione.

Avvia il motore... e poi vai avanti
Per quanto ossessivo sia il team di ingegneri di SiSense nel creare un kernel di query super efficiente, Prism è più un concorrente di strumenti di rilevamento e visualizzazione dei dati come Quadro, QlikView E TIBCO Spotfire rispetto a un data warehouse o a prodotti di elaborazione analitica online (OLAP). Prism include grafici a dispersione, rose dei venti, imbuti, mappe a dispersione e ad aree, tra gli altri, e SiSense afferma che "sono disponibili migliaia di combinazioni".

Anche gli strumenti di data discovery della concorrenza hanno i propri motori e utilizzano una combinazione di tecniche colonnari e in memoria per ottenere prestazioni elevate. Ma non sembrano sfruttare le operazioni di cache e SIMD (quella che SiSense chiama "analisi in-chip").

Spazio per crescere
SiSense è lungi dall'essere perfetto. Per quanto valide siano le ottimizzazioni a nodo singolo, la sua mancanza di capacità di distribuzione basata su cluster sarà una svolta per alcuni che sono alla ricerca di soluzioni su scala petabyte. Ma per il lavoro di data discovery, la scala dei terabyte è il luogo in cui si trovano molti (se non la maggior parte) dei clienti aziendali in questo momento.

Le funzionalità di clustering potrebbero essere disponibili in una versione futura. Ma per ora, SiSense si sta concentrando su una soluzione integrata ad alta velocità per il lavoro di data discovery in un'unica soluzione, e la crescita anno su anno dichiarata del 520% ​​fa sì che l’azienda ritenga che il suo approccio sia abbastanza ben convalidato.