Arcadia Data bringt Abfragen in natürlicher Sprache in den Data Lake

  • Sep 05, 2023

Arcadia Data bietet als neueste Abfrageschnittstelle ein Textfeld im Suchmaschinenstil und bringt BI-Abfragen in natürlicher Sprache in den Data Lake.

arcadia-fig-3.png

Generieren einer Baumkarte aus einem einfachen englischen Suchausdruck

Bildnachweis: Arcadia Data

Das Untersuchen von Daten mithilfe von Abfrageausdrücken in natürlicher Sprache („Plain English“) ist kein neues Konzept, aber es ist in letzter Zeit relevanter und praktikabler geworden. Menschen sind an Suchmaschinen gewöhnt und mögen die Metapher als Erfahrung bei der Datenabfrage. Produkte wie Gedankenpunkt Und Antwort Rocket sind auf diese Kombination aus Suche und Datenermittlung spezialisiert. Und die Q&A-Funktion von Microsoft Power BI ermöglicht dies sowohl für Ad-hoc-Abfragen in Dashboards als auch für den Einsatz als Autorentool beim Entwerfen von Berichten.

Bei vielen Produkten zur Analyse natürlicher Sprache ist es jedoch erforderlich, dass Daten in eigene Repositorys oder Indexstrukturen verschoben werden. Aber heute, Arcadia-Daten

kündigt in der neuesten Version eine neue Suchfunktion an Arcadia Enterprise Produkt, das das Abfrageparadigma natürlicher Sprache anpasst, um direkt auf Data Lakes zu arbeiten.

Der Tiefpunkt
In einem Telefonbriefing mit Sushil Thomas, dem Gründer und CEO von Arcadia Data, und Steve Wooledge, dem Vizepräsidenten für Marketing des Unternehmens, sagte ich: erfuhr, dass die Arcadia Data Search-Funktion sowohl auf Hadoop-basierten Data Lakes als auch auf vorhandenen Cloud Data Lakes funktioniert In Amazon S3 Und Microsofts Azure Data Lake Store (ADLS).

Sobald Arcadia mit dem See verbunden ist, können Benutzer Suchbegriffe wie „Zeige mir die Bundesstaaten mit der höchsten Bevölkerungszahl im Jahr 1910“ eingeben und erhalten Ergebnisse in Form von Datenvisualisierungen zurück. Dies funktioniert sowohl für einzelne Suchen als auch innerhalb von Dashboards (siehe Abbildung oben in diesem Beitrag).

Abdeckung der Randfälle
Die Ausführung solcher Abfragen über Data Lakes erfordert einen sorgfältigen Umgang mit bestimmten Unklarheiten:

  • Dieselbe Abfrage kann für mehr als einen Datensatz im Data Lake gelten. In diesem Fall wendet Arcadia Data seinen eigenen Bewertungsalgorithmus an, der den Datensatz abfragt, der seiner Meinung nach am besten geeignet ist, für die anderen jedoch anklickbare Optionen auflistet (siehe Abbildung unten). Benutzer, die einen der alternativen Datensätze auswählen, beeinflussen implizit den Bewertungsalgorithmus, um diesen Datensatz bei nachfolgenden Suchvorgängen stärker zu bevorzugen
  • Bestimmte Datensätze oder Spalten innerhalb eines Datensatzes sind möglicherweise nicht für eine suchbasierte Abfrage geeignet. Um diese Schwierigkeiten zu mildern, können Administratoren mit Arcadia Data festlegen, welche Tabellen und welche Spalten darin durchsuchbar sind.
  • Bei durchsuchbaren Spalten stimmen die in einer Abfrage in natürlicher Sprache verwendeten Wörter möglicherweise nicht wörtlich mit den Namen dieser Spalten überein. Um dieses Dilemma zu bewältigen, ermöglicht Arcadia Data die Eingabe einer Liste von Synonymen für jede durchsuchbare Spalte.

Arcadia bietet Ergebnisoptionen für alle anwendbaren Datensätze, wobei standardmäßig einer angezeigt wird, die Auswahl aller anderen jedoch möglich ist.

Bildnachweis: Arcadia Data

Die Suchfunktion von Arcadia bietet weitere Vorteile. Wenn beispielsweise Abfrageausdrücke eingegeben werden, werden Vorschläge zur automatischen Vervollständigung bereitgestellt (dies kann Folgendes umfassen: Ganze Suchbegriffe werden als Vorschläge angezeigt, nachdem nur ein einziges Wort in die Suche eingegeben wurde Kasten). Die Ergebnisse werden unter Verwendung des von Arcadia Data als am besten geeigneten Visualisierungstyps gerendert. Benutzer können jedoch den gewünschten Visualisierungstyp im Suchausdruck selbst angeben.

Es ist wahrscheinlich wichtig darauf hinzuweisen, dass Arcadia diese neue Funktion zwar „Suche“ genannt hat, sie jedoch nicht auf speziellen Suchindizes basiert und keine Technologien wie diese verwendet Solr/Lucene oder ElasticSearch. Stattdessen stellt Arcadia tatsächlich eine Abstraktionsebene für natürliche Sprache bereit, die den eingegebenen Ausdruck konvertiert in die entsprechende Abfrage in SQL oder einer anderen Muttersprache (abhängig von der Herkunft des Datensatzes und Format). Obwohl Arcadia unter der Haube einen eigenen OLAP-Cube-Stil erstellt, um einige Abfragen zu beschleunigen, werden die Daten im Lake nativ abgefragt, und es ist keine Indizierung oder ELT erforderlich.

Suchmaschine als Datenkatalog
Wenn Sie darüber nachdenken, deckt die Suchfunktion von Arcadia Data viele der gleichen Data-Lake-Anwendungsfälle ab wie datenkataloggesteuerte Abfragetools. In beiden Fällen besteht die Idee darin, die Daten im Lake leichter auffindbar zu machen und Geschäftsbenutzern, die nicht mit den einzelnen Datensätzen und ihrem Schema vertraut sind, eine Self-Service-Abfrageerfahrung zu bieten.

Der Datenkatalog-Ansatz funktioniert von oben nach unten: Suchen Sie zuerst den benötigten Datensatz und erstellen Sie dann die Abfrage dafür. Die Suchfunktion von Arcadia Data ist eher von unten nach oben ausgerichtet: Sagen Sie, was Sie sehen möchten, und dann wird der Datensatz ausgewählt und die Abfrage für Sie erstellt. Beide Ansätze sind gültig und je nach den Umständen kann einer der beiden vorzuziehen sein.

Aber manchmal ist ein zwingender Befehl schneller und einfacher als ein Surferlebnis. Für Geschäftsanwender, die das „weiße Blatt Papier“ hinter sich lassen und ihre Data Lakes wirklich nutzen möchten, hat Arcadia Data eine großartige Lösung. Sobald Benutzer sich zurechtgefunden haben, möchten sie möglicherweise einen Datenkatalog verwenden, um ihre Datenseen umfassender zu erkunden. Es gibt starke Synergien bei der Verwendung beider.