Strata HadoopWorld Sonbahar 2016 ölüm sonrası: Belki yapay zeka gelecek, ama veri bilimini işler hale getirebilir miyiz?

Strata'da yapay zeka ve makine öğreniminin sözde kaçınılmazlığı üzerine birkaç tartışma yaptık. Ancak bir Hadoop kümenizin olması makine öğrenimi modellerinizin çalışacağı anlamına gelmez.

Bugünlerde yapay zeka (AI) hakkındaki tüm heyecan göz önüne alındığında, ilk bakışta bunun geçen hafta Strata'da neredeyse sonradan akla gelen bir düşünce olarak ortaya çıkması şaşırtıcı görünebilir.

Oku bunu

Google ve NASA, makine öğrenimini ve yapay zekayı geliştirmek için kuantum hesaplama laboratuvarını kullanıyor

Şimdi Oku

Gibi bir dizi ürün duyurusu vardı. Maanapetrol ve gaz gibi kaynak yoğun sektörlere yönelik bilgi yönetimi platformunun en yeni sürümüne anlamsal arama benzeri yetenekler ekleyen; Ve SplunkBT sistemi günlük dosyalarından olayların tanımlanması ve çözülmesine yönelik tekliflerine makine öğrenimini aşılayan.

Microsoft'un "Bağlantılı Gözler" başlıklı açılış konuşmasında Joseph Sirosh Hindistan'ın önde gelen göz enstitüsü ile büyük hasta popülasyonlarına makine öğrenimi uygulayan bir projeden bahsetti Göz ameliyatı sonuçlarını iyileştirmek için.

Ancak bu büyük resmi gölgeliyor. Konferans sponsoru O'Reilly, yapay zekayı ayrı bir bölüme ayırarak bunu kabul etti. etkinlik öncesi parça önceki gün. Ve her neyse, bu bir değildi Google Bulut etkinliğiYapay zekanın önde ve merkezde olduğu yer.

Yani alışın. Yapay zekanın insanların yerini alıp alamayacağı, alacağı veya alması gerekip gerekmediği konusunda pek çok abartılı iddia var (spoiler uyarısı: cevaplar "değildir"). Ancak günümüzün yapay zekası bir grup yapay zekadan daha akıllı olmasa bile aptal bilginlerYapay zekanın temel bileşeni olan makine öğreniminin (ML) hâlihazırda gerçekleştirmekte olduğu çok sayıda pratik ve çoğu zaman göze çarpmayan işler var.

Geçen sene Strata'da, sağlayıcıların veri yönetimi ve veri göllerinin yönetimine yönelik araçlarda ML'nin neredeyse her yerde yaygınlaştığını gördük. A ile Z.

Statik yönetişim kuralları yerine makine öğrenimi kullanmanın mantığı, veri göllerinin doğasından kaynaklanmaktadır. Veri ambarlarının aksine, hangi verilerin akacağını tam olarak bilemezsiniz ve bu nedenle önceden kurallar oluşturmak pratik olmayacaktır. zamanı belirleyen şema, veri kalitesi, tekilleştirme veya hangi verilerin hassas olabileceğinin belirlenmesi (web günlükleri bile PII verileri verebilir) uzak).

Yönetişim, ister veri hazırlamayı, ister bir katalog oluşturmayı ve ana veya referans verileri tanımlamayı içersin, sistemin normların nasıl değiştiğini "öğrenmesini" gerektiren hareketli bir hedef olabilir.

Ve başka yerlerde de ML var. Cloudera gibi sağlayıcılar, abone müşteri teknik desteğinin otomatik "telefonla ev" işlevini destekleyen sorun bildirimi takibine makine öğrenimi ekler.

Görüşümüzle belirttiğimiz gibi Veri RobotuML programları oluşturma ve dağıtma yaşam döngüsünün farklı yönlerini basitleştirmeyi veya hızlandırmayı amaçlayan, giderek artan sayıda araç var.

Makine öğrenimi, insanlara yardımcı olan son kullanıcı analitik araçlarında da karşımıza çıkıyor verideki sinyalleri ayrıştırmak, onu şekle sokun, hangi soruların sorulacağını önerin, ve yardım anlatıyı bir araya getirin.

Başka bir deyişle, büyük verileri yöneten veya analiz eden paket yazılım araçları söz konusu olduğunda, muhtemelen gömülü makine öğrenimini olduğu gibi kabul etmeye başlıyoruz.

Peki ya kendi veri bilimcileriniz kendi ellerini kirletmek isterse? Belirttiğimiz gibi Birkaç hafta önce, R ve Python programcıları arasında ML'ye yönelik büyük bir bastırılmış coşku vardı ve çoğu kişi bunu en son parlak, yeni şey olarak görüyordu.

Ama tüm coşkuya rağmen, en azından aralarında Kıvılcım kullanıcılar, SQL ve akış daha sık görülen iş yükleridir. 2016 Spark Araştırması az önce yayınlandı Veri tuğlaları.

Coşku ve eylem arasındaki kopukluğun bir kısmı, makine öğrenmesinin R veya Python programlarından kaynaklanıyor olmasıdır. geliştiricilerin yazdıkları, Scala (Spark'ın yerel dili olan) ile karşılaştırıldığında Spark ile pek iyi çalışmayabilir. dil). Aşağıdaki gibi kaynaklardan alınan tercih ettikleri ML kütüphaneleri: KRAN veya Scikit-Öğren, Spark'a kolayca taşınamaz.

KıvılcımR Ve PySparkR ve Python programcılarının Spark'a erişmek için kullandıkları API'lerin de sınırlamaları vardır. Örneğin, SparkR bir dizi işlevi desteklemiyor (örneğin, veri kümelerinin bölünmesi) R programcılarının alışık olduğu ve yalnızca Spark'ın bir alt kümesini desteklediği MLlib makine öğrenimi kütüphaneleri.

Bu arada PySpark henüz Spark'ın tüm API çağrılarını desteklemiyor. Ayrıca Spark'ın DataFrame'i sözdiziminde farklılık gösterir itibaren PandalarPython'un eşdeğeri olan.

özel özellik

Yapay Zeka ve İşletmenin Geleceği

Makine öğrenimi, görev otomasyonu ve robot teknolojisi halihazırda iş dünyasında yaygın olarak kullanılıyor. Bunlar ve diğer yapay zeka teknolojileri çoğalmak üzere ve kuruluşların bunlardan en iyi şekilde nasıl yararlanabileceğine bakıyoruz.

Şimdi Oku

Kuşkusuz tüm bunlar, hedeflerin geçişle birlikte hareket etmesiyle gerçekleşiyor. Kıvılcım 2.0. Spark MLlib sonunda tarafından kapsanacak Spark MLDataFrames, daha akıcı hedefler sağlamak için DataSet'lerle birleştiriliyor. Ve umarım, yeniden düzenlenen hedeflerle birlikte bazı empedans uyumsuzluklarını çözebilecek genişletilebilirlik de gelecektir.

Ve R topluluğu da yasayı kendi ellerine alıyor. Strata'da, RStudio duyuruldu ışıltılıpopüler olanın yeni bir uyarlaması dplyr Spark için R veri işleme paketi.

Belki sorun daha da basittir: Ortada veriler var ancak kuruluşunuz kullanım durumunu çözemedi. Sağlayıcılar şunu sever: Veri yöneticisi gibi tekliflerle oyuna kendi görünümlerini katıyorlar hiçbir zorunluluk içermeyen yarım günlük atölye çalışmaları bazı planları çizmek için.

Ancak diyelim ki ekibiniz bunu aştı: Sorunun ne olduğunu biliyorlar ve veri bilimcileriniz zaten buna karşı tahmine dayalı modeller kodluyor. Şimdi ne olacak?

Soğuk ve sert gerçeklik, programların çevrilmesi ve çalıştırılmasının ayrı zorluklar olduğudur. Veri bilimcisi algoritmalar konusunda yolunu biliyor olabilir ancak veri becerilerine sahip olmayabilir programları fiziksel olarak dağıtmak ve düğümleri ve veri kümelerini bir araya getirmek için mühendis uygulamak.

Bu senaryo şok edici olmamalı çünkü veri bilimcileri bugünlerde yüksek bir statüye sahip olsalar da, günlük sorunları oldukça karmaşık. sıradan.

Bu nedenle, veri bilimcilerin geliştirdiği modeller her zaman uygulanmadığında şaşırmayın. Matt BrandweinCloudera ürün müdürü, müşteriler arasında modellerin çok yaygın olduğu bir senaryo buldu. başka birine ulaşmış veya ulaşmamış PDF dosyalarından başka bir şey değil organizasyon.

Ve eğer model birine ulaşırsa, onu kendi bildiği dilde kodlarsa şaşırmayın. Bu durumda modelin mantığının çeviriden sağ çıkmasını umalım.

IBM gibi sağlayıcılar, aşağıdaki gibi işbirliği teklifleriyle bu boşluğu kapattılar: Veri Bilimi DeneyimiNot defterlerine erişmeyi, veri bilimi projelerini yönetmeyi, analitik bilgi işlem çalıştırmalarını planlamayı ve farklı veri kaynaklarına erişimi yönetmeyi ve kökenleri izlemeyi destekleyen.

Sağlayıcılar şunu sever: Alp Verileri, Dataiku, Domino Veri Laboratuvarı karşılığında veri bilimcileri ile işletme arasındaki boşluğu doldurmaya çalışan ve bazı durumlarda dağıtımı takip eden araçlar sunar. Ancak yine fiziksel dağıtım adımının otomasyonu yetersizdir.

Çoğu zaman, veri ML modellerini üretime dağıtmanın gerçeği, yabancıların nezaketine veya daha büyük olasılıkla dost canlısı yerel dostlarınızın nezaketine bağlı bir boşluk olmasıdır. veri mühendisi.

Bu, Strata Sonbahar 2016 değerlendirmemizi gözden geçiren iki yazıdan ikincisi.