Apache Spark: Hortonworks bellek içi motoru nasıl çalıştırmayı hedefliyor?

Apache Spark açık kaynaklı bellek içi bilgi işlem çerçevesi, Hortonworks tarafından yakın zamanda tanıtılan bir dizi yeni girişimin odak noktasıdır.

Hadoop yazılım ve hizmet firması Hortonworks şunları söylüyor: bugün ana hatlarını çizdiği planlar için Apache Kıvılcımı bellek içi motoru kurumsal kullanım için daha iyi bir aday haline getirmek üzere tasarlanmıştır.

Şirket, Spark'ın Hadoop'un YARN kaynak yönetimi katmanıyla çalışma şeklini iyileştirmeye ve motora daha iyi yönetişim, güvenlik ve operasyonlar sağlamaya odaklanıyor.

Spark'ı YARN'a daha derinlemesine entegre etmenin amacı, diğerleriyle daha verimli çalışmasını sağlamaktır. Hive, Storm ve HBase gibi motorları tek bir veri platformunda birleştirir ve özel Spark ihtiyacını ortadan kaldırır kümeler.

Arun Murthy: Spark, açık kaynak topluluğundan çıkan en ilginç şeylerden biri. Resim: Hortonworks

Hortonworks'e göre şirket, bu girişimlerin sonuçlarını Apache Hadoop açık kaynak projesine aktarma politikasını sürdürecek.

"Spark, açık kaynak topluluğundan çıkan en ilginç şeylerden biri ve hem Hadoop ekosisteminin hem de Hadoop ekosisteminin dayanıklılığının bir kanıtıdır. Hadoop'un 2006'daki kuruluşundan bu yana çalışan Hortonworks kurucu ortağı Arun Murthy, "Apache açık kaynak topluluğunda tüm bu yenilikleri görüyoruz" diyor. söz konusu.

"Hafıza ucuzluyor. Artık her kutuda kolayca 100 GB veya daha fazlasını çalıştıran müşterilerimiz var; bu, bu makinelerden 10 veya 20'sini bir araya getirirseniz, aniden bir veya iki terabayt RAM'e sahip olduğunuz anlamına gelir.

"Bu senaryolarda veri bilimcinin gelip şunu söylemesi çok çekici: 'Hızlı etkileşimli çalışmalar yapacağım' analitik ve makine öğrenimi, modelleme ve yineleme gibi bazı algoritmaları aşağıdaki gibi bir çerçeveyle yazın Kıvılcım'. Spark'ın özellikle yeni nesil geliştiriciler için bu kadar çekici olmasının nedeni budur."

Bu çekiciliğe katkıda bulunan şey, komut dosyası dilinin matematik için Lisp benzeri işlevsel bir programlama dili olarak oynadığı rol göz önüne alındığında, Spark'ın Scala API'sidir.

Murthy, "Scala'nın matematik ve matematik açısından düşünen insanlar için iyi bir dil olduğunu ve donanımın gelişimi açısından yeterli hafızaya sahip olduğunuzu bir araya getirin" dedi.

"Hadoop'a başladığımda sunucularımızda kutu başına yaklaşık 4 GB ila 8 GB RAM bulunuyordu. O zamanlar bu son teknolojiydi. Bugün 4GB veya 8GB değil; 128 GB veya 256 GB bellektir. Yani Spark doğru zamanda doğru teknolojidir."

Her ne kadar Spark'a olan ilginin büyük kısmı şu anda makinelerle ilgilenen veri bilimcilerinden geliyorsa da Hortonworks, bir işletmenin birden fazla işletmeyi çalıştırdığı durumlarda çerçevenin iyi işlemesi konusunda isteklidir. iş yükleri.

"Verilerin genel bağlamına bakarsanız, bu yüzden şu fikre sahibiz: YARN bu veri işletim sistemi olarak ve tüm verilerinizin Hadoop'ta olmasını istiyorsunuz" dedi Murthy.

Oku bunu

Daha hızlı, daha yetenekli: Apache Spark'ın Hadoop'a kazandırdıkları

Şimdi Oku

"O halde ister Spark kullanan veri bilimci olsun, ister Hive kullanan bir analist olsun, ister NoSQL kullanan bir programcı veya geliştirici olsun veritabanı, tüm bu insanlar tek bir yere gelebilir ve YARN'ı kullanarak aynı içindeki birçok motor arasında aracılık edebilir bağlam."

Bu hedef, Hortonworks'ün Spark ile Apache Hive veri ambarı yazılımı ve ORC ikili dosya formatı arasındaki entegrasyonu geliştirmeye yönelik yaptığı çalışmalarla gösterilmektedir.

"ETL'nizi yapıp verilerinizi ORC formatına koyarsanız, Hive'ı kullanarak verimli bir şekilde sorgulayabilirsiniz, artık veriler Bu verilere erişmek isteyen bilim insanı, bu dosyaları Spark aracılığıyla işlerken benzer şekilde iyi bir deneyime sahip olabilir." Murthy söz konusu.

Güvenlik cephesinde Hortonworks, Spark'ın güvenli bir Hadoop kümesinde sorunsuz çalışmasını sağlamak için yoğun yatırım yaptığını söylüyor Spark Web Kullanıcısına erişim verilmeden önce müşterinin LDAP veya Active Directory ile yetkilendirme talebini karşılar Arayüz.

Hortonworks aynı zamanda Spark on YARN'ın küme kaynaklarını kullanmasının ideal olmayan yolu olarak tanımladığı durumu ele almaya çalışıyor.

Murthy, "Bugün şu anda olan şey, YARN'daki Spark dağıtım modelinin daha çok uzun süredir devam eden bir hizmete benzemesi; burada devreye giriyorsunuz, bu kutulardan bir miktar bellek alıp koşuyorsunuz" dedi.

Teknoloji Uzmanı Araştırması

BT liderlerinin büyük veri güvenliğine yönelik kılavuzu
Kültür, otomasyon ve self servis: Büyük veri başarısının anahtarları
Açık kaynaklı büyük veri ve DevOps araçları: Analiz uygulamalarına giden hızlı bir yol
İşe alma kiti: Veri mimarı
Gerçek dünyada IoT: En iyi beş kullanım örneği

"Etkileşimli analizler ve yinelemeler yapıyorsanız bu dağıtım modeli harikadır, ancak yapıyorsanız o kadar da iyi değildir toplu çünkü toplu iş yapıyorsanız bir noktada çok sayıda kaynağa, daha sonra ise daha az kaynağa erişmek isteyebilirsiniz nokta. Uygulamanızda bu gelgitler var.

"Yani yaptığımız şey, toplu iş için Spark'ın artık bazı uygulamaları kullanmaya başlayabileceği alternatif bir yürütme veya dağıtım modeli öneriyoruz. Hadoop platformunda bulunan yerel özelliklerden biri, ister YARN'daki Hadoop karıştırma olsun, ara transferler yapmanızı sağlar veri.

"İplik karıştırmayı kullanmak istiyoruz, Spark'a benzer bir projede kaydettiğimiz ilerlemelerden bazılarını kullanmak istiyoruz, Apaçi Tezve aslında her iki yerde de yatırımlardan yararlanın.

"Bunlardan ikisini kullanabilir ve genel kurumsal kullanıcılarımıza oldukça iyi bir deneyim sunabiliriz Böylece toplu uygulamalarında yüksek kullanım ve yüksek verim elde edebilirler. Kıvılcım."

Murthy, Hortonworks'ün Spark girişimlerinin halihazırda başarıyla uyguladığı yaklaşımın aynısını kullandığını söyledi. Dağıtılmış hesaplama çerçevesi Storm ve yüksek verimli dağıtılmış mesajlaşma sistemi gibi yeni gelişen teknolojiler Kafka.

"Tüm bu teknolojileri erken dönemde kullanan çok sayıda müşterimiz oldu. Programa katılmayı tercih ediyorlar ve biz de kurumsal bir yazılım satıcısı olarak programı gerçekten sağlam kılmak için odaklanmamız gereken alanları anlamak için onlarla zaman geçiriyoruz" dedi.

"Şu anda yaptığımız şey, devam etmek ve Apache Spark projesinin çekirdeğine dahil etmek istediğimiz bu programın sonucunu duyurmak. O zaman rahatlıkla destekleyebiliriz."

Hadoop ve büyük veri hakkında daha fazla bilgi

Büyük veri: Hala güvenlik korkuları sürüyor ama Avrupa yetişiyor
DataStax, Apache Cassandra'nın 106 milyon dolarlık finansman artışından nasıl yararlandığını açıklıyor
Teradata, Hadoop danışmanlık şirketi Think Big Analytics'i satın aldı
Hadoop'un ilk günlerinden YARN sonrasına: Neden bazı sorunlar çözülmüyor?
Güçlendirilmiş Couchbase Server 3.0 beta sürümü geliştiricileri ve yöneticileri hedefliyor
Pivotal ve Hortonworks, kurumsal Hadoop için Ambari üzerinde işbirliği yapıyor
Hadoop'tan Tez: Apache'nin üst düzey statüsünü kazanmak neden önemlidir?
Geliştiriciler veya patronları: Veritabanını gerçekten kim seçiyor?
Hadoop güvenliği: Hortonworks, XA Secure'u satın alıyor ve onu açık kaynağa dönüştürmeyi planlıyor