Flash ve Bellek İçi Veritabanları için sınır gökyüzü mü?

  • Oct 17, 2023

Bu konuk yazısı Tony Baer'in OnStrategies blogunun izniyle geliyor. Baer bir baş analist Büyük Veriyi kapsayan Yumurta.

Baer Başparmak

Tony Baer

Büyük Veri büyüyor ve Hızlı Veri Altyapıyla ilgili her şeyin maliyetinin sürekli düşmesi nedeniyle hızlanıyor. Güçlü, çok çekirdekli CPU'ların, depolama ortamlarının ve bağlantıların sürekli olarak metalaştırılması, ölçeklenebilir İnternet veri merkezlerini ve bunlarla birlikte ölçeklenebilir veri platformlarını mümkün kıldı: Hadoop ve yeni nesil Gelişmiş SQL/NewSQL analitik veri depoları.

Bant genişliği de benzer şekilde çılgına dönüyor; 4G planlarındaki sınırlar bant genişliğini mobil kullanıcılar için anlaşılması zor hale getirse de, cihazları ve diğer şeyleri bağlamak için bant genişliğinin artması doğal karşılanan bir gerçek haline geldi.

Geleneksel görüş, benzer eğilimlerin depolamayı etkilediği yönündedir ve yakın zamana kadar bu bizim yuttuğumuz Kool-Aid'di. Elbette makro resim, düşen fiyat ve artan yoğunluk eğrilerinin, veri dağıtımına gelindiğinde konuşmayı değiştirdiği yönünde.

Verileri depoladığınız medya türü artık yalnızca fiyat/performans dengesi değil, aynı zamanda Verilerin nasıl işlendiğine ve veriler üzerinde çalışan uygulamaların nasıl işlendiğine ilişkin mimari değerlendirme giderek daha fazla önem kazanıyor. tasarlandı. Daha büyük, daha ucuz depolama, daha büyük analizleri mümkün kılar; daha hızlı, daha ucuz depolama, daha karmaşık ve işlevsel uygulamaları mümkün kılar.

100.000 feet'te depolamaya yönelik bu tür eğilimler devam ediyor, ancak yüzeyin altını kazdığınızda resim daha incelikli hale geliyor. Ve bu nüanslar, veriye dayalı işlem uygulamalarımızı ve analizlerimizi tasarlama şeklimizi giderek daha fazla yönlendiriyor.

Terminolojiyi kesin

Ancak trendlere dalmadan önce terminolojimizi netleştirelim, çünkü bellek terimi çok gevşek kullanılıyor (DRAM veya Flash anlamına mı geliyor?). Bu tartışma için aşağıdaki kurallara bağlı kalacağız:

  • CPU önbelleği işlemci tarafından işlenen verileri geçici olarak tutmak için kullanılan çip içi bellektir.
  • DRAM belleği Çipin dışında bulunan en hızlı depolama katmanıdır ve genellikle işlem çekirdeği başına GBayt olarak parsellenir.
  • Katı Hal Sürücüsü (SSD) teknoloji dayanmaktadır Flaş bellekve geleneksel sabit disklerin silikon bazlı, daha hızlı alternatifidir. SSD'ler genellikle yüzlerce GB boyutundadır (bazı birimler bir terabaytın biraz altındadır) ancak DRAM kadar hızlı değildirler.
  • Sabit disk veya "disk" artık iş mili başına 1-3 TByte'a kadar ekonomik olarak ölçeklenebilen en güçlü iş gücüdür.

Peki hangisi için en iyisi?

Sabit diskler için genel kanı, onların giderek daha hızlı ve daha ucuz hale geldiği yönündedir. Sadece ikincisinin doğru olduğu ortaya çıktı. 1-3 TByte sürücülerin ucuzluğu, İnternet veri merkezlerinin ölçeğini genişletmeyi ve bununla birlikte, daha önce de söylediğimiz gibi, Hadoop gibi Büyük Veri analiz platformlarının ölçeğini genişletmeyi mümkün kıldı. Sabit disk, büyük hacimli veriler için tercih edilen ortam olmaya devam ediyor çünkü bireysel sürücüler rutin olarak 1-3 TByte'a kadar ölçekleniyor. Ve anlık tedarik zinciri kesintileri 2011 Tayland selleri bir yana, arz fazlasıyla yeterli olmaya devam ediyor. Flash sürücüler o kadar şişmanlamıyor.

Oku bunu

  • Büyük veriyi büyütmek: Bu heyecan neden sona ermek üzere?
  • Küçük işletmeler için büyük veri ne anlama geliyor?
  • Yönetici Kılavuzu: Büyük veriler için iş gerekçesi oluşturma (ücretsiz e-kitap)
  • Büyük Veri 2013: Sektör Oyuncularının Tahminleri
  • M2M DBS Bank için mantıklı

Ama eğer bir şey olursa, sabit diskler Yavaş çünkü artık onları hızlandırmaya çalışmanın faydası yok. Flaşın en az 10 ila 100 kat daha hızlı olması nedeniyle, teknoloji yenilense bile diskin bu hıza kolayca yetişmesi mümkün değil. Flaş aslında halıyı talebin altından çıkarmak 7200 RPM diskler için (şu anda disk için en gelişmiş teknoloji).

Şaşırtıcı olmayan bir şekilde, disk teknolojisi gelişimi duvara çarptı.

Mevcut fiyat eğilimleri göz önüne alındığında,bazı analistler bekliyor Önümüzdeki 12-18 ay içinde (veya belki daha erken) Flash diskle eşitliğe ulaşacak ve bir sonraki işlem sisteminizin disk tabanlı olması için daha az neden olacak. Aslında iyi bir nedeni var biraz şüpheci olmak işlem sistemi pazarı için SSD Flash arzının ne kadar sürede yeterince artacağı; ancak SSD Flash yavaş yavaş prime time'a doğru ilerleyecek. Bunun tersine, diskin kapasitesinin Flash'tan daha büyük kalması muhtemel olduğundan, daha eski verileri (aksi halde kasete bağlı) canlı tutan aktif arşivleme için en uygun seçenek olacaktır; ve hacme ihtiyaç duyulan Büyük Veri analitiği için.

Bununla birlikte, büyük Hadoop'un ve benzer disk tabanlı Büyük Veri analitik veya aktif arşiv kümelerinin en güçlüsü muhtemelen daha yavaş olan 5400 RPM modelleri olacaktır.

Peki daha hızlı depolama modlarına ne dersiniz? Geçtiğimiz birkaç yılda DRAM bellek fiyatları, halihazırda kullanılan verileri önbelleğe almak yerine kalıcı depolama için dağıtmanın mümkün olduğu eşiği aştı. Bu da önünü açtı bellek içi veritabanı (IMDB)Bu genellikle tüm DRAM veri depolamasının kod sözcüğüdür.

Bellek içi veritabanları pek yeni değildir ancak son üç ila dört yıla kadar oldukça uzmanlaşmıştır. Oracle TimesTenEn eski ticari tekliflerden biri olan, sıkı bir şekilde birleştirilmiş, özel işlem uygulamaları için tasarlandı; amaca yönelik diğer bellek içi veri depoları sermaye piyasaları için en az on yıl veya daha uzun süredir mevcuttur. Ancak artık DRAM bellek fiyatları, IMDB'leri kurumsal ana akım haline getirmeye yetecek kadar düştü.

Biliş Yaklaşık 5 yıl önce MOLAP küp ve satır deposu analitik platformunu bellekte yeniden canlandırırken bent kapaklarını açtı; SAP'nin ile hafızayı ön plana çıkarın HANA analitik ve işlemsel uygulamalar için; bunu takiben KahinTimesTen'i koşmak için Exalytics olarak yeniden canlandıran Oracle Business Intelligence Enterprise Edition (OBIEE) Ve Essbase.

Ancak "kaçınılmaz" tamamen bellek içi veritabanı geleceğine giden yolda ilginç bir kesinti yaşandı: Geçen bahar, DRAM bellek fiyatlarının düşüşü durdu. Bu kısmen endüstrinin daha az tedarikçiye konsolidasyonuna atfedilebilir. Ancak daha büyük etken, kalabalıkların bilgeliğinin (örneğin, DRAM belleğin artık prime time için hazır olması) kendisinin önüne geçmesiydi. Evet, arz ve talep yasaları eninde sonunda bellek fiyatlandırmasının gidişatını değiştirecek. Ancak hayır, bu, ne kadar ucuz olursa olsun, DRAM belleğin (ve önbelleğin) her zaman birinci sınıf depolama olacağı gerçeğini değiştirmeyecektir.

Bellek içi veritabanları öldü, çok yaşa katmanlı veritabanları

DRAM bellek içi veritabanları için gökyüzü sınır değildir. Bellek içi acele, veri katmanlamanın genişlemesine dönüşecek. Ve aslında bu o kadar da kötü bir şey değil: Gerçekten tüm bu verileri belleğe koymanız gerekiyor mu? Biz öyle olmadığını düşünüyoruz.

IBM'in Ve Teradata tüm bellek içi mimarilerden kaçındık; onların iddiası, hangi verinin belleğe alınacağını 80/20 kuralının belirlemesi gerektiğidir. Ve tüm bellek içi veritabanı çalışanları, verileri disk ve bellek arasında sayfalamak için geri dönüşlere sahipler. Düzgün tasarlanırsa, bu sürekli bir sayfalama değil, yalnızca nadir aralık dışı sorgu için gerçekleşen bir işlemdir. Kognitio'nun sizden disk için değil, yalnızca bellek hacmi için ücret talep ettikleri akıllı bir fiyatlandırma modeli vardır. HANA'ya gelince, disk sistemde kalıcı çevrimdışı depolama için tasarlandı, ancak SAP sessizce bunun aynı zamanda rutin işlemler sırasında verileri sayfalamak için de kullanılabileceğini ekliyor. Belki de SAP bu konuda bu kadar sessiz kalmamalı.

Son derece karmaşık analitikler için dikkate alınması gereken ek bir katmanlama biçimi daha vardır: çip içi önbellek içindeki hesaplamaların ardışık düzeninden gelebilecek destek. Oracle, gelecek nesillerini daha da optimize etmek için benzer teknikler arıyor Exadata veritabanı cihazı platformu. Bu, IBM'in yakın zamandaki uygulamalarının bir parçası olan bir tekniktir. DB2 için BLU mimarisi. Yüksek performanslı analitik platformlar SiSense ayrıca sistem maliyetleri dengesini (örneğin daha az DRAM gerektiren) gerçekten azaltmak için çip içi boru hattını da içerir.

Her şey sistemin dengesiyle ilgili

Sistem dengesi pek yeni bir şey değil, ancak yakın zamana kadar bu, CPU veya bant genişliğinin disk katmanlarıyla değiştirilmesi anlamına geliyordu. Uygulama ve veritabanı tasarımı ise, en sık erişilen verileri diske veya diskin en hızlı erişilebilen bölümlerine yerleştirmek için verileri dağıtmaya veya parçalamaya odaklandı. Flash ve DRAM belleği de içeren yeni depolama biçimleri, karışıma birkaç yeni öğe daha ekliyor. Uygulama için depolamayı (işlemci ve ara bağlantılarla birlikte) yapılandırmaya devam edeceksiniz ve bunun tersi de geçerli olacak, ancak cephaneliğinizde birkaç yeni oyuncak olacak.

Öne Çıkanlar

  • Apple Mac Studio M2 Ultra incelemesi: Bu yeni amiral gemisi Mac masaüstü bilgisayar
  • Claude AI'nin yapabileceği ama ChatGPT'nin yapamayacağı 4 şey
  • Yüzlerce akıllı saati test ettim ama bu tüm yıl boyunca bileğimdeydi
  • En iyi elektrikli tornavidalar: DIY ve onarım işlerini yarı sürede tamamlayın

Flash için bu, Oracle'ın son dönemdeki geliştirme dalgası gibi temel analizleri ekleyebilecek hızlı OLTP uygulamaları anlamına gelir. Bellek İçi Uygulamalar söz. Bellek içi için bu, SAP'nin yakın zamanda tanıtılan özelliğiyle vaat ettiği gibi daha karmaşık analizler ve/veya satır içi gömülü durum simülasyonları içeren OLTP uygulamalarını zorunlu kılacaktır. İş takımı Ve CRM HANA'daki uygulamalar.

Bellek içi için, çoğu durumda verilerin yüzde 100'ünü DRAM'de tutmaya yönelik yapılandırmaların gereksiz kalacağını iddia ediyoruz. Tüm verileri kapsaması gereken bir Büyük Veri analitik problemi çalıştırmıyorsanız, muhtemelen verilerin yalnızca bir kısmıyla çalışacaksınız. Ayrıca IBM, Oracle ve Teradata, alakasız verileri kasıtlı olarak filtreleyerek taranmamasını sağlayan veri atlama özelliklerini analitik platformlarına dahil ediyor. Hızlı depolama seçeneğini kullanmadan önce işlemeyi hızlandırmanın birçok yolu vardır.

Depolama bir uygulama tasarım seçeneği haline gelecek

Her ne kadar yüzde 100 DRAM bellek içi çoğunluktan faydalanma konusunda temkinli olsak da, akıllıca konuşlandırıldığında bu model uygulamaları gerçekten dönüştürebilir. Gecikmeyi ortadan kaldırdığınızda, karmaşık analitiği işlemsel uygulamalarla aynı hizada yerleştirebilir, daha karmaşık analitiklerin çalıştırılması veya kullanıcıların kendi durumlarını belirlemek için daha fazla "eğer olursa" simülasyonu çalıştırmasını mümkün kılmak kararlar.

Örnekler arasında, hizmet düzeylerine ve yerine getirme maliyetine göre altın, gümüş veya bronz düzeyindeki müşterilerden gelen siparişlerin nasıl karşılanacağını farklılaştıran işlem uygulamaları yer alır. Daha fazla senaryo permütasyonunun çalıştırılmasına izin vererek operasyonel veya güvene dayalı kararlar alırken riskin azaltılmasına yardımcı olabilir. Ayrıca bellekte daha sık kullanılan verileri (ve mantığı) sıralayarak Büyük Veri analitiğini de geliştirebilir.

DRAM'in mi yoksa Flash'ın mı kullanılacağı, veri hacminin ve problemin karmaşıklığının bir fonksiyonu olacaktır. Artık depolama katmanlarının dahil edilmesi yalnızca bir donanım platformu tasarım kararı olmayacak; uygulama tasarımcıları için de bir konfigürasyon kararı haline gelecektir.