Tez ของ Hadoop: เหตุใดการได้รับสถานะระดับสูงสุดของ Apache จึงมีความสำคัญ

  • Oct 29, 2023

การประกาศในสัปดาห์นี้โดย Apache Software Foundation เกี่ยวกับสถานะโครงการระดับบนสุดสำหรับเฟรมเวิร์ก Tez ถือเป็นก้าวสำคัญ ตามที่ Shaun Connolly จาก Hortonworks กล่าว

ShaunConnollyHortonworks14ก.ค.220x225

Shaun Connolly: สถานะระดับสูงจะช่วยเร่งโมเมนตัมของ Tez ภาพ: Hortonworks

การส่งเสริม Tez ของมูลนิธิซอฟต์แวร์ Apache ให้เป็นโครงการระดับบนสุดไม่เพียงแต่รับรองเทคโนโลยีเท่านั้น แต่ยังรวมถึงจุดแข็งของ ชุมชนที่อยู่เบื้องหลัง ตามข้อมูลของ Hortonworks บริษัทจัดจำหน่ายและบริการ Hadoop ที่พัฒนาแต่แรก กรอบ.

Tez ซึ่งเข้าสู่ Apache Incubator ในเดือนกุมภาพันธ์ 2013 ได้รับการสนับสนุนจากการสนับสนุนโค้ดจาก Cloudera, Facebook, Hortonworks, LinkedIn, Microsoft, Twitter และ Yahoo

เป็นเฟรมเวิร์กที่ขยายได้สำหรับการสร้างแบทช์ประสิทธิภาพสูงและแอปประมวลผลข้อมูลเชิงโต้ตอบ ที่ต้องบูรณาการเข้ากับเลเยอร์การจัดการทรัพยากร YARN ได้อย่างง่ายดายและจัดการระดับเพตะไบต์ ชุดข้อมูล

“ความสำคัญไม่เพียงแต่ความสมบูรณ์ของเทคโนโลยีเท่านั้น แต่ยังรวมถึงความสมบูรณ์ของชุมชนด้วย” Shaun Connolly รองประธานฝ่ายกลยุทธ์ผลิตภัณฑ์ Hortonworks กล่าว

“การได้รับสถานะระดับสูงจะยังคงเร่งโมเมนตัมต่อไป มันเป็นขั้นตอนสำคัญ”

ปัจจุบันโครงการนี้มีผู้มอบหมาย 31 คน ซึ่งเป็นวิศวกรที่สามารถคอมมิตโค้ดในโครงการได้ ซึ่ง Hortonworks มี 15 คนเนื่องจากการมีส่วนร่วมในการบ่มเพาะเทคโนโลยี

"ฉันคาดหวังให้ [ชุมชน] ออกมามากขึ้นเช่นเดียวกับคนอื่นๆ โดยเฉพาะผู้จำหน่ายซอฟต์แวร์เชิงพาณิชย์นอกเหนือจาก Microsoft และผู้ที่เป็น มุ่งเน้นไปที่มันตอนนี้ เริ่มเข้าร่วมและนำเทคโนโลยีและเทคนิคการประมวลผลข้อมูลบางส่วนมาสู่โครงการ" คอนนอลลี่ พูดว่า.

อ่านนี่

การเพิ่มขึ้นของ Hadoop: เหตุใดคุณจึงไม่จำเป็นต้องใช้พื้นที่หลายเพตะไบต์สำหรับการเปิดข้อมูลขนาดใหญ่

อ่านตอนนี้

เขาเสริมว่าบางคนสับสนเกี่ยวกับบทบาทของ Tez ซึ่งเป็น API ที่เปิดใช้งานและเฟรมเวิร์กนั้น นักพัฒนาสามารถฝังเครื่องมือและเอ็นจิ้นที่ต้องการทำแบทช์และข้อมูลเชิงโต้ตอบที่มีประสิทธิภาพสูงและขนาดใหญ่ กำลังประมวลผล.

Connolly กำหนดแบทช์เป็นนาที ชั่วโมง และวันในขณะที่โต้ตอบคือไม่กี่วินาทีและมีการโต้ตอบกับมนุษย์มากกว่า ตรงข้ามกับเรียลไทม์เสี้ยววินาที ซึ่ง Tez ไม่ได้กำหนดเป้าหมายไว้

“มันเป็นกรอบ มันไม่ใช่เครื่องยนต์จริงๆ ที่ทำให้เกิดความสับสน ช่วยให้สิ่งต่างๆ เช่น Apache Hive และ [แพลตฟอร์มการเขียนสคริปต์] Apache Pig ซึ่งใช้เฟรมเวิร์ก สามารถสร้างเอ็นจิ้นที่สร้างขึ้นตามวัตถุประสงค์ของตนเองและฝังไว้ในเทคโนโลยีเหล่านั้นได้” คอนนอลลี่กล่าว

"So Hive with Tez มีระบบประมวลผลข้อมูลระดับสูงแบบฝังในตัวอย่างมีประสิทธิภาพ"

Apache Tez ถูกฝังอยู่ในโครงสร้างพื้นฐานคลังข้อมูล Apache Hive Hadoop เป็นเวลาหลายเดือน และเป็นหนึ่งในเทคโนโลยีที่ช่วยให้ Apache Hive สามารถ บรรลุ "คุณลักษณะประสิทธิภาพเชิงโต้ตอบของเวลาตอบสนองเพียงไม่กี่วินาทีซึ่งเรียกใช้คำสั่ง SQL หมดในขณะที่ยังคงความสามารถระดับเพตาไบต์" Connolly พูดว่า.

อ่านนี่

Hadoop และข้อมูลขนาดใหญ่: ตำแหน่งที่ Apache Slider เข้ามาและเหตุใดจึงสำคัญ

อ่านตอนนี้

“มันช่วยเพิ่มทรูพุตในการสืบค้นที่แสดงผ่านไฮฟ์ได้ถึง 10 เท่า และประสิทธิภาพที่สัมพันธ์กันกับทรูพุตที่ได้รับการปรับปรุงนั้น” เขากล่าว

ตามข้อมูลของ Connolly ชุมชนมีหน้าที่ตรวจสอบให้แน่ใจว่าเครื่องยนต์ใดก็ตามที่ใช้นั้นเสียบเข้ากับ YARN อย่างหมดจด เพื่อให้ทรัพยากรได้รับการจัดการจากส่วนกลาง

“เทซช่วยได้มากเลย แต่ยังเชื่อมต่อกับสิ่งต่าง ๆ เช่น [เฟรมเวิร์กการจัดการคลัสเตอร์ Hadoop] Ambari สำหรับการมองเห็นและการตรวจสอบและการจัดการ และเชื่อมต่อกับกลไกการรักษาความปลอดภัยอย่างสม่ำเสมอ เช่นเดียวกับเทคโนโลยีประเภทการกำกับดูแล เช่น Apache Falcon" พูดว่า.

อย่างไรก็ตาม เมื่อคุณนำเครื่องยนต์ใหม่เข้ามาในแพลตฟอร์ม สิ่งสำคัญคือไม่เพียงแต่จะมีส่วนที่เหลือเท่านั้น ความสามารถของแพลตฟอร์มและแก้ไขปัญหาเฉพาะสำหรับนักพัฒนาแต่สามารถดำเนินการได้ในวงกว้าง

“คุณสามารถบรรลุผลสำเร็จได้ทั้งในโอเพ่นซอร์ส ตราบใดที่คุณมีสถาปัตยกรรมที่เชื่อมต่อกับ YARN และการดำเนินงาน ความปลอดภัย และการกำกับดูแลอย่างหมดจด” คอนนอลลี่กล่าว

“แล้วเอ็นจิ้นใหม่เหล่านี้อย่าง [กรอบการวิเคราะห์] Spark และอื่นๆ ก็สามารถเข้ามาในแพลตฟอร์มได้ในลักษณะที่สอดคล้องกันและในลักษณะที่องค์กรต่างๆ สามารถยอมรับได้”

เขากล่าวว่าสิ่งสำคัญคือต้องเข้าใจ Tez ในบริบทของความแตกต่างระหว่างเครื่องยนต์ที่สร้างขึ้นโดยเฉพาะและเครื่องยนต์เอนกประสงค์

วิจัยเทคโปร

  • คู่มือผู้นำด้านไอทีเพื่อความปลอดภัยของข้อมูลขนาดใหญ่
  • วัฒนธรรม ระบบอัตโนมัติ และการบริการตนเอง: กุญแจสู่ความสำเร็จของข้อมูลขนาดใหญ่
  • ข้อมูลขนาดใหญ่แบบโอเพ่นซอร์สและเครื่องมือ DevOps: เส้นทางที่รวดเร็วสู่แอปพลิเคชันการวิเคราะห์
  • ชุดการจ้างงาน: สถาปนิกข้อมูล
  • IoT ในโลกแห่งความเป็นจริง: ห้ากรณีการใช้งานยอดนิยม

"Hive with SQL เป็นตัวอย่างของเอ็นจิ้นที่สร้างขึ้นตามวัตถุประสงค์ มีจุดมุ่งหมายเพื่อทำการประมวลผล SQL ระดับเพตะไบต์ แบบโต้ตอบ และแบบแบตช์ Spark และแม้แต่ MapReduce แบบคลาสสิกก็เป็นเอ็นจิ้นที่ใช้งานทั่วไปมากกว่า โดยที่ API นั้นมีไว้สำหรับนักพัฒนากระแสหลักในการเขียนโปรแกรม” เขากล่าว

“ตัวอย่างเช่น Spark ทำได้ดีมาก มี API ที่สวยงาม เรียบง่าย และสง่างามมาก มันเป็นกลไกอเนกประสงค์ ส่วนใหญ่สำหรับเวิร์กโหลดเชิงโต้ตอบ เนื่องจากใช้ประโยชน์จากหน่วยความจำได้ค่อนข้างดีในวงกว้าง มันไม่ได้มีขนาดถึงเพตาไบต์ แต่เป็นเอ็นจิ้นอเนกประสงค์ที่ดีสำหรับความต้องการนั้น

"ในขณะที่ Tez ช่วยให้สิ่งต่างๆ เช่น Hive, Pig และอื่นๆ สามารถตอบสนองความต้องการที่สร้างขึ้นตามวัตถุประสงค์ของตนได้ ไม่ใช่เอ็นจิ้นสำหรับใช้งานทั่วไป แต่เป็นเฟรมเวิร์กสำหรับเครื่องมือมากกว่าเพื่อแสดงความต้องการที่สร้างขึ้นตามวัตถุประสงค์”

ข้อมูลเพิ่มเติมเกี่ยวกับ Hadoop และ Big Data

  • ความฝัน Hadoop ของ Teradata นำไปสู่การซื้อกิจการบริษัทสองแห่ง
  • Oracle Big Data SQL จัดเรียงฐานข้อมูลด้วยเฟรมเวิร์ก Hadoop, NoSQL
  • นักพัฒนาหรือผู้บังคับบัญชา: ใครเป็นคนเลือกฐานข้อมูลจริงๆ?
  • Accenture ร่วมมือกับ Hortonworks ในขณะที่ข้อมูลขนาดใหญ่พุ่งสูงขึ้นอย่างต่อเนื่อง
  • Cassandra 4.5 ของ DataStax เปิดใช้การวิเคราะห์ในหน่วยความจำ Apache Spark
  • Databricks ทำให้ Hadoop และ Apache Spark ใช้งานง่าย
  • Couchbase CEO: มีบริษัท NoSQL เพียง 3 แห่งเท่านั้นที่โดดเด่นจากกลุ่มนี้