การประกาศในสัปดาห์นี้โดย Apache Software Foundation เกี่ยวกับสถานะโครงการระดับบนสุดสำหรับเฟรมเวิร์ก Tez ถือเป็นก้าวสำคัญ ตามที่ Shaun Connolly จาก Hortonworks กล่าว
![ShaunConnollyHortonworks14ก.ค.220x225](/f/907c530193ee3736a81080b96c7195bd.jpg)
Shaun Connolly: สถานะระดับสูงจะช่วยเร่งโมเมนตัมของ Tez ภาพ: Hortonworks
การส่งเสริม Tez ของมูลนิธิซอฟต์แวร์ Apache ให้เป็นโครงการระดับบนสุดไม่เพียงแต่รับรองเทคโนโลยีเท่านั้น แต่ยังรวมถึงจุดแข็งของ ชุมชนที่อยู่เบื้องหลัง ตามข้อมูลของ Hortonworks บริษัทจัดจำหน่ายและบริการ Hadoop ที่พัฒนาแต่แรก กรอบ.
Tez ซึ่งเข้าสู่ Apache Incubator ในเดือนกุมภาพันธ์ 2013 ได้รับการสนับสนุนจากการสนับสนุนโค้ดจาก Cloudera, Facebook, Hortonworks, LinkedIn, Microsoft, Twitter และ Yahoo
เป็นเฟรมเวิร์กที่ขยายได้สำหรับการสร้างแบทช์ประสิทธิภาพสูงและแอปประมวลผลข้อมูลเชิงโต้ตอบ ที่ต้องบูรณาการเข้ากับเลเยอร์การจัดการทรัพยากร YARN ได้อย่างง่ายดายและจัดการระดับเพตะไบต์ ชุดข้อมูล
“ความสำคัญไม่เพียงแต่ความสมบูรณ์ของเทคโนโลยีเท่านั้น แต่ยังรวมถึงความสมบูรณ์ของชุมชนด้วย” Shaun Connolly รองประธานฝ่ายกลยุทธ์ผลิตภัณฑ์ Hortonworks กล่าว
“การได้รับสถานะระดับสูงจะยังคงเร่งโมเมนตัมต่อไป มันเป็นขั้นตอนสำคัญ”
ปัจจุบันโครงการนี้มีผู้มอบหมาย 31 คน ซึ่งเป็นวิศวกรที่สามารถคอมมิตโค้ดในโครงการได้ ซึ่ง Hortonworks มี 15 คนเนื่องจากการมีส่วนร่วมในการบ่มเพาะเทคโนโลยี
"ฉันคาดหวังให้ [ชุมชน] ออกมามากขึ้นเช่นเดียวกับคนอื่นๆ โดยเฉพาะผู้จำหน่ายซอฟต์แวร์เชิงพาณิชย์นอกเหนือจาก Microsoft และผู้ที่เป็น มุ่งเน้นไปที่มันตอนนี้ เริ่มเข้าร่วมและนำเทคโนโลยีและเทคนิคการประมวลผลข้อมูลบางส่วนมาสู่โครงการ" คอนนอลลี่ พูดว่า.
อ่านนี่
การเพิ่มขึ้นของ Hadoop: เหตุใดคุณจึงไม่จำเป็นต้องใช้พื้นที่หลายเพตะไบต์สำหรับการเปิดข้อมูลขนาดใหญ่
อ่านตอนนี้เขาเสริมว่าบางคนสับสนเกี่ยวกับบทบาทของ Tez ซึ่งเป็น API ที่เปิดใช้งานและเฟรมเวิร์กนั้น นักพัฒนาสามารถฝังเครื่องมือและเอ็นจิ้นที่ต้องการทำแบทช์และข้อมูลเชิงโต้ตอบที่มีประสิทธิภาพสูงและขนาดใหญ่ กำลังประมวลผล.
Connolly กำหนดแบทช์เป็นนาที ชั่วโมง และวันในขณะที่โต้ตอบคือไม่กี่วินาทีและมีการโต้ตอบกับมนุษย์มากกว่า ตรงข้ามกับเรียลไทม์เสี้ยววินาที ซึ่ง Tez ไม่ได้กำหนดเป้าหมายไว้
“มันเป็นกรอบ มันไม่ใช่เครื่องยนต์จริงๆ ที่ทำให้เกิดความสับสน ช่วยให้สิ่งต่างๆ เช่น Apache Hive และ [แพลตฟอร์มการเขียนสคริปต์] Apache Pig ซึ่งใช้เฟรมเวิร์ก สามารถสร้างเอ็นจิ้นที่สร้างขึ้นตามวัตถุประสงค์ของตนเองและฝังไว้ในเทคโนโลยีเหล่านั้นได้” คอนนอลลี่กล่าว
"So Hive with Tez มีระบบประมวลผลข้อมูลระดับสูงแบบฝังในตัวอย่างมีประสิทธิภาพ"
Apache Tez ถูกฝังอยู่ในโครงสร้างพื้นฐานคลังข้อมูล Apache Hive Hadoop เป็นเวลาหลายเดือน และเป็นหนึ่งในเทคโนโลยีที่ช่วยให้ Apache Hive สามารถ บรรลุ "คุณลักษณะประสิทธิภาพเชิงโต้ตอบของเวลาตอบสนองเพียงไม่กี่วินาทีซึ่งเรียกใช้คำสั่ง SQL หมดในขณะที่ยังคงความสามารถระดับเพตาไบต์" Connolly พูดว่า.
อ่านนี่
Hadoop และข้อมูลขนาดใหญ่: ตำแหน่งที่ Apache Slider เข้ามาและเหตุใดจึงสำคัญ
อ่านตอนนี้“มันช่วยเพิ่มทรูพุตในการสืบค้นที่แสดงผ่านไฮฟ์ได้ถึง 10 เท่า และประสิทธิภาพที่สัมพันธ์กันกับทรูพุตที่ได้รับการปรับปรุงนั้น” เขากล่าว
ตามข้อมูลของ Connolly ชุมชนมีหน้าที่ตรวจสอบให้แน่ใจว่าเครื่องยนต์ใดก็ตามที่ใช้นั้นเสียบเข้ากับ YARN อย่างหมดจด เพื่อให้ทรัพยากรได้รับการจัดการจากส่วนกลาง
“เทซช่วยได้มากเลย แต่ยังเชื่อมต่อกับสิ่งต่าง ๆ เช่น [เฟรมเวิร์กการจัดการคลัสเตอร์ Hadoop] Ambari สำหรับการมองเห็นและการตรวจสอบและการจัดการ และเชื่อมต่อกับกลไกการรักษาความปลอดภัยอย่างสม่ำเสมอ เช่นเดียวกับเทคโนโลยีประเภทการกำกับดูแล เช่น Apache Falcon" พูดว่า.
อย่างไรก็ตาม เมื่อคุณนำเครื่องยนต์ใหม่เข้ามาในแพลตฟอร์ม สิ่งสำคัญคือไม่เพียงแต่จะมีส่วนที่เหลือเท่านั้น ความสามารถของแพลตฟอร์มและแก้ไขปัญหาเฉพาะสำหรับนักพัฒนาแต่สามารถดำเนินการได้ในวงกว้าง
“คุณสามารถบรรลุผลสำเร็จได้ทั้งในโอเพ่นซอร์ส ตราบใดที่คุณมีสถาปัตยกรรมที่เชื่อมต่อกับ YARN และการดำเนินงาน ความปลอดภัย และการกำกับดูแลอย่างหมดจด” คอนนอลลี่กล่าว
“แล้วเอ็นจิ้นใหม่เหล่านี้อย่าง [กรอบการวิเคราะห์] Spark และอื่นๆ ก็สามารถเข้ามาในแพลตฟอร์มได้ในลักษณะที่สอดคล้องกันและในลักษณะที่องค์กรต่างๆ สามารถยอมรับได้”
เขากล่าวว่าสิ่งสำคัญคือต้องเข้าใจ Tez ในบริบทของความแตกต่างระหว่างเครื่องยนต์ที่สร้างขึ้นโดยเฉพาะและเครื่องยนต์เอนกประสงค์
วิจัยเทคโปร
- คู่มือผู้นำด้านไอทีเพื่อความปลอดภัยของข้อมูลขนาดใหญ่
- วัฒนธรรม ระบบอัตโนมัติ และการบริการตนเอง: กุญแจสู่ความสำเร็จของข้อมูลขนาดใหญ่
- ข้อมูลขนาดใหญ่แบบโอเพ่นซอร์สและเครื่องมือ DevOps: เส้นทางที่รวดเร็วสู่แอปพลิเคชันการวิเคราะห์
- ชุดการจ้างงาน: สถาปนิกข้อมูล
- IoT ในโลกแห่งความเป็นจริง: ห้ากรณีการใช้งานยอดนิยม
"Hive with SQL เป็นตัวอย่างของเอ็นจิ้นที่สร้างขึ้นตามวัตถุประสงค์ มีจุดมุ่งหมายเพื่อทำการประมวลผล SQL ระดับเพตะไบต์ แบบโต้ตอบ และแบบแบตช์ Spark และแม้แต่ MapReduce แบบคลาสสิกก็เป็นเอ็นจิ้นที่ใช้งานทั่วไปมากกว่า โดยที่ API นั้นมีไว้สำหรับนักพัฒนากระแสหลักในการเขียนโปรแกรม” เขากล่าว
“ตัวอย่างเช่น Spark ทำได้ดีมาก มี API ที่สวยงาม เรียบง่าย และสง่างามมาก มันเป็นกลไกอเนกประสงค์ ส่วนใหญ่สำหรับเวิร์กโหลดเชิงโต้ตอบ เนื่องจากใช้ประโยชน์จากหน่วยความจำได้ค่อนข้างดีในวงกว้าง มันไม่ได้มีขนาดถึงเพตาไบต์ แต่เป็นเอ็นจิ้นอเนกประสงค์ที่ดีสำหรับความต้องการนั้น
"ในขณะที่ Tez ช่วยให้สิ่งต่างๆ เช่น Hive, Pig และอื่นๆ สามารถตอบสนองความต้องการที่สร้างขึ้นตามวัตถุประสงค์ของตนได้ ไม่ใช่เอ็นจิ้นสำหรับใช้งานทั่วไป แต่เป็นเฟรมเวิร์กสำหรับเครื่องมือมากกว่าเพื่อแสดงความต้องการที่สร้างขึ้นตามวัตถุประสงค์”
ข้อมูลเพิ่มเติมเกี่ยวกับ Hadoop และ Big Data
- ความฝัน Hadoop ของ Teradata นำไปสู่การซื้อกิจการบริษัทสองแห่ง
- Oracle Big Data SQL จัดเรียงฐานข้อมูลด้วยเฟรมเวิร์ก Hadoop, NoSQL
- นักพัฒนาหรือผู้บังคับบัญชา: ใครเป็นคนเลือกฐานข้อมูลจริงๆ?
- Accenture ร่วมมือกับ Hortonworks ในขณะที่ข้อมูลขนาดใหญ่พุ่งสูงขึ้นอย่างต่อเนื่อง
- Cassandra 4.5 ของ DataStax เปิดใช้การวิเคราะห์ในหน่วยความจำ Apache Spark
- Databricks ทำให้ Hadoop และ Apache Spark ใช้งานง่าย
- Couchbase CEO: มีบริษัท NoSQL เพียง 3 แห่งเท่านั้นที่โดดเด่นจากกลุ่มนี้