ยังคงเติบโตขึ้นอย่างต่อเนื่องสำหรับตลาด ‘Big Data Analytics’ หรือการวิเคราะห์ข้อมูลขนาดใหญ่ โดยในปี 2023 มูลค่าของตลาดอยู่ที่ 10 ล้านล้านบาท และมีแนวโน้มจะเติบโตขึ้นเรื่อยๆ จนแตะมูลค่า 25 ล้านล้านบาท ภายในปี 2030 (ตัวเลขโดยประมาณ) ซึ่งหนึ่งในผู้เล่นสำคัญของตลาดนี้ก็คือ บริษัท Databricks ในบทความนี้ SCB TechX จะพาไปทำความรู้จักว่า Databricks คือใคร และเหตุผลที่ทำให้ Databricks ได้ขึ้นแท่นเป็นผู้เล่นสำคัญในตลาด Big Data Analytics
Databricks คือใคร
Databricks คือ บริษัทพัฒนาซอฟต์แวร์สัญชาติอเมริกันที่ก่อตั้งขึ้นเมื่อปี 2013 ซึ่งเติบโตมาจากโครงการ AMPLab ในมหาวิทยาลัย University of California ปัจจุบันบริษัท Databricks ครองส่วนแบ่งตลาดมากเป็นอันดับสองที่ตัวเลข 16.24%
โดยหนึ่งในเหตุผลที่ทำให้บริษัท Databricks มาได้ไกลขนาดนี้ก็คือ โปรดักซ์ที่เรียกว่า Data Lakehouse ซึ่งสามารถตอบโจทย์ธุรกิจและองค์กรได้เกือบทุกอุตสาหกรรม ส่งผลให้ฐานลูกค้าของบริษัท Databricks กว้างขวางและหลากหลาย ไม่ว่าจะเป็นอุตสาหกรรมด้านสื่อบันเทิง ค้าปลีก ไปจนถึงสถาบันทางการเงินต่างๆ
ทำความรู้จักกับ Data Lakehouse
สำหรับ Data Lakehouse คือ โครงสร้างสถาปัตยกรรมการบริหารจัดการข้อมูลที่อำนวยให้เครื่องมือ AI (Artificial Intelligence) และ BI (Business Intelligence) ทำงานกับข้อมูลที่เก็บไว้ใน Data Lake ได้โดยตรงอย่างมีประสิทธิภาพและปลอดภัย ช่วยให้ธุรกิจและองค์กรไม่จำเป็นต้องแบ่งเก็บข้อมูลทั้งใน Data Lake และ Data Warehouse
โดย Data Lake และ Data Warehouse เป็นระบบจัดเก็บข้อมูลที่สามารถรองรับข้อมูลได้จากหลากหลายแหล่งเหมือนกัน แต่มีความแตกต่างด้านโครงสร้างการจัดเก็บ ส่งผลให้ความสามารถในการรองรับเครื่องมือต่างๆ แตกต่างกันออกไปด้วย
- Data Lake
Data Lake สามารถจัดเก็บได้ทั้งข้อมูลที่มีโครงสร้างชัดเจน (Structured Data) ข้อมูลกึ่งโครงสร้าง (Semi-Structured Data) และข้อมูลที่ไม่มีโครงสร้างแน่นอน (Unstructured Data) สามารถใช้เครื่องมือ AI กับข้อมูลใน Data Lake ได้โดยตรง (วิเคราะห์เชิงสถิติ) แต่ไม่สามารถใช้เครื่องมือ BI กับข้อมูลใน Data Lake ได้โดยตรง
- Data Warehouse
Data Warehouse สามารถจัดเก็บได้เฉพาะข้อมูลที่มีโครงสร้างชัดเจน (Data Warehouse สมัยใหม่บางตัวสามารถจัดเก็บได้ทั้งข้อมูลที่มีโครงสร้างชัดเจนและข้อมูลกึ่งโครงสร้าง) สามารถใช้เครื่องมือ BI กับข้อมูลใน Data Warehouse ได้โดยตรง (วิเคราะห์เชิงธุรกิจ) แต่ไม่สามารถใช้เครื่องมือ AI กับข้อมูลใน Data Warehouse ได้โดยตรง
เมื่อธุรกิจและองค์กรต้องการวิเคราะห์ทั้งเชิงสถิติและธุรกิจ หมายความว่า จะต้องใช้ทั้งเครื่องมือ AI และ BI ดังนั้นธุรกิจและองค์กรจึงต้องมีทั้ง Data Lake และ Data Warehouse ซึ่งเป็นการเพิ่มต้นทุนด้านการจัดการข้อมูล
ในขณะที่ Data Lakehouse สามารถช่วยให้ธุรกิจและองค์กรใช้ทั้งเครื่องมือ AI และ BI ได้กับข้อมูลใน Data Lake โดยตรง ลดความจำเป็นในการใช้ Data Warehouse ซึ่งมีต้นทุนสูงกว่า Data Lake
การทำงานของ Data Lakehouse
โดย Data Lakehouse ถูกออกแบบให้ซ้อนอยู่บน Data Lake ที่มีอยู่แล้ว ซึ่งจะช่วยเพิ่มความสามารถด้านการทำงานให้กับ Data Lake เช่น การทำ ACID Transaction รักษาความปลอดภัยของข้อมูลอย่างละเอียด สนับสนุน SQL ระดับเฟิร์สคลาส ไปจนถึงการเพิ่มประสิทธิภาพในการสืบค้น SQL และการรายงานเชิงธุรกิจ
นอกจากนี้ Data Lakehouse ยังรองรับการทำงานกับเครื่องมือวิทยาศาสตร์ข้อมูลและ Machine Learning ได้ด้วย API แบบเปิด ไลบรารี ML และ Python/R ต่างๆ
สรุป Data Lakehouse
สรุปแล้ว Data Lakehouse มีความสามารถในการเพิ่มประสิทธิภาพการทำงานเดิมของ Data Lake และอำนวยให้สามารถใช้เครื่องมือวิทยาศาสตร์ข้อมูลต่างๆ ทั้งเครื่องมือ BI และ AI กับข้อมูลใน Data Lake ได้โดยตรง ทั้งประหยัดต้นและลดขั้นตอนการทำงาน
นักวิเคราะห์ข้อมูลสามารถใช้งาน Data Lakehouse ได้ง่าย
นอกจากความสามารถอันทรงพลัง Data Lakehouse ยังสามารถใช้งานได้ง่าย โดยนักวิเคราะห์ข้อมูลสามารถเชื่อม Data Lakehouse เข้ากับเครื่องมือวิเคราะห์ที่ใช้งานอยู่แล้วได้เลย เช่น Tableau, PowerBI, Qlik, Fivetran และ Looker เป็นต้น ซึ่งเป็นการอำนวยความสะดวกในการทำงานให้กับเหล่านักวิเคราะห์ข้อมูล
เปิดตัว Dolly
ในช่วงปี 2023 ที่ผ่านมา Databricks ได้เปิดตัว Dolly ซึ่งเป็นโมเดลภาษาหรือ Language Model ออกมาเป็น Opensource เพื่อให้นักพัฒนาสามารถสร้างแชทบอทได้คล้าย ๆ กับ ChatGPT ได้รวดเร็วขึ้น โดยโมเดลภาษา Dolly นี้อาจถูกนำมาผนวกใช้งานกับ Data Lakehouse ในอนาคต
ตัวอย่างลูกค้าที่ใช้ Data Lakehouse
ด้วยความสามารถต่างๆ ของ Data Lakehouse ส่งผลให้ธุรกิจและองค์กรจากหลากหลายอุตสาหกรรมนำไปใช้งาน โดยเฉพาะสถาบันทางการเงินต่างๆ ที่ต้องเผชิญกับความท้าทายด้านการจัดการข้อมูลปริมาณมหาศาลในปัจจุบัน ซึ่งหนึ่งในนั้นก็คือ SCB หรือธนาคารไทยพาณิชย์ โดยมีจุดประสงค์คือ การสร้างประสบการณ์ใช้งาน Digital Banking อย่างไร้รอยต่อให้กับผู้ใช้งานมากกว่า 17 ล้านคน
โดย TechX Data Platform ภายใต้แบรนด์ SCB TechX คือ ผลิตภัณฑ์ที่เกิดจาก Data Lakehouse ของ Databricks ส่งผลให้ TechX Data Platform เป็นเครื่องมือที่ช่วยให้ธุรกิจและองค์กรรุ่นใหม่สามารถจัดการข้อมูลได้ง่ายขึ้นและสามารถนำข้อมูลที่มีอยู่มาใช้ประโยชน์ได้อย่างมีประสิทธิภาพ
“Databricks Lakehouse ทำให้การนำ Language Model ไปใช้เพื่อสร้างผลกระทบทางธุรกิจในวงกว้างเป็นเรื่องง่าย และนี่เป็นเพียงจุดเริ่มต้นเท่านั้น เรามีแผนที่จะขยายขีดความสามารถของเรากับ Lakehouse เพื่อนำประสบการณ์ที่ราบรื่นมาสู่ทุกสิ่ง ตั้งแต่การให้กู้ยืมทางธุรกิจ ไปจนถึงการธนาคารขององค์กร” – ดร. ชาร์ลี อัศวาธีธรรม ประธานเจ้าหน้าที่ฝ่ายดิจิทัลแบงก์กิง ธนาคารไทยพาณิชย์กล่าว
สนใจบริการ TechX Data Platform จาก SCB TechX
SCB TechX พร้อมให้บริการ TechX Data Platform ระบบจัดเก็บและจัดการข้อมูล พร้อมตอบโจทย์ความต้องการที่หลากหลายขององค์กร
หากสนใจดูรายละเอียดบริการ TechX Data Platform (คลิก)
สอบถามบริการด้าน Data Platform, บริการ eKYC และ โซลูชันอื่นๆเพิ่มเติม ได้ที่ Email: contact@scbtechx.io
ติดตาม SCB TechX เพื่ออัปเดตข่าวสารใหม่ๆ ก่อนใคร
Facebook: SCB TechX
Medium: medium.com/scb-techx
LinkedIn: www.linkedin.com/company/scb-tech-x/
YouTube: SCB TechX