ในการทำ Data Warehouse หรือคลังข้อมูล สิ่งที่ท้าทายนักออกแบบระบบก็คือ การทำ ETL เพราะไม่ได้คำนึงถึงความสามารถในการทำงานของระบบ ETL เท่านั้น แต่ยังต้องพิจารณาถึงความสามารถในการขยายตัวด้วย เพื่อรองรับกับปริมาณข้อมูลที่อาจเพิ่มขึ้น แล้ว ETL คืออะไร?
ETL คืออะไร?
สำหรับ ETL คือ กระบวนการหนึ่งในการทำ Data Warehouse ซึ่ง ETL ย่อมาจาก Extract-Transform-Load โดยแต่ละกระบวนการมีรายละเอียด ดังนี้
• Extract (กระบวนการดึงข้อมูล)
คือ การดึงข้อมูลจากแหล่งข้อมูลภายนอก ซึ่งข้อมูลที่ดึงเข้ามาจะอยู่ในรูปแบบมาตรฐานเดียวกัน ทั้งรูปแบบและมาตรฐานของข้อมูล เพื่อให้สะดวกต่อการแปลงข้อมูลในขั้นตอนถัดไป หากข้อมูลไม่ตรงกับมาตรฐานที่กำหนดไว้ ข้อมูลก็จะถูกปฏิเสธในกระบวนการนี้
• Transform (กระบวนการแปลงข้อมูล)
คือ การแปลงข้อมูลให้อยู่ในรูปแบบที่ต้องการ โดยวิธีการที่นำมาใช้ในกระบวนการแปลงข้อมูลมีอยู่หลากหลายวิธี ไม่ว่าจะเป็นการทำ Data Cleaning, Sorting ไปจนถึง Transposing หรือ Pivoting โดยวิธีการที่ใช้ในกระบวนการแปลงข้อมูลอาจแตกต่างกันออกไป ขึ้นอยู่กับความต้องการในการนำข้อมูลไปใช้
• Load (กระบวนการโหลดข้อมูลเข้าสู่ระบบ)
คือ การนำเข้าสู่ระบบ Data Warehouse โดยรายละเอียดในกระบวนการนี้ขึ้นอยู่กับความสะดวกขององค์กร หรือผู้ดูแลระบบ Data Warehouse ว่าสามารถจัดการกับข้อมูลเก่าและข้อมูลใหม่อย่างไร เช่น การนำข้อมูลเข้า Data Warehouse ทุกๆวัน ชั่วโมง หรือแม้กระทั่งในทุกๆวัน ส่วนการจัดการข้อมูลเก่านั้นเราเรียกว่าการทำ Data archiving และ Data deletion การนำข้อมูลออกขึ้นอยู่กับองค์กรอาจจะทุกๆ 3 เดือน 6 เดือน หรือ 1 ปี
ตัวอย่างการทำ ETL
ยกตัวอย่างสถาบันการเงินแห่งหนึ่งที่ต้องการเก็บข้อมูลของลูกค้าจากทุกแผนก เพื่อวิเคราะห์พฤติกรรมของลูกค้า ซึ่งแต่ละแผนกเก็บข้อมูลของลูกค้าไว้ในรูปแบบที่ต่างกัน เช่น แผนกสินเชื่อเก็บข้อมูลของลูกค้าไว้ตามชื่อและนามสกุลจริง เรียงตามลำดับตัวอักษร ในขณะที่แผนกบริการลูกค้าเก็บข้อมูลของลูกค้าไว้ตามเลขบัตรประจำตัวประชาชน เรียงตามลำดับตัวเลขจากน้อยไปมาก ในกระบวนการ Extract ข้อมูลทั้งหมดจะถูกดึงมารวมกันในพื้นที่ส่วนกลางจากทุกช่องทางที่กำหนด
หลังจากนั้นกระบวนการแปลงข้อมูลจะใช้วิธีต่าง ๆ เพื่อให้ได้ข้อมูลตามที่ต้องการ เช่น การคำนวณตัวชี้วัดทางการเงินที่สำคัญอย่างยอดรวมของธุรกรรม และค่าธรรมเนียมทั้งหมด เป็นต้น ก่อนจะอัปโหลดข้อมูลทั้งหมดที่แปลงได้ลงระบบ Data Warehouse ของสถาบันการเงิน
โดยข้อมูลที่อยู่ใน Data Warehouse จะช่วยให้นักวิเคราะห์สามารถวิเคราะห์พฤติกรรมของลูกค้า เพื่อปรับปรุงการบริการ หรือออกผลิตภัณฑ์ทางการเงินใหม่ ๆ ได้
ETL กับ ELT ต่างกันอย่างไร?
ด้วยชื่อที่ดูคล้ายกัน ทำให้หลายคนสับสนระหว่าง ETL กับ ELT แต่จริง ๆ แล้ว ETL และ ELT มีความแตกต่างกันพอสมควรเลยทีเดียว ซึ่งเป็นตัวบ่งชี้สำคัญสำหรับคำจำกัดความของ Data Warehouse และ Data Lake แล้ว ETL กับ ELT ต่างกันอย่างไร?
ELT คืออะไร?
โดย ELT คือ กระบวนการหนึ่งในการทำ Data Lake ที่คล้ายกับ Data Warehouse แต่ Data Lake ไม่มีโครงสร้างข้อมูลภายใน ข้อมูลเข้ามาอย่างไรก็จัดเก็บไว้อย่างนั้น ELT จึงย่อมาจาก Extract, Load และ Transform นั่นก็คือ การดึงข้อมูลเข้ามาและอัปโหลดลงในระบบเป้าหมายก่อน แล้วถึงดำเนินการแปลงข้อมูลในภายหลังเมื่อต้องการนำมาใช้
การทำ ELT เหมาะกับชุดข้อมูลขนาดใหญ่ มีปริมาณมากและไม่มีโครงสร้าง ซึ่งต้องการการโหลดบ่อยครั้ง โดยนักวิเคราะห์สามารถวางแผนวิเคราะห์ได้หลังจากการดึงข้อมูลและจัดเก็บข้อมูล ส่วน ETL นักวิเคราะห์จะต้องวางแผนวิเคราะห์ก่อนตั้งแต่ก่อนดึงข้อมูล เพื่อกำหนดประเภทข้อมูล โครงสร้าง และความสัมพันธ์ของข้อมูล
เครื่องมือที่ตอบโจทย์การทำ Data Warehouse
อย่างไรก็ตาม การทำ ETL และ ELT ด้วยมนุษย์นั้นใช้เวลานานและมีโอกาสผิดพลาดสูง ดังนั้นหลายองค์กรและธุรกิจจึงพยายามออกแบบ หรือหาเครื่องมือเทคโนโลยีที่ตอบโจทย์ความต้องการมาใช้งาน ยกตัวอย่าง TechX Data Platform ของ SCB TechX ซึ่งเป็นแพลตฟอร์มโซลูชั่นที่ได้รับความไว้วางใจจากหลากหลายองค์กรชั้นนำในประเทศไทย
โดย TechX Data Platform เป็นแพลตฟอร์มโซลูชั่นที่ตอบโจทย์ความต้องการใช้งานด้านข้อมูลขององค์กรและธุรกิจที่มีชุดข้อมูลปริมาณมหาศาล ทำให้การจัดการข้อมูลเหล่านั้นทำได้ค่อนข้างยากและใช้เวลานาน ซึ่ง TechX Data Platform ครอบคลุมหลากหลายบริการ ได้แก่
- Business Operation System เช่น การบริหารความสัมพันธ์กับลูกค้า (CRM) หรือการวางแผนทรัพยากรภายในองค์กร (ERP) เป็นต้น
- Omnichannel System หรือการสื่อสารกับลูกค้าผ่านหลากหลายช่องทาง เช่น ธุรกิจ E-Commerce ที่มีช่องทางเข้าถึงลูกค้าหลายช่องทาง ไม่ว่าจะเป็นเว็บไซต์ แอปพลิเคชัน และช่องทางโซเชียลมีเดีย เป็นต้น
- Data Lakehouse ที่ผสานข้อดีของ Data Warehouse และ Data Lake เข้าด้วยกัน เพื่อให้ได้ระบบจัดการข้อมูลที่ประสิทธิภาพมากกว่าเดิม มีความยืดหยุ่นและปรับเปลี่ยนพื้นที่จัดเก็บได้
ดยองค์กรและธุรกิจสามารถมั่นใจใน TechX Data Platform ได้ ด้วยการทำงานร่วมกับเครื่องมือล้ำสมัยมากมาย เช่น ปัญญาประดิษฐ์ (AI) และการกำหนดนโยบายการจัดการข้อมูลอย่างเป็นระบบ รองรับการทำงานร่วมกับคลาวด์จากผู้ให้บริการหลากหลายเจ้า เช่น AWS, Azure และ GCP เป็นต้น
นอกจากนี้ TechX Data Platform ยังได้รับความไว้วางใจด้านมาตรฐานการรักษาความปลอดภัยของข้อมูล ซึ่งรับประกันด้วยมาตรฐาน ISO 27017, ISO 27001, ISO 27018 และมาตรฐานระดับสากลอีกมากมาย
ทั้งหมดนี้ช่วยให้องค์กร หรือธุรกิจนำข้อมูลที่มีอยู่มาใช้งานได้อย่างมีประสิทธิภาพ สามารถผลักดันศักยภาพของตนเองไปสู่เป้าหมายที่กำหนดไว้ได้ อีกทั้ง SCB TechX ยังมีทีมผู้เชี่ยวชาญคอยให้คำแนะนำและออกแบบโซลูชั่นที่เหมาะกับขนาด ต้นทุน และความต้องการของแต่ละองค์กร หรือธุรกิจ
สนใจทำ Data Warehouse ด้วย TechX Data Platform กับ SCB TechX
SCB TechX พร้อมให้บริการ TechX Data Platform รองรับการทำ Data Warehouse ซึ่งเป็นศูนย์กลางการจัดเก็บข้อมูล ช่วยให้องค์กรสามารถเข้าถึงและนำข้อมูลมาใช้เพื่อวิเคราะห์และวางแผนการดำเนินงานขั้นต่อไปอย่างมีประสิทธิภาพ
หากสนใจดูรายละเอียดบริการ TechX Data Platform (คลิก)
สอบถามบริการด้าน eKYC และ โซลูชันอื่นๆเพิ่มเติม ได้ที่ Email: contact@scbtechx.io
ติดตาม SCB TechX เพื่ออัปเดตข่าวสารใหม่ๆ ก่อนใคร
Facebook: SCB TechX
Medium: medium.com/scb-techx
LinkedIn: www.linkedin.com/company/scb-tech-x/
YouTube: SCB TechX