ทำความรู้จัก Big Data Ecosystem ประกอบไปด้วยกระบวนการอะไรบ้าง?

ไทย

ทำความรู้จัก Big Data Ecosystem ประกอบไปด้วยกระบวนการอะไรบ้าง?

ในปัจจุบัน องค์กรที่รู้จักการใช้งาน Big Data ให้เกิดประโยชน์สูงสุดมักได้เปรียบเชิงธุรกิจมากกว่าองค์กรที่ไม่สามารถนำข้อมูลเหล่านี้มาใช้งานให้เกิดประโยชน์ได้ โดยการจะนำ Big Data มาใช้งานได้อย่างรอบด้านจะต้องทำความเข้าใจ Big Data Ecosystem ก่อน ซึ่งในบทความนี้ SCB TechX จะพาไปทำความรู้จักกับ Big Data Ecosystem เพื่อให้เห็นภาพรวมกระบวนการทำงานของ Big Data

ทำความรู้จัก Big Data Ecosystem

โดย Big Data Ecosystem หรือระบบนิเวศน์ข้อมูลมหาศาล เป็นภาพรวมใหญ่การทำงานของ Big Data ที่ประกอบไปด้วย 4 กระบวนการสำคัญ คือ

1. การนำข้อมูลเข้าแพลตฟอร์ม (Data Ingestion)

การนำข้อมูลเข้าสู่แพลตฟอร์มหรือ Data Ingestion สามารถแบ่งได้ 3 แบบ ได้แก่

  • แบบกลุ่ม (Batch) คือ การนำข้อมูลเข้าแพลตฟอร์มตามกำหนด เช่น เดือนละครั้ง สัปดาห์ละครั้ง หรือเฉพาะกิจ
  • แบบสตรีมมิ่ง (Streaming) คือ การนำข้อมูลเข้าสู่แพลตฟอร์มแบบต่อเนื่อง เพื่อการวิเคราะห์ข้อมูลแบบเรียลไทม์
  • แบบไมโคร (Micro-batching) คือ การประยุกต์ระหว่าง Batch และ Streaming เพื่อการวิเคราะห์ข้อมูลแบบเกือบเรียลไทม์ แต่ใช้ทรัพยากรน้อยกว่าการ Streaming

 

โดยในการทำ Data Ingestion ทางวิศวกรข้อมูล (Data Engineer) มักพบกับความท้าทาย เช่น การควบคุมคุณภาพของข้อมูล การปฏิบัติตามข้อกำหนดด้านความปลอดภัยและกฎหมายคุ้มครองความเป็นส่วนตัวของข้อมูล เป็นต้น

2. การจัดเก็บข้อมูล (Data Storage)

หลังจากข้อมูลปริมาณมหาศาลผ่านกระบวนการ Data Ingestion แล้ว ต่อมาข้อมูลเหล่านั้นจะถูกดาวน์โหลดลงคลังเก็บข้อมูลขององค์กร โดยอาจใช้ Data Lake หรือ Data Warehouse สำหรับเก็บข้อมูลก็ได้ ขึ้นอยู่กับจุดประสงค์ด้านการใช้งานและปัจจัยอื่นๆ ขององค์กร เนื่องจาก Data Lake และ Data Warehouse มีความแตกต่างด้านโครงสร้างและการใช้งานในบางประการ ดังนี้

  • Data Lake: จัดเก็บข้อมูลได้จากหลายแหล่ง ทั้งข้อมูลไม่มีโครงสร้าง (Unstructured Data) ข้อมูลกึ่งโครงสร้าง (Semi-Structured Data) และข้อมูลที่มีโครงสร้างชัดเจน (Structured Data)
  • Data Warehouse: จัดเก็บข้อมูลได้จากหลายแหล่ง แต่จะกำจัดเฉพาะรูปแบบข้อมูลที่มีโครงสร้างชัดเจน อย่างไรก็ตาม Data Warehouse สมัยใหม่มีการพัฒนาให้สามารถรองรับการจัดเก็บข้อมูลกึ่งโครงสร้างได้แล้ว

 

การทำ Data Ingestion สำหรับจัดเก็บลงบน Data Lake อาศัยขั้นตอนและเวลาน้อยกว่าการจัดเก็บบน Data Warehouse เพราะจะมุ่งเน้นไปที่การควบคุมคุณภาพข้อมูลและลดความซ้ำซ้อน ในขณะที่การทำ Data Ingestion สำหรับจัดเก็บลงบน Data Warehouse จะมุ่งเน้นไปที่การวิเคราะห์เบื้องต้น เพื่อให้ได้เฉพาะข้อมูลที่จำเป็นและมีประโยชน์ 

 

โดยข้อมูลที่อยู่บน Data Warehouse จะสามารถนำมาใช้ในขั้นตอน Analysis ได้ง่ายและรวดเร็วกว่าข้อมูลบน Data Lake แต่การปรับขนาดของ Data Lake สามารถทำได้ง่ายกว่า Data Warehouse ทั้งในเชิงพื้นที่จัดเก็บและราคา

3. การวิเคราะห์ข้อมูล (Data Analysis)

กระบวนการ Data Analysis คือ การวิเคราะห์ข้อมูลที่ถูกจัดเก็บบน Data Lake หรือ Data Warehouse เพื่อใช้ประโยชน์จากข้อมูลเหล่านั้น โดยการวิเคราะห์ข้อมูลสามารถแบ่งได้ 4 รูปแบบ ซึ่งนักวิเคราะห์ข้อมูลสามารถเลือกใช้รูปแบบการวิเคราะห์ใดก็ได้ ขึ้นอยู่กับจุดประสงค์ที่ต้องการใช้งานข้อมูล

  • วิเคราะห์เชิงวินิจฉัย (Diagnostic Analysis): การวิเคราะห์เชิงวินิจฉัย คือ การวิเคราะห์เจาะลึกลงไปในประเด็นใดประเด็นหนึ่ง มักใช้เพื่อหาสาเหตุของเหตุการณ์ เช่น บริษัท A มียอดขายลดลง นักวิเคราะห์ข้อมูลก็จะทำการวิเคราะห์แบบวินิจฉัย เพื่อหาว่าอะไรคือสาเหตุที่ทำให้ยอดขายของบริษัท A ลดลง
  • การวิเคราะห์ข้อมูลเชิงพรรณนา (Descriptive Analysis): การวิเคราะห์ข้อมูลเชิงพรรณนา คือ การวิเคราะห์ข้อมูลแบบพื้นฐาน เพื่อให้เห็นภาพรวมและความสัมพันธ์ของข้อมูล เช่น ความสัมพันธ์ระหว่างยอดคงเหลือสินค้าในคลังกับอัตราการผลิตสินค้าจากโรงงาน
  • การวิเคราะห์เชิงทำนาย (Predictive Analysis): การวิเคราะห์ข้อมูลเชิงทำนาย คือ การวิเคราะห์ข้อมูลในอดีต เพื่อคาดคะเนแนวโน้มและผลกระทบของเหตุการณ์ที่จะเกิดขึ้นในอนาคต เช่น ในปีที่ผ่านมา บริษัท A มียอดขายลดลงอย่างต่อเนื่องทุกเดือน ดังนั้นยอดขายในปีนี้ของบริษัท A ก็จะลดลงอย่างต่อเนื่องเช่นกัน
  • การวิเคราะห์เชิงแนะนำ (Prescriptive Analysis): การวิเคราะห์เชิงแนะนำ คือ การวิเคราะห์ต่อยอดจากการวิเคราะห์เชิงทำนาย เพื่อจำลองเหตุการณ์ที่อาจเกิดขึ้นทั้งหมดและแต่ละเหตุการณ์จะมีผลกระทบอย่างไรบ้าง เช่น แนะแนวทางปฏิบัติที่เหมาะสม เพื่อป้องกันไม่ให้ยอดขายของบริษัท A ตกลงไปถึงจุดวิกฤต ซึ่งสามารถมีได้มากกว่า 1 แนวทางปฏิบัติ

 

ปัจจุบัน AI และ Machine Learning ได้เข้ามามีบทบาทในกระบวนการวิเคราะห์ข้อมูลมากขึ้น ซึ่งช่วยประหยัดเวลาในการวิเคราะห์ข้อมูลได้มากกว่านักวิเคราะห์ข้อมูลที่เป็นมนุษย์ โดยนักพัฒนาเทคโนโลยีบางส่วนกล่าวว่า AI และ Machine Learning สามารถวิเคราะห์ข้อมูลได้แม่นยำกว่ามนุษย์อีกด้วย 

4. การนำข้อมูลไปใช้ประโยชน์ (Data Consumption)

ประสิทธิภาพของการนำข้อมูลไปใช้ประโยชน์หรือที่เรียกว่า Data Consumption ขึ้นอยู่กับการรายงานข้อมูลให้อยู่ในรูปแบบที่สามารถเข้าใจได้ง่าย อาทิ แดชบอร์ด แผนภูมิ กราฟ กราฟิกและอื่นๆ 

 

โดยจะเห็นได้ว่า Big Data Ecosystem ทั้ง 4 กระบวนการมีหลายขั้นตอน ซึ่งจะต้องอาศัยเครื่องมือหลายอย่าง เช่น 

 

  • MongoDB สำหรับการจัดการและจัดเก็บข้อมูล 
  • Apache Spark สำหรับประมวลผลและนำข้อมูลเข้าแพลตฟอร์ม 
  • Presto สำหรับการวิเคราะห์ข้อมูล 
  • TensorFlow สำหรับการวิเคราะห์ขั้นสูงด้วย AI และ Machine Learning 
  • PowerBI สำหรับการจัดทำรายงาน และนำเสนอข้อมูลเชิงลึก

 

ส่งผลให้องค์กรต้องลงทุนเป็นเงินจำนวนมากใน Big Data Ecosystem แต่จะดีกว่าหรือไม่ หากมี Data Solution Platform ที่สามารถครอบคลุมกระบวนการต่างๆ ใน Big Data Ecosystem ได้ทั้งหมดในแพลตฟอร์มเดียว ซึ่งจะช่วยให้บุคลากรที่เกี่ยวข้องสามารถทำงานร่วมกันได้อย่างมีประสิทธิภาพ ตั้งแต่วิศวกรข้อมูล นักวิทยาศาสตร์ข้อมูล นักวิเคราะห์ข้อมูล ไปจนถึงผู้บริหารธุรกิจ

 

แนะนำ TechX Data Platform จาก SCB TechX

แนะนำ TechX Data Platform จาก SCB TechX

SCB TechX พร้อมให้บริการแพลตฟอร์มจัดการข้อมูลแบบครบวงจร TechX Data Platform ที่ช่วยให้ธุรกิจจัดการข้อมูลจำนวนมากได้ ตั้งแต่ขั้นตอนนำข้อมูลเข้าระบบ จัดเก็บ จัดการ วิเคราะห์ และรักษาความปลอดภัยของข้อมูล อีกทั้งยังมีความสามารถในการปรับแต่ง ส่งผลให้รองรับได้ทั้งธุรกิจขนาดเล็กอย่าง Startup ไปจนถึงธุรกิจขนาดใหญ่

 

หากสนใจดูรายละเอียดบริการแพลตฟอร์ม TechX Data Platform (คลิก)

สอบถามบริการนวัตกรรม E-KYC, Data Platform และโซลูชันอื่นๆ เพิ่มเติม ได้ที่ Email: contact@scbtechx.io

ติดตาม SCB TechX เพื่ออัปเดตข่าวสารใหม่ๆ ก่อนใคร

Facebook: SCB TechX

Medium: medium.com/scb-techx 

LinkedIn: www.linkedin.com/company/scb-tech-x/

YouTube: SCB TechX

Related Content

  • ทั้งหมด
  • Blogs
  • Insights
  • News
    •   Back
    • Blockchain
    • Finance
    • Tech innovation
    •   Back
    • Leadership
    • PointX Products
    • Events
    • Others
    • Joint ventures
    • Partnership
    • Services & Products
    •   Back
    • Data Science
    • Careers
    • Lifestyle
    • Product
    • Strategy
    • Technology
    • User Experience

Your consent required

If you want to message us, please give your consent to SCB TechX to collect, use, and/or disclose your personal data.

| การเพิกถอนความยินยอม

หากคุณต้องการเพิกถอนการให้ความยินยอมในการเก็บรวบรวม ใช้ และ/หรือเปิดเผยข้อมูลส่วนบุคคล กรุณาส่งคำร้องหาเรา

Vector

Message sent

We have receive your message and We will get back to you shortly.