
ทุกวันนี้ทีม Data และ Dev ต้องเจอกับงานที่ซับซ้อน แต่ถ้ามีผู้ช่วยจัดการคิวงานให้ทุกขั้นตอน ชีวิตจะง่ายขึ้นขนาดไหน? วันนี้เลยชวนคุณ Patsakorn, Platform Services Engineer มาแชร์ว่า ทำไม Apache Airflow 3 ถึงกลายเป็นเพื่อนคู่ใจของสาย Data และ Dev ที่ช่วยให้ทำงานเร็วขึ้น ง่ายขึ้น และเหนื่อยน้อยลงจริง ๆ
Apache Airflow คืออะไร?
ลองจินตนาการว่าคุณเป็น Project Manager ที่ต้องจัดการโปรเจกต์ซับซ้อน มีหลาย Tasks ต้องทำตามลำดับ บาง Tasks เริ่มไม่ได้จนกว่า Tasks อื่นจะเสร็จ และต้องแน่ใจว่าทุกอย่างทำงานตามกำหนดเวลา ซึ่ง Apache Airflow ก็เหมือนกับการมี Automated Project Manager ให้กับ Data Workflows นั่นเอง
DAG คืออะไร?
DAG ย่อมาจาก Directed Acyclic Graph ตัวแรก Directed คือ Tasks ที่ไหลไปในทิศทางเดียว (เหมือนน้ำไหลลงสู่ที่ต่ำ) Acyclic คือไม่มี Circular Loops (Tasks ไม่วนกลับมาที่ตัวเอง) Graph คือ Visual Representation ของ Tasks ที่เชื่อมต่อกันโดย DAG มี 5 ประเภทที่ยอดนิยม
ประเภทของ DAG
1. Standard DAG (Traditional Workflow) เป็น Workflow ที่พบบ่อยสุด Tasks ทำงานตามลำดับที่กำหนด เช่น Processing daily sales data ทำทั้ง Extract data จาก Database, Clean และ Validate ข้อมูล, Generate Reports และ ส่ง Email Notifications

2. Dynamic DAG (Flexible Workflow) เปลี่ยน Structure ได้ตาม Conditions ข้อมูลเปรียบเหมือนเมนูร้านอาหารที่เปลี่ยนแปลงตามวัตถุดิบที่มี เช่น Processing files จากหลายแผนก จะทำทั้ง Check ว่าแผนกไหน Upload Files วันนี้บ้าง, สร้าง Processing Tasks เฉพาะแผนกที่มี New Files, แต่ละแผนกจะได้รับ Processing Pipeline ของตัวเอง

3. Dataset-Triggered DAG (Event-Driven Workflows) DAG เหล่านี้ไม่ Run ตาม Schedule จะรอให้ Data เฉพาะพร้อม เหมือนกับเชฟที่เริ่มทำอาหารเมื่อวัตถุดิบทั้งหมดมาถึงแล้ว เช่น Data Pipeline with Dependencies จะทำพวก Marketing DAG สร้าง Customer Data, Sales DAG รอให้ Customer Data พร้อม และ Analytics DAG รอให้ Datasets ทั้งสองพร้อมก่อน Run

4. Branching DAG (Conditional Workflows) DAG เหล่านี้ตัดสินใจและเลือก Paths ที่แตกต่างกันตาม Conditions เหมือนกับการผจญภัยแบบเลือกเส้นทางเองเช่น Processing customer feedback จะทำพวก Check Feedback Sentiment, Route ไปยัง Teams ต่างๆ ตาม Sentiment, Escalate Urgent Issues ทันที

5. Parallel Processing DAG (Concurrent Workflows) เมื่อ Tasks เป็นอิสระต่อกัน สามารถ Run พร้อมกันได้ เหมือนกับมีเชฟหลายคนเตรียมอาหารคนละจานในเวลาเดียวกัน เช่น Generating multiple reports พร้อมกัน โดย Reports ทั้งหมด Generate ได้ในเวลาเดียวกัน, Combine Results เมื่อทำเสร็จทั้งหมด และ Distribute ให้กับ Stakeholders

Real-World Combined Example
Applications จริงส่วนใหญ่จะรวม DAG หลายประเภท เข้าด้วยกัน เช่น สถานการณ์ Daily Data Pipeline ของบริษัท E-commerce ตัวอย่างนี้จะรวมทั้ง
- Scheduled Execution (runs daily เวลา 2 AM)
- Branching (checks ว่ามี Orders หรือไม่)
- Parallel Processing (handles ภูมิภาคต่างๆ พร้อมกัน)
- Dataset-Triggered (analytics starts เมื่อ Customer Data พร้อม)
- Conditional Logicn(reports ที่แตกต่างกันตาม Volume)

Key Benefits ของ Airflow 3 DAGs
1. Automation: Set it and forget it – Workflows run อัตโนมัติ
2. Visibility: เห็นว่าเกิดอะไรขึ้นในทุก Step อย่างชัดเจน
3. Reliability: Automatic Retries ถ้ามีอะไรผิดพลาด
4. Scalability: Handle ได้ทั้ง Simple ไปจนถึง Complex Workflows
5. Flexibility: ปรับ Workflows ให้เข้ากับความต้องการทางธุรกิจที่เปลี่ยนแปลง
ท้ายนี้หากองค์กรของท่านกำลังมองหาโซลูชันด้าน DevOps ช่วยปรับรูปแบบการทำงานให้เป็นอัตโนมัติ ลดต้นทุนการทำธุรกิจ SCB TechX พร้อมเป็นโซลูชันที่ช่วยพัฒนา และ Deliver ผลิตภัณฑ์และบริการออกสู่ตลาด ต่อยอดองค์กรของท่านให้เติบโตอย่างยั่งยืน
สนใจบริการโปรดติดต่อเราที่ https://bit.ly/4etA8Ym
อ่านรายละเอียดเพิ่มเติมคลิก https://bit.ly/4dpGl6U
