ปัจจุบันมีการนำ Data มาช่วยสนับสนุนการตัดสินใจเพื่อขับเคลื่อนธุรกิจให้ไปได้ไกลกว่า โดย Data ที่ใช้มักถูกนำมาจากหลายที่ หากไม่มีวิธีจัดการข้อมูลที่ดี ย่อมเกิดผลเสียต่อธุรกิจได้ วันนี้จึงขอเชิญกูรูด้าน Data คุณแจ็คพอต พงศกร Data Engineer จาก SCB TechX มาช่วยแชร์เคล็ดลับการตรวจสอบ Data เบื้องต้นให้ถูกต้องด้วย Data Profiling ที่ช่วยให้เราเข้าใจ Data และสามารถตรวจจับ Data ที่ผิดปกติได้ก่อนการนำไปใช้
Data Profiling เป็นการศึกษา Data ที่มีอยู่ เพื่อให้ทราบถึงรูปแบบการจัดเก็บที่ผิดปกติของ Data ซึ่งวิธีการตรวจสอบมีหลากหลายวิธี แต่วิธีเบื้องต้นที่สามารถใช้ในการตรวจสอบสามารถดูได้จากหัวข้อดังต่อไปนี้
- นับจำนวน Records ทั้งหมด : เพื่อตรวจสอบจำนวนข้อมูลว่ามีเท่ากับ Source ต้นทางหรือไม่
- นับจำนวน Records ของคอลัมน์ที่ไม่ระบุข้อมูล (Null) : หากคอลัมน์นั้นเป็นคอลัมน์ที่จำเป็นต้องมีค่าเสมอ (Mandatory Fields) จำนวน record ที่เป็น Null ควรมีค่าเท่ากับ 0
- นับจำนวน Records ที่เก็บค่าว่าง (Blank) : หากพบจะต้องตรวจสอบเพิ่มเติมว่าความหมายที่จัดเก็บค่าว่าง (Blank) คืออะไร หากความหมายทางธุรกิจคือไม่ระบุข้อมูล (Null) เราก็ต้องทำการแปลงข้อมูล Blank ให้เป็น Null เพื่อให้การนำไปใช้งานมีความถูกต้อง
- นับจำนวนตัวอักษรหรือตัวเลข ทั้งค่าต่ำสุดและสูงสุด (Min and Max Data Length): เช่น คอลัมน์ Product ID ต้องมีจำนวน 7 ตัวอักษร เราต้องนับจำนวนตัวอักษรหรือตัวเลข ทั้งค่าต่ำสุดและสูงสุดของคอลัมน์ ว่า เก็บ 7 ตัวอักษรจริงหรือไม่
- นับจำนวน Possible Values : เพื่อตรวจสอบว่าข้อมูลมีจำนวน Possible Values กี่ค่า เช่น คอลัมน์ Marital Status มีการจัดเก็บ 4 ค่า ได้แก่ Single, Married, Widowed, Divorced ดังนั้น Possible Values ของคอลัมน์ควรจะได้ค่า 4 หากตรวจสอบแล้วเกิน แสดงว่ามีข้อมูลอื่นถูกจัดเก็บอยู่
จากวิธีตรวจสอบ Data เบื้องต้นนี้ทำได้ง่ายๆ สามารถนำไปใช้กับ Data ในชีวิตประจำวันได้เลย หวังว่าเคล็ดลับเล็กๆน้อยๆนี้จะมีประโยชน์กับเพื่อนๆนะคะ ท้ายนี้บริษัท SCB TechX เปิดให้บริการด้าน Data Platform ที่เป็น Solution ด้านการจัดการข้อมูลแบบครบวงจร
หากท่านใดสนใจให้ทาง SCB TechX ช่วยเป็นที่ปรึกษา หรือจัดการด้านข้อมูลให้แก่องค์กรของท่าน สามารถสอบถามรายละเอียดได้เลยนะคะที่ contact@scbtechx.io