การ Cleansing Data ค่า Null เป็นเรื่องที่จำเป็นมากของคนทำงานสาย Data ยิ่งถ้า Data ที่เราจะนำมาเทรนด์โมเดลมีน้อยและเป็นประเภทตัวเลข เราต้องหาตัวเลขมาใส่แทนค่า Null แต่จะใส่เลขอะไรนั้น วันนี้คุณแจน คุลิกา กิจสโชค, Data Scientist จาก SCB TechX จะมาแชร์ 5 เทคนิคการแทนที่ค่า Null ให้นำไปใช้ได้จริงดังนี้ค่ะ
Mean/Median/Mode Imputation: เป็นการแทนค่า Null ด้วยค่า Mean, Median, Mode ของ Data ทั้งชุด นิยมใช้เทคนิคนี้กับ Data ที่มีค่าในคอลัมน์ใกล้เคียงกัน
Forward Fill / Backward Fill: เป็นการแทนค่า Null ด้วยค่าก่อนหน้าหรือค่าถัดไป นิยมใช้เทคนิคนี้เมื่อ Data เป็น Time Series ที่เปลี่ยนแปลงน้อยและติดต่อกัน
3. Interpolation: เป็นการแทนค่า Null ด้วยตัวเลขที่เรียงลำดับโดยพิจารณาจากค่าก่อนหน้าและค่าถัดไป นิยมใช้เทคนิคนี้เมื่อ Data ในคอลัมน์มีความสัมพันธ์กันแบบ Trend หรือ Pattern
4. Replace with Constant Values: เป็นการแทนค่า Null ด้วยค่าคงที่ที่กำหนด เช่น 0 นิยมใช้เทคนิคนี้เมื่อค่า Null มีความหมายว่า “ไม่มีข้อมูล” เช่น จำนวนผู้เข้าชมเว็บไซต์วันนี้ไม่มีเลย จะแทนค่า Null ด้วย 0 เป็นต้น
5. Replace with Random Values: เป็นการแทนค่า Null ด้วยค่าใดก็ได้ นิยมใช้เทคนิคนี้เมื่อต้องการความหลากหลายของ Data
จะเห็นได้ว่าเทคนิคการแทนค่า Null นั้นมีหลายวิธี แต่จะเลือกวิธีไหนนั้น ต้องคำนึงถึงการวิเคราะห์ Data ส่วนอื่นๆประกอบด้วย ถึงจะทำให้การนำ Data ไปใช้เกิดประโยชน์สูงสุด
ท้ายนี้บริษัท SCB TechX ให้บริการด้านการจัดการข้อมูลแบบครบวงจร TechX Data Platform ที่คิดค้นและออกแบบโดยผู้เชี่ยวชาญที่มีประสบการณ์ตรงในการพัฒนา และ Deliver Data ให้แก่องค์กรชั้นนำมากมาย
หากท่านใดสนใจสามารถสอบถามข้อมูลเพิ่มเติมได้ที่ contact@scbtechx.io
อ่านรายละเอียดเพิ่มเติมที่ https://bit.ly/3Q2a9vd