บทความนี้เป็นความรู้ที่ได้จากคลาสเรียน TechX Sharing ในหัวข้อ “Data for Everyone ที่ใครๆก็ใช้ Data และเป็น Data Analyst ได้” โดยได้รับเกียรติจาก Data Analyst ชื่อดังแถวหน้าของเมืองไทย ผู้ปลุกกระแสพัฒนาทักษะด้าน Data Science คุณกษิดิศ สตางค์มงคล หรือ ทอย แอดมินและเจ้าของเฟซบุ๊กแฟนเพจ DataRockie ที่นอกจากจะให้ความรู้ด้าน Data 101 พร้อมทักษะที่ควรมีกันแล้ว ยังมีตัวอย่างที่ทำให้เห็นภาพว่า Data ช่วยให้เราตัดสินใจได้ดีขึ้น แต่บางครั้งก็ไม่ได้ทำให้ตัดสินใจได้ถูกต้อง 100% ต้องใช้ข้อมูล หรือ องค์ประกอบอื่นร่วมด้วย ช่วงท้ายยังให้เทคนิคเพิ่มความสำเร็จในการใช้ Data พร้อมแนะนำวิธีก้าวสู่การเป็น Data Analyst ที่ลองทำด้วยตนเองและได้ผลมาแล้ว มาสร้างแรงบันดาลใจให้ทุกคนได้นำไปศึกษาเพิ่มเติม รับรองว่าไม่ผิดหวังแน่นอนเพราะทักษะด้าน Data Science เป็นสิ่งที่ทุกคนควรมีและทุกองค์กรก็กำลังต้องการกันเลยทีเดียว
Data Science คืออะไร
จริงๆ Data Science ไม่ใช่เรื่องใหม่แต่เป็นการนำหลายๆศาสตร์อย่างวิชาคอมพิวเตอร์ และ สถิติ มาผสมผสานกัน โดย John D. Kelleher ได้ให้นิยาม Data Science ว่าคือการช่วยเราหา Pattern ที่มีประโยชน์ต่อธุรกิจ หรือ ต่อการตัดสินใจ แต่เรามองไม่เห็นต้องอาศัยคอมพิวเตอร์เข้ามาช่วย สำหรับเป้าหมายของ Data Science คือการได้ Actionable Insights หรือ ความรู้บางอย่างที่เราได้มาจาก Data แล้วนำไปประยุกต์ใช้ในเชิงธุรกิจได้ ซึ่ง Insights จริงๆไม่ได้ทำให้ธุรกิจโตแต่การนำ Insights มาแปลงเป็นกลยุทธ์สู่การลงมือทำเกิดเป็น Actionable Insights ต่างหากที่จะช่วยให้ธุรกิจเราโตขึ้น เช่น เราได้ Insights มาว่าคนไทยชอบซื้อของตอนมีโปรโมชั่นต่างๆ หากไม่นำมากำหนดกลยุทธ์จัดโปรโมชั่นกระตุ้นยอดขายก็ไม่มีประโยชน์ อย่างไรก็ดีนักสถิติ George E. P. Box ยังได้เพิ่มเติมว่า สิ่งที่เราได้จาก Data มีไว้ช่วยให้เราตัดสินใจได้ดีขึ้นก็จริง แต่ไม่ได้ช่วยให้เราตัดสินใจได้ถูกต้อง 100% ตลอดเวลา เหมือนเวลาเราใช้ Google Map บางครั้งก็พาเราไปหลงเพราะ Algorithm ไม่ได้ทำงานได้ถูกต้อง 100% หรือ Email ที่คนส่งหาเรา Algorithm มักจัดข้อมูลออกเป็น 2 กลุ่มให้ไปอยู่ใน Spam Box หรือ Main Inbox โดยดูจาก Key words ที่อยู่ในหัวข้อหรือเนื้อหาเป็นหลัก ซึ่งบางครั้ง Email สำคัญก็ตกไปอยู่ที่ Spam Box ได้เหมือนกัน
เพราฉะนั้นสรุปได้ว่า Data Science ช่วยให้เราหา Pattern หรือ โมเดลที่มีประโยชน์ต่อธุรกิจ >> แล้วนำมาทำให้เกิดเป็น เป้าหมายแบบ Actionable Insights มีการกำหนดกลยุทธ์และลงมือทำ >> โดยกลยุทธ์นั้นจะต้องไม่เป็นการตัดสินใจที่อยู่บน Data อย่างเดียวเท่านั้น (Data-Driven) แต่ต้องมีการนำข้อมูลบริบทแวดล้อมที่ธุรกิจมี (Data-informed) มาช่วยในการตัดสินใจกำหนดกลยุทธ์ด้วยเพราะ Data มีโอกาสผิด หรือ อาจมี Bias ได้
Data Scientist ควรมีทักษะใดบ้าง
Drew Conway ผู้เชี่ยวชาญทางด้าน Data กล่าวว่า Data Scientist ควรมีทักษะหลักๆ 3 ด้านดังนี้
1. Domain Expertise ควรมีทักษะที่ดีในสายงานของตัวเอง เช่นสายธุรกิจ หรือ สายการตลาด ฯลฯ
2. Computer science (Machine Learning) ควรมีทักษะในด้านการเขียนโปรแกรม และสนใจว่า pattern หรือ โมเดลที่ได้มานั้นใช้ทำนายผลได้แม่นยำแค่ไหน
3. Math & Statistics ควรมีทักษะในด้านสถิติรู้วิธีการทำ Market Research ชอบหาเหตุผลหรือความสัมพันธ์ของตัวแปรในแต่ละ Model
อย่างไรก็ดีสถาบัน MIT ได้ให้ข้อมูลที่น่าสนใจว่าตั้งแต่ปี พ.ศ. 2544 (2001)คนที่เป็น Data scientist ควรมีความรู้ในเรื่องต่างๆดังนี้
1. Domain Expertise: มีความรู้ในสายงานของตัวเองเป็นหลัก
2. Data Ethics & Regulations: มีความรู้เรื่องกฏหมายโดยเฉพาะกฏหมายคุ้มครองข้อมูลส่วนบุคคล อย่างฝั่งยุโรปมีออกกฎหมาย GDPR ประเทศไทยออกกฎหมาย PDPA สาเหตุที่ต้องรู้เพราะงาน Data เกี่ยวข้องกับการนำข้อมูลส่วนบุคคลมาใช้ ดังนั้นต้องรู้ว่าการนำข้อมูลมาใช้แบบไหนถูกต้อง หากไม่ถูกต้อง ควรแก้ไขอย่างไร เช่นกฎหมายกำหนดว่าหากมีลูกค้ามาขอให้ลบ Data ออกจากระบบต้องทำได้ทันที ถ้าเราไม่รู้และไม่ได้ทำระบบลบข้อมูลทั้งหมดของลูกค้าแต่ละรายได้ทันทีรองรับไว้ ย่อมเกิดปัญหาตามมาได้
3. Data wrangling & Database: มีความรู้ในด้านการตรวจสอบคุณภาพของข้อมูล สามารถเปลี่ยนข้อมูลดิบให้อยู่ในรูปแบบที่ง่ายต่อการใช้งาน
4. Computer Science & HPC : มีความรู้ในการนำคอมพิวเตอร์จำนวนมากเข้ามาประมวลผลพร้อมๆกัน
5. Data Visualization: มีความรู้ในการนำ Data มาวิเคราะห์แล้วนำเสนอในรูปแบบกราฟต่างๆเพื่อให้เข้าใจง่าย
6. Statistics & Probability: มีความรู้ในทางสถิติ การหาความสัมพันธ์ ความน่าจะเป็นของตัวแปรต่างๆ
7. Machine Learning: มีความรู้ในการสอน Algorithm ให้เรียนรู้ทำความเข้าใจได้ด้วยตัวเองจาก Data ที่ป้อนให้
8. Communication: มีความรู้ความสามารถในการสื่อสาร การเล่าเรื่องให้เข้าใจง่าย
ตัวอย่างหน่วยงานที่นิยมใช้ Data science
หน่วยงาน Sales and Marketing: ห้าง Walmart ใช้ Data ช่วยทำนายว่าก่อนพายุเฮอริเคนเข้าต้อง Stock สินค้าอะไรไว้บ้าง เรื่องนี้เกิดขึ้นเมื่อเดือน ส.ค. 2547 (2004) ตอนมีพายุเฮอริเคน Charley พัดเข้าชายฝั่งฟลอริดา ทีมพบว่า Strawberry Pop Tarts ขายดีมาก พอมีประกาศว่าอีกสัปดาห์จะมีพายุเฮอริเคน Frances เข้าจึงตุน Strawberry Pop Tarts ไว้เยอะมากแล้วก็ขายดีจริงๆ นอกจากนี้ยังมีงานวิจัยออกมาว่า Walmart เพิ่มยอดขายสินค้าได้ถึง 10–15% จากการใช้ Data Science Optimization เลือกวางสินค้าที่ต้องการขายในระดับสายตาบนขั้นวางของที่เรียกว่า Planogram
อีกตัวอย่างช่วงปี พ.ศ. 2537 (1994) บริษัท Tesco ได้จ้างบริษัท Retail Analytics ชื่อ Dunnhumby ทำแคมเปญบัตรสะสมแต้ม Clubcard ขึ้นมา พอทดลองทำได้ไม่ถึงปีได้นำข้อมูลลูกค้ามาวิเคราะห์ เพื่อทำโปรโมชั่นกระตุ้นยอดขาย เมื่อได้ผลลัพธ์ออกมาจึงนำไปเล่าให้กับ Lord Maclaurin, Chairman ของ Tesco ฟัง Lord Maclaurin พอฟังจบบอกว่า รู้สึกกลัวเลย Data ที่ Dunnhumby เก็บผ่าน Clubcard ทำให้รู้จักลูกค้าดีกว่าเขาที่ทำงานในอุตสาหกรรมนี้มากว่า 30 ปี พอปี พ.ศ. 2538 (1995) เปิดตัว Clubcard อย่างเป็นทางการ Tesco ได้กลายเป็นเบอร์ 1 ในตลาดกลุ่มสินค้าอุปโภคบริโภคที่จำเป็นในชีวิตประจำวันของประเทศอังกฤษแซง Sainsbury’s จนถึงปัจจุบันนี้ สำหรับกลยุทธ์ที่ Tesco ใช้เรียกว่า Strategic Data Acquisition Strategy ที่วันนี้บริษัทต่างๆก็พยายามทำตามผ่าน Loyalty Program เก็บ Data ลูกค้าแลกกับการให้แต้ม เพื่อนำ Data มาวิเคราะห์ทำรายการส่งเสริมการขายต่อไป
หน่วยงาน Government: D.J. Patil เป็น Chief Data Scientist คนแรกของรัฐบาลอเมริกา เขาทำ Project ชื่อ Precision Medicine Initiatives ที่มีความคิดว่ามนุษย์เราแต่ละคนมี DNA ไม่เหมือนกัน ยาก็ควรออกแบบให้สอดคล้องกับ DNA ของแต่ละคน โดยได้นำ Data ผู้ป่วยชาวอเมริกันเป็นล้านคนมาศึกษา เพื่อหาว่าทำอย่างไรให้การรักษาโรคนั้นดีขึ้น สามารถทำนายอนาคตได้ว่าคนคนนี้จะเสี่ยงเป็นโรคอะไรบ้างเพื่อหาทางป้องกัน ทำอย่างไรให้ Personalized ยาให้ผู้ป่วยในระดับที่เหมาะสมได้
หน่วยงาน Sports: ภาพยนตร์ที่นำมาจากเรื่องจริงชื่อ Moneyball กำลังหาผู้เล่นมาเสริมทีม ซึ่งการดูแค่ สรีระ ร่างกาย ท่าทาง หรือ ค่าตัวสูงๆไม่ได้บอกว่าคนนั้นจะเล่นเก่ง ดังนั้นโค้ชทีม Oakland Athletics จึงจ้างนักเศรษฐศาสตร์ที่มี Database ของผู้เล่นเบสบอลในอเมริกา มารัน Model ทางสถิติอย่างง่ายๆแล้ววิเคราะห์ผลออกมาซึ่งพบว่า จริงๆแล้วยังมีปัจจัยบางอย่างที่ผู้เล่นค่าตัวไม่สูงมีแล้วสามารถพาทีมความแชมป์ได้ จึงไปกว้านซื้อผู้เล่นเหล่านี้มาแทนผู้เล่นตัวหลักที่ถูกซื้อไป และผลก็คือทีมสามารถเข้ารอบ playoffs ได้หลายปีติดต่อกัน
อย่างไรก็ดีกรณีที่ Data science ล้มเหลวก็มีเช่นกัน อย่างทีมฟุตบอล Man United ทีมก็มี Data Scientist ช่วยหาตัวผู้เล่น มีการซื้อตัวผู้เล่นดีๆใช้เงินเยอะ แต่ผลก็ไม่ได้ออกมาว่าผู้เล่นที่เคยเล่นเก่งพอย้ายทีมแล้วจะทำให้ทีมชนะได้ ซึ่งอาจจะต้องการพิจารณาจากปัจจัยอื่นร่วมด้วย
ทำไมต้องเริ่มพัฒนาทักษะ Data Science
Gordon Linoff and Michael Berry กล่าวว่า มนุษย์มีความสามารถในการตั้งคำถาม ตั้งสมมุติฐาน เข้าใจผลลัพธ์ ส่วนคอมพิวเตอร์มีความสามารถในการประมวลผล สามารถหา Pattern จาก Data มากมายได้ เมื่อมาทำงานร่วมกันทำให้ได้ผลลัพธ์ที่มีประสิทธิภาพและดีกว่าเดิม จึงทำให้บริษัทต่างๆหันมาให้ความสำคัญและนิยมใช้ Data Science ในการวิเคราะห์หาสิ่งที่ต้องการมากขึ้น ส่งผลให้ตัวเลขการหาคนทำงานสาย Data ในปีพ.ศ. 2563 (2020) ที่อเมริกาอย่างเดียวมีมากกว่า 2.7M ตำแหน่ง แล้วงานสาย Data analytics ไม่เกี่ยวกับว่าเรียนจบอะไรมาแต่เป็นทักษะที่ใครๆก็สามารถพัฒนาได้ จึงมีโอกาสรออยู่อย่างมหาศาลสำหรับคนที่สนใจงานด้าน Data Science
Data & Big data คืออะไร
Data ตามความหมายของ Google คือ สิ่งที่เกิดขึ้นมาในโลกนี้ทั้งหมดแล้วมีการบันทึกไว้ ส่วน Big Data ในยุคเริ่มต้นกล่าวว่าเป็น Data ที่ประกอบไปด้วย Data ที่มี Volume มีจำนวนมากมายเกินกว่าที่เครื่องคอมพิวเตอร์เครื่องหนึ่งจะรับได้ นอกจากนี้ยังเป็น Data ที่มี Variety มีความหลากหลาย มีทั้งแบบที่เป็น ตาราง รูปภาพ เสียง วีดีโอ และสุดท้ายเป็น Data ที่มี Velocity มีการเพิ่มขึ้นมาอย่างรวดเร็วความเร็วสำหรับปัจจัยที่ทำให้ Big Data เติบโตก็มาจากความสามารถในการเก็บข้อมูลได้มากขึ้นในราคาที่ถูกลง (Cost of Storage) และ ความสามารถในการประมวลผลได้สูงขึ้น ในราคาที่ถูกลง (Cost of Computing) เช่นกัน
ประเภทของข้อมูล: Data ในโลกเรามี 2 แบบ
1. Structured Data: เป็น Data ที่มีโครงสร้าง Column และ Row ชัดเจนถูกจัดเก็บไว้อย่างเป็นระเบียบพร้อมใช้งาน นิยมใช้มากในฝั่งธุรกิจ Data 10–20% จะอยู่ในรูปแบบนี้ ซึ่งวิธีใช้งานจะเริ่มจากการทำ Query ดึงข้อมูลขึ้นมาจาก Database และนำมาวิเคราะห์ต่อด้วยโปรแกรมต่างๆเช่น Excel
2. Unstructured Data: เป็น Data ที่ไม่มีโครงสร้าง เช่น ไฟล์ภาพ เสียง VDO ซึ่ง Data 80% จะอยู่ในรูปแบบนี้
อย่างไรก็ดียังมีอีกโครงสร้างหนึ่งที่เป็นลูกครึ่งของทั้ง 2 แบบเรียกว่า Semi Structured Data เป็น Data ที่มีโครงสร้างระดับหนึ่งแต่ยังไม่สมบูรณ์ ต้องจัดระเบียบเล็กน้อย เช่น Data ที่เก็บในรูปแบบไฟล์ JSON ที่เอามาใช้ใน API ต่างๆ ทั้งนี้ขั้นตอนแรกของการวิเคราะห์ข้อมูลโดยเฉพาะข้อมูลที่เป็น Structured Data ต้องรู้ก่อนว่าแต่ละ Column เป็น Data Type แบบใดเพราะ Data Type เป็นตัวกำหนดสถิติที่ใช้วิเคราะห์ผล เช่น ถ้าเก็บ Data มาเป็นตัวเลข (Numeric) ก็ใช้สถิติการหาค่าเฉลี่ยมาวิเคราะห์ผลได้ ถ้าเก็บมาเป็น Data ที่ไม่เกี่ยวกับปริมาณที่สามารถวัดได้ (Nominal) ก็วิเคราะห์ผลผ่านการจัดกลุ่ม และ ถ้าเก็บมาเป็น Data ที่แสดงลำดับได้ (Ordinal) ก็วิเคราะห์ผลผ่านการเรียง สูง กลาง ต่ำ ได้
กระบวนการวิเคราะห์ Data มี 2 Models ที่น่าสนใจคือ DIKW Model และ Crisp-Dm Model
DIKW Model มาจากตัวอักษรของแต่ละ Layer ซึ่งอธิบายหลักการวิเคราะห์ Data จากล่างขึ้นบนยอดพีระมิดว่า Data ถูกเก็บขึ้นมาเพื่อให้เข้าใจสิ่งต่างๆบนโลกนี้มากขึ้น เวลามีเหตุการณ์ที่ต้องตัดสินใจจะได้ตัดสินใจได้ดีขึ้น โดยเมื่อเก็บ Raw Data มาแล้วต้องเปลี่ยนให้เป็น Information ใส่ Column และ Row เปลี่ยน Data Type ให้เหมาะสม จากนั้นหา Pattern บางอย่างใน Data ได้ออกมาเป็นความรู้ แล้วนำความรู้ที่ได้มาประยุกต์จนเกิดเป็นองค์ความรู้ Wisdom ที่สามารถนำไปใช้ได้ในหลายๆธุรกิจ
ส่วน Crisp-Dm (Cross Industry Standard Process for Data Mining) เป็น Model ที่เน้น Structured Data ที่อยู่ใน Database โดยอธิบายหลักการวิเคราะห์ Data ออกเป็น 6 ขั้นตอน
ขั้นตอนที่ 1 เน้นการทำความเข้าใจธุรกิจก่อน (Business Understanding) ว่าธุรกิจอยากรู้อะไร เช่นอยากรู้ว่าโปรโมชั่นแบบไหนที่กระตุ้นยอดขายได้ดีที่สุด?
ขั้นตอนที่ 2 ทำความเข้าใจ Data (Data Understanding) เช่น Data Scientist ดูว่ามี Data ที่จะนำมาวิเคราะห์เพื่อตอบโจทย์ธุรกิจได้ไหม? ถ้าไม่มี Data ต้องไปหาเพิ่ม ถ้าหาไม่ได้ ต้องเปลี่ยนคำถามเพราะคำถามเป็นตัวกำหนด Data ที่จะวิเคราะห์
ขั้นตอนที่ 3 ทำความสะอาดข้อมูล (Data Preparation) ซึ่งขั้นตอนทั้ง 3 ขั้นแรกใช้เวลา ประมาณ 50–80% ของเวลาที่เราทำการวิเคราะห์ทั้งหมด
ขั้นตอนที่ 4 วิเคราะห์ข้อมูลด้วยเทคนิคทางสถิติต่างๆ (Modeling) เช่น การจำแนกประเภท การแบ่งกลุ่ม ฯลฯ เพื่อให้ได้คำตอบที่ดีที่สุด
ขั้นตอนที่ 5 สำคัญมากคือการวัดประสิทธิภาพของผลลัพธ์ (Evaluation) ว่ามีความน่าเชื่อถือตรงตามวัตถุประสงค์หรือไม่
ขั้นตอนที่ 6 นำผลลัพธ์ที่ได้ไปใช้จริง (Deployment) ทั้งนี้จากรูปจะเห็นว่า Data เป็นแกนกลางเหมือนน้ำมันที่คอยหล่อเลี้ยงกระบวนการรอบนอกที่มีการวนซ้ำไปเรื่อยๆ (Iteration) จากขั้นตอนแรกๆที่เริ่มเก็บ Data > แล้วนำ Data มาสร้างผลิตภัณฑ์ หรือ บริการให้ตอบโจทย์ผู้ใช้งาน > จากนั้นเริ่มมีผู้ใช้งานสนใจทดลองใช้ > เมื่อผู้ใช้งานมากขึ้นจะวนกลับไปที่เดิมคือการมี Data มากขึ้น > มีการนำ Data มา พัฒนาผลิตภัณฑ์ หรือ บริการให้ดีขึ้น > ผลิตภัณฑ์ หรือ บริการ ดีขึ้นจึงดึงดูดผู้ใช้งานใหม่เข้ามามากขึ้นเกิดเป็น The Virtuous Cycle of AI เป็นต้น
Data Science Ecosystem
การทำ Data Science นั้นควรเริ่มจากการมีวิศวกรข้อมูล (Data Engineer) มาช่วยออกแบบ Data Architecture สร้าง Data Pipeline โดยการออกแบบ Data Architecture จะต้องมีการสร้างแหล่งที่มาของข้อมูล (Data Source) สร้างอุปกรณ์จัดเก็บข้อมูล (Data Storage) และสร้างเป้าหมายปลายทางให้สมบูรณ์ ในส่วนของ Data Pipeline นั้นเป็นเหมือนท่อนำส่ง Data จากแหล่งที่มาไปสู่ปลายทางที่ต้องการอาจเป็น Data Warehouse ที่ดึงข้อมูลมาทำรายงานต่างๆได้ ทำ Dashboard ได้ โดยมี Data Scientist เขียน Query ดึง Data มาวิเคราะห์หา insights บางอย่าง อย่างไรก็ดีสำหรับบริษัทที่มีหลายหน่วยงานที่ต้องใช้ Data ควรจัดให้มีศูนย์กลางของ Data แหล่งเดียว (Single Source of Truth) เวลาดึง Data ออกมาจะได้มีผลลัพธ์ที่ตรงกันทั้งบริษัทลดการเกิดปัญหาที่ Data ถูกเก็บอยู่แค่ในหน่วยงานตนเอง เวลาวิเคราะห์จึงเกิดปัญหาที่ผลลัพธ์ได้ไม่ตรงกัน (Data Silo)
ปัญหาของ Data Science และ วิธีแก้ปัญหาสู่ความสำเร็จ
Leo Tolstoy กวีชาวรัฐเซีย กล่าวไว้ว่า ครอบครัวไหนที่มีความสุข ก็จะมีเรื่องราวความสุขที่เหมือนๆกันหมด แต่ครอบครัวที่มีปัญหา ก็จะมีปัญหาเป็นของตัวเองไม่ซ้ำกันเลย ซึ่ง Data Scientist ก็มักนำแนวคิดนี้มากล่าวถึงในมุมของ Data เช่นกันว่าData เวลาที่สะอาดสมบูรณ์ ก็จะมีลักษณะที่เหมือนๆกัน แต่ถ้า Data มีปัญหาจะมีปัญหาที่ไม่เหมือนกันเลย ซึ่งปัญหาโดยรวมๆมักเกิดจาก ปัญหาในเชิงเทคนิค (Technical Issue) ผลของการรัน Model ไม่เป็นไปตามที่ต้องการ ได้ผลที่ไม่มีประโยชน์ มี Data เยอะแต่ไม่เกี่ยวกับบสิ่งที่ต้องการ แต่ปัญหาก็เปลี่ยนเป็นความสำเร็จได้หากทำตามเชคลิสต์ดังต่อไปนี้
1. Focus ที่เป้าหมายว่าอยากจะแก้ปัญหาอะไร
2. เตรียม Data ให้พร้อม คำถามจะเป็นตัวกำหนด Data ซึ่งสามารถเก็บเพิ่มได้ ถ้าเก็บไม่ได้ต้องเปลี่ยนคำถาม
3. มีทีม Data Science ทั้ง Data Analyst, Data Scientist, Business Analyst, Software Engineer, UX, UI ที่แต่ละคนมีความเก่งกันคนละด้าน มาทำงานร่วมกันเพื่อให้ได้เป้าหมายตามที่ต้องการ
4. ต้องกล้าลองรัน Model ทำอะไรใหม่ๆ การทำ Machine Learning Model คือการลองผิดลองถูกไปเรื่อยๆ
5. สามารถนำ Model เข้าไปผสมผสานอยู่ใน IT Business ได้
6. ได้รับการเห็นชอบจากผู้บริหาร
7. โลกเราเปลี่ยนแปลงเร็ว พฤติกรรมผู้ใช้งานก็เปลี่ยนตลอดเวลา ดังนั้น Model ที่ดีต้องมีการอัพเดตอยู่เสมอ
ข้อแนะนำสำหรับผู้ที่สนใจด้าน Data Science
ขั้นแรกแนะนำให้เริ่มจากทำความเข้าใจพื้นฐานวิชาสถิติก่อนอย่างตัววิทยากรเองก็เริ่มจากสถิติเช่นกัน แล้วค่อยๆหาความรู้เพิ่มเติมพวกเครื่องมือที่ทีม Data ใช้ไปเรื่อยๆ แรกๆอาจเริ่มจากการใช้ Spreadsheets ซึ่งประกอบไปด้วยการหัดใช้ Excel หรือ Google Sheets เรียนรู้การใช้ SQL คำสั่งที่ใช้บริหารจัดการข้อมูล ฝึกทำ Dashboard พวก Power BI หรือ Tableau สุดท้ายเพิ่มเติมทักษะด้านการเขียนโปรแกรมภาษาอื่นๆอาทิ ภาษา R เหมาะกับ สถิติ หรือภาษา Python ใช้เขียน Website, Application, API และ ทำ Data Science ส่วน Java Script ไว้ใช้รับส่งข้อมูลกันผ่าน API
จากบทความข้างต้นจะเห็นว่าปัจจุบัน Data Science เป็นทักษะที่นำไปใช้ในงานอะไรก็ได้ เป็นทีมการตลาดก็ใช้ได้ ทีมที่ดูแลตัวเลข ธุรกิจ ไปจนถึงสายสายเทคโนโลยี Software ทุกคนใช้ Data หมดเลยยิ่งในอนาคตยิ่งมีแนวโน้มที่ใช้สูงมาก พอๆกับทักษะด้าน Software และ Design และก็เป็นสิ่งที่สามารถหาความรู้ได้ด้วยตนเอง อย่างไรก็ดีคนทำ Data ต้องรู้เสมอว่าถึงจะมี Data มากขนาดไหน แต่จริงๆแล้ว Data ไม่เคยพอเลย จึงจำเป็นต้องคอยหา Data Source ใหม่เข้ามาอัพเดตอยู่เสมอ และผลการวิเคราะห์ที่ได้จะต้องนำไปพิจารณาควบคู่กับข้อมูลอื่นๆที่เกี่ยวข้องเพื่อให้การตัดสินใจมีประสิทธิภาพเหมาะกับธุรกิจมากที่สุด