AI ล่าสุดจากจีน DeepSeek-R1 ไม่รู้จักไม่ได้แล้ว มาลองเล่นกันเถอะ!

ไทย

Image Generated with AI (Dall-E)

 

วันที่ 20 มกราคมที่ผ่านมา DeepSeek บริษัท AI สัญชาติจีนได้ปล่อย model AI ที่มีประสิทธิภาพสูงใกล้เคียงกับ GPT-o1 ออกมา แถมยังปล่อย paper และ model ให้ใช้งานกันแบบ open-source ภายใต้ MIT licensed ด้วย ทำเอาวงการไอทีสั่นสะเทือนกันเลยทีเดียว

 

Image link to DeepSeek on X

 

DeepSeek-R1 Performance

DeepSeek-R1 Performance

 

เรามาดูกันดีกว่าว่าอะไรทำให้ DeepSeek-R1 เจ้า AI น้องใหม่ไฟแรงจากจีนตัวนี้เป็นที่น่าสนใจ? เริ่มจากคะแนนสอบสนามต่างๆของ DeepSeek-R1 กันก่อนเลยว่าเมื่อเทียบ benchmark กับรุ่นพี่แต่ละเจ้าแล้วผลจะเป็นอย่างไร โดยสนามสอบและวิชาที่สอบอยู่ด้านล่างนี้แล้วคร้าบบ

 

  • AIME 2024: เป็นสนามสอบเกี่ยวกับการแก้ปัญหาโจทย์คณิตศาสตร์ที่เอาไว้ใช้คัดทีมไปแข่งคณิตศาสตร์โอลิมปิค จะชี้วัดความสามารถในการแก้ปัญหาที่ซับซ้อนมากๆ

 

  • Codeforces: เป็นการวัดระดับความสามารถในการแก้ปัญหาด้วย programming skill โดยผลจะวัดเป็น percentile ranking ของตัว model ยิ่งสูงยิ่งดี

 

  • GPQA Diamond: เป็นการวัดความเชี่ยวชาญในสาขาฟิสิกส์ เคมี และชีววิทยา โดยโจทย์สร้างจากผู้เชี่ยวชาญ ซึ่งหลังจากเอาไปให้ผู้เชี่ยวชาญคนอื่นๆ (ทั้งจบ ดร. และกำลังศึกษาอยู่)ในแต่ละ field ที่เชี่ยวชาญพบว่ามีความแม่นยำราวๆ 74%

 

  • MATH-500: เป็นชุดบททดสอบที่ OpenAI เองใช้ทดสอบโมเดล

 

  • MMLU: เป็นการทดสอบขีดความสามารถของโมเดลด้านความรู้รอบโลก และ การแก้ปัญหาของโมเดล เพราะบททดสอบมีทั้งประวัติศาสตร์ คณิตศาสตร์ วิทยาศาสตร์ นิติศาสตร์ สังคมศาสตร์ และอื่นๆ

 

  • SWE-bench Verified: เป็นการทดสอบการแก้ปัญหา software ของโมเดล แต่ต้องโน้ตไว้ก่อนว่าชุดทดสอบนี้ครอบคลุมแค่ opensource project ที่เขียนด้วย python เท่านั้น

 

จากผล benchmark ที่ออกมา DeepSeek-R1 นั้นมีความแม่นยำ หรือเราจะพูดง่ายๆว่าความฉลาด พอๆกับ OpenAI-o1 หรือก็คือ ChatGPT-o1 ที่เราเสียเงินใช้ทุกวันนี้นั่นเอง ว้าววว

 

แล้วยังมีอะไรน่าตื่นเต้นอีก? ความน่าสนใจจริงๆ คือการ design ตัว AI ที่เรียกได้ว่าดึงงานวิจัยมากมายมายำรวมกันทำให้ AI นอกจากจะฉลาดได้เท่ากับที่ o1 ทำได้แล้วยังลดทรัพยากรต้นทุนการใช้งาน AI ลงได้มาก โดยเมื่อเทียบเป็นเงินแล้วการใช้งาน DeepSeek-R1 ใช้เงินน้อยกว่า o1 ถึงราวๆ 27 เท่า เรียกได้ว่าเหมือนเก็บตังไว้จ่ายค่าเน็ตเฉยๆ

 

Stat image from DeepSeek official X account

 

Think Token ที่ทำให้ R1 แตกต่าง

 

เรื่องตื่นเต้นยังไม่จบแค่นั้น หลังจากลองดูผล benchmark แล้วยังมีอีกสิ่งนึงที่ทำให้ R1 แตกต่าง โดดเด่นออกไป

ผมจะพาทุกคนมาดูกระบวนการคิดของตัว R1 กันครับ โดยโจทย์ที่เราจะลองให้ R1 ลองแก้นั่นก็คือ P = NP ซึ่งเป็นสุดยอดปัญหาที่ยังหาคำตอบไม่ได้ในโลก Computer Science (ใครสามารถพิสูจน์ได้ว่า P เท่ากับ NP หรือไม่จะได้เงินรางวัล 1 ล้านดอลลาร์สหรัฐกันเลยทีเดียว)

โดย P ถ้าแปลแบบเข้าใจง่ายๆ แต่ไม่ถูกตามนิยามเท่าไหร่คือ ปัญหาที่ง่าย เช่นการหาเส้นทางที่สั้นที่สุด และ NP คือปัญหาที่ยาก เช่นการเข้ารหัสข้อมูล ซึ่งการหาว่า P = NP เนี่ยหมายความว่าเราสามารถแปลงวิธีการหาคำตอบของเส้นทางที่สั้นที่สุดไปตอบวิธีการถอดรหัสได้ การเข้ารหัสข้อมูลทั้งโลกก็อาจจะไม่ปลอดภัยอีกต่อไป

หลังจากที่ผมถามเจ้า R1 ไป คำตอบที่ได้อยู่ข้างล่างนี้เลยคร้าบบ R1 บอกว่า P ไม่ได้เท่ากับ NP ซักหน่อยแต่ว่าก็ยังคงเป็นข้อสรุปที่ยังรอการโต้แย้งอยู่

 

Explore DeepSeek-R1 with P=NP

 

และก็แน่นอนว่าเราคงไม่ได้คาดหวังให้มันตอบพิสูจน์อะไรให้เรา แต่สิ่งที่อยากให้ทุกคนสังเกตุดูคือ dropdown ที่บอกว่า “Thought for 110 seconds”

 

Explore DeepSeek-R1 with P=NP (continue1)

 

หลังจากกดที่ dropdown เราจะเห็นว่าก่อนที่ R1 จะตอบคำถามเรา ได้พ่นวิธีการคิดออกมาเหมือนกับกำลังสอบสัมภาษณ์เข้าทำงานยังไงยังงั้น

 

 

เราจะเห็นว่า R1 เนี่ยเริ่มจากตีความดูก่อนว่าโจทย์นี้คืออะไร P และ NP คืออะไร แล้วก็เริ่ม “ลองผิดลองถูก” ด้วยวิธีการปกติในการแก้โจทย์ NP คือหาวิธีการแปลงปัญหา NP ให้สามารถแก้ปัญหา NP อีกอันนึงได้ แต่เอ๊ะเหมือนว่าเราจะเห็นอะไร?

 

 

จากภาพข้างบน R1 มีการทบทวนกระบวนการคิดว่าเราสามารถแก้ปัญหาด้วย concept อื่นๆได้ด้วย และเนื่องจากปัญหานี้ค่อนข้างยากลำพังแค่ R1 อาจจะยังตอบคำถามไม่ได้ดีนัก แต่สิ่งที่เราได้เห็นคือเราสามารถดูกระบวนการคิดของ AI เพื่อช่วยให้เราตรวจสอบคำตอบง่ายขึ้น ซึ่งเป็นปัญหาที่พบบ่อยว่าบางครั้ง AI มันจะเกิดอาการหลอน และให้คำตอบเพี้ยนไปจากความจริง ซึ่งนี่คือ big win สำหรับคนที่นำ AI ช่วย research ได้ดีเลยทีเดียว ว้าวววอีกแล้วคร้าบบ

 

จากเท่าที่ลองเล่นคร่าวๆกับตัว DeepSeek-R1 มี potential ค่อนข้างมากที่จะช่วยขับเคลื่อนวงการ AI ทั้งเทรนด์การทำ research Agent หรือการ optimize model ทำให้น่าสนใจว่า Artificial General Intelligence หรือ AGI จะมาถึงเร็วขึ้นรึเปล่า และ OpenAI จะสามารถรีดศักยภาพ o3 ที่กำลังพัฒนาอยู่ให้ก้าวกระโดดไปอีกขั้นได้หรือไม่

 

ทั้งนี้ SCB TechX ได้นำความรู้ ความสามารถ และประสบการณ์การพัฒนา Software ขนาดใหญ่มาพัฒนาเป็นระบบ xPlatform (Platform DevOps as a Service) เพื่อให้การทำงานของนักพัฒนา Software เป็นอัตโนมัติ และลดต้นทุน

 

สนใจบริการโปรดติดต่อเราที่ contact@scbtechx.io

อ่านรายละเอียดเพิ่มเติมคลิก https://bit.ly/4c2GdZI

Related Content

  • ทั้งหมด
  • Blogs
  • Insights
  • News
    •   Back
    • Careers
    • Data Science
    • Lifestyle
    • Product
    • Strategy
    • Technology
    • User Experience
    • xPlatform
    • DevOps
    •   Back
    • PointX Products
    • Events
    • Others
    • Leadership
    • Partnership
    • Services & Products
    • Joint ventures
    •   Back
    • Blockchain
    • Finance
    • Tech innovation

Your consent required

If you want to message us, please give your consent to SCB TechX to collect, use, and/or disclose your personal data.

| การเพิกถอนความยินยอม

หากคุณต้องการเพิกถอนการให้ความยินยอมในการเก็บรวบรวม ใช้ และ/หรือเปิดเผยข้อมูลส่วนบุคคล กรุณาส่งคำร้องหาเรา

Vector

Message sent

We have receive your message and We will get back to you shortly.