ความสามารถของโมเดลเอไอล่าสุด เทียบเท่ามนุษย์และ AGI หรือยัง?

ธนชาติ นุ่มนนท์

ผมยังติดตามและทดลองใช้โปรแกรมเอไอใหม่ๆ อยู่ตลอดเวลา สิ่งที่พบก็คือ มีการเปิดตัวโมเดลเอไอใหม่ๆ โดยเฉพาะทางด้านภาษาขนาดใหญ่ (LLM) ในรูปแบบเดียวกับ ChatGPT ออกมาจำนวนมาก โดยมีความสามารถสูงขึ้นอย่างต่อเนื่อง

ผมยังติดตามและทดลองใช้โปรแกรมเอไอใหม่ๆ อยู่ตลอดเวลา สิ่งที่พบก็คือ มีการเปิดตัวโมเดลเอไอใหม่ๆ โดยเฉพาะทางด้านภาษาขนาดใหญ่ (LLM) ในรูปแบบเดียวกับ ChatGPT ออกมาจำนวนมาก โดยมีความสามารถสูงขึ้นอย่างต่อเนื่องจากบริษัทเอไอชั้นนำ เช่น OpenAI, Google, Anthropic และ xAI

โมเดลเหล่านี้ไม่เพียงแต่มีความสามารถทางภาษาที่ซับซ้อนขึ้น แต่ยังรวมความสามารถในการประมวลผลข้อมูลหลายรูปแบบ (Multimodality) เข้าไว้ด้วยกัน ทำให้โมเดลสามารถวิเคราะห์และสร้างสรรค์เนื้อหาที่ผสมผสานทั้งข้อความ รูปภาพ เสียง และวิดีโอได้อย่างมีประสิทธิภาพ

การเปิดตัวโมเดลใหม่เกิดขึ้นอย่างรวดเร็ว เช่น การอัปเกรดจาก Claude 3.5 เป็น 3.7 ภายในเวลาไม่กี่เดือนหรือการที่ Google เปิดตัว Gemini 2.5 ตามหลัง 2.0 ไม่นานรวมถึงการที่ OpenAI ปล่อยเวอร์ชั่นใหม่ ของ GPT-4o และเปิดตัว GPT o-series ความเคลื่อนไหวเหล่านี้สะท้อนให้เห็นถึงการแข่งขันที่ดุเดือดในตลาด LLM บริษัทเทคโนโลยีต่างๆ กำลังเร่งพัฒนาและนำเสนอคุณสมบัติใหม่ๆ ที่สามารถสร้างความแตกต่างได้ในปัจจุบัน

โมเดลต่างๆ ไม่ได้แข่งขันกันเพียงแค่ความสามารถทางภาษาพื้นฐานอีกต่อไป แต่เริ่มสร้างความแตกต่างด้วยความสามารถเฉพาะทาง เช่น Grok สามารถใช้ประโยชน์จากข้อมูลเรียลไทม์บนแพลตฟอร์ม X หรือ Claude เน้นความโปร่งใสของกระบวนการคิดผ่าน “Thinking Mode” หรือการที่ Gemini และ ChatGPT เปิดตัวเอเจนต์ในการทำวิจัยเชิงลึก (Deep Research) โดยเฉพาะ

นอกจากนี้ การบูรณาการเข้ากับระบบนิเวศที่มีอยู่ก็เป็นปัจจัยสำคัญ เช่น การผสาน Gemini เข้ากับ Google Workspaceและการที่ Anthropic เน้นการทำงานร่วมกับพันธมิตรอย่าง Slack และ Salesforceสิ่งนี้แสดงให้เห็นถึงการเปลี่ยนแปลงจากการเป็นเพียง Chatbot ทั่วไป ไปสู่การเป็นผู้ช่วยเอไอเฉพาะทางหรือเอเจนต์ที่ช่วยในการทำงานของผู้ใช้งาน

เราจะเห็นปรากฏการณ์และความสามารถที่เพิ่มขึ้นของโมเดล LLM อย่างต่อเนื่อง เช่น ช่วงเดือนที่ผ่านมาคนหลายคนตื่นเต้นกับ ChatGPT ที่ออกโมเดลรุ่นใหม่ที่สามารถสร้างและแต่งภาพได้ กลายเป็นไวรัลลบนโลกออนไลน์ ที่กำลังสร้างความฮือฮาในหมู่แฟนๆ ภาพสไตล์อนิเมะ Ghibliผู้ใช้งานจำนวนมากต่างพากันนำภาพต่างๆ ไม่ว่าจะเป็นภาพถ่ายส่วนตัว ภาพครอบครัวมาปรับแต่ง

ล่าสุด มีโมเดล GPT-o3 เปิดตัวมาให้ใช้งาน และบอกว่ามีความสามารถด้านการวิเคราะห์รูป ผมลองนำรูปภาพที่ถ่ายจากการไปดูฟุตบอลคู่หนึ่งเมื่อหลายปีก่อนโหลดขึ้นไปในระบบให้ระบบทำการวิเคราะห์ และตั้งคำถามว่า “จากรูปนี้ช่วยวิเคราะห์ให้หน่อยได้ไหมว่า สนามฟุตบอลนี้คือที่ไหน และทีมชาติอะไรกำลังแข่งกันอยู่” ผมจำไม่ได้ด้วยซ้ำว่าแข่งวันไหน แข่งกับใคร แต่ดูขั้นตอนวิเคราะห์เขาทำยังกับการสืบสวนในหนัง เอาภาพถ่ายมาซูมดูทีละเฟรมหลายๆ ส่วน แล้วก็วิเคราะห์ดูว่าคืออะไร

เช่น สรุปว่าเป็นสนามราชมังคลากีฬาสถานเพราะเห็นลักษณะและสีเก้าอี้บนอัฒจันทร์ สรุปว่าเป็นทัวร์นาเมนต์ไหนเพราะเห็นป้ายโฆษณาสองป้าย สามารถสรุปได้ว่าเป็นทีมชาติใดแข่งขันกันโ ดยวิเคราะห์จากชุดแข่งและแบบฟอนต์บนเสื้อ และสุดท้ายระบบไปค้นข้อมูลจากสื่อหนังสือพิมพ์ออนไลน์มาตอบอีกว่า คู่นี้แข่งเมื่อวันที่เท่าไร ผลการแข่งขันเป็นอย่างไร ผมจึงต้องกลับไปค้นข้อมูลดูเองว่าถูกต้องหรือไม่ ซึ่งไม่น่าเชื่อครับว่า เขาวิเคราะห์ได้ถูกต้องและเก่งกว่าคนหลายคนมาก

อีกตัวอย่างหนึ่งที่ได้ทดลองทำคือ การใช้ Gemini Deep Research เขียนบทความเจาะลึกแบบสื่อหนังสือพิมพ์โดยสั่งให้ระบบสร้างบทวิเคราะห์เจาะลึกประวัติทางกาารเมืองของครอบครัวนักการเมืองบ้านใหญ่ในจังหวัดหนึ่ง ผลลัพธ์ที่ได้คือ บทวิเคราะห์ยาวสิบกว่าหน้า ที่เล่าถึงประวัติ ความสัมพันธ์ของกลุ่มการเมืองต่างๆ พร้อมทั้งแหล่งอ้างอิงที่ชัดเจนเกือบร้อยแหล่ง ซึ่งผมแทบไม่เคยเห็นสื่อหนังสือพิมพ์ใดจะสามารถเขียนเจาะลึกได้เช่นนี้

แม้แต่การทำตัวเป็นนักวิเคราะห์หุ้นการลงทุนต่างๆ ผมก็นำ Deep Research มาใช้เพื่อให้เขียนบทวิเคราะห์และทำการประเมินโดยรวมว่าเป็นบวกหรือลบ พร้อมทั้งให้ข้อเสนอแนะการลงทุนว่า ควรซื้อ/ขาย/ถือไว้ ระบบทำได้ดีมากจนน่าประหลาดใจ

ความสามารถของโมเดล LLM ที่เก่งขึ้นอย่าง GPT-o3 หรือ Gemini จึงทำให้ผู้คนเริ่มมีคำถามว่าโมเดลเหล่านี้มีความสามารถเท่าเทียมมนุษย์แล้วหรือยัง หมายถึง Artificial General Intelligence(AGI) ที่มีความสามารถทางปัญญาเทียบเท่าระดับมนุษย์ในงานที่หลากหลาย สามารถเรียนรู้ ให้เหตุผล และปรับตัวได้เหมือนมนุษย์ ซึ่งแตกต่างจากเอไอแบบเดิมที่ออกแบบมาสำหรับงานเฉพาะทาง

แต่การประเมินว่าโมเดลเอไอใดบรรลุถึงระดับ AGI นั้นไม่ใช่เรื่องง่าย เนื่องจากไม่มีหลักเกณฑ์ที่เป็นที่ยอมรับอย่างเป็นทางการ อย่างไรก็ตาม มีหลักเกณฑ์ทั่วไปที่มักใช้ในการพิจารณาคือ มีความสามารถในการทำงานที่หลากหลายไม่จำกัดเฉพาะด้านใดด้านหนึ่ง มีความสามารถในการเรียนรู้ทักษะใหม่ๆ โดยไม่ต้องฝึกฝนเฉพาะทางเพิ่มเติม มีความสามารถในการให้เหตุผล มีความเข้าใจบริบทและความหมายแฝงในการสื่อสาร มีความคิดสร้างสรรค์ มีความสามารถในการสร้างสรรค์แนวคิดหรือวิธีการใหม่ๆ และมีความสามารถในการปรับตัวเข้ากับสถานการณ์ใหม่ๆ ที่ไม่เคยพบมาก่อน

นอกจากนี้ยังมีข้อสอบ ARC-AGI ซึ่งเป็นชุดทดสอบวัดไอคิวที่ได้รับการยอมรับว่ายากมากสำหรับโมเดลเอไอ เพื่อประเมินความสามารถเมื่อเทียบกับมนุษย์ การทดสอบ ARC-AGI เป็นการทดสอบที่ต้องทำความเข้าใจกฎของแต่ละปัญหาโดยไม่ซ้ำกันในแต่ละข้อ ซึ่งต้องอาศัยความสามารถในการคิดวิเคราะห์และให้เหตุผลที่สูงมาก โดยข้อมูลล่าสุดระบุว่า GPT-o3 สามารถทำคะแนนในการทดสอบ ARC-AGI ได้สูงถึง 87.5% ซสูงกว่าคะแนนเฉลี่ยของมนุษย์ที่ทำได้ประมาณ 85%

อย่างไรก็ตาม แม้ว่า GPT-o3 จะทำคะแนนได้สูงกว่าคะแนนเฉลี่ยของมนุษย์ แต่ผู้พัฒนาข้อสอบ ARC-AGI เองได้ระบุอย่างชัดเจนว่า การผ่านการทดสอบนี้ไม่ได้หมายความว่า GPT-o3 เป็น AGI แล้ว และยังยืนยันว่า GPT-o3 ยังไม่ใช่ AGI เนื่องจากยังล้มเหลวในงานที่ง่ายมากบางอย่าง ซึ่งแสดงให้เห็นถึงความแตกต่างขั้นพื้นฐานระหว่าง GPT-o3 กับความฉลาดของมนุษย์ นอกจากนี้ ข้อมูลเบื้องต้นยังบ่งชี้ว่า GPT-o3 ไม่ผ่านการทดสอบ ARC-AGI-2 ที่มีความยากมากขึ้น โดยอาจทำคะแนนได้ต่ำกว่า 30%

สำหรับ Gemini 2.5 แม้จะมีความสามารถในด้านการคิดและให้เหตุผลก่อนตอบสนอง ซึ่งเป็นคุณสมบัติสำคัญของ AGI แต่ยังไม่มีข้อมูลที่แสดงว่า Gemini 2.5 สามารถเรียนรู้อย่างต่อเนื่องโดยไม่ต้องได้รับการฝึกฝนเพิ่มเติม หรือปรับตัวเข้ากับสถานการณ์ใหม่ๆ ได้อย่างไร้ขีดจำกัด

จากการวิเคราะห์โมเดล LLM ล่าสุดทั้งหมด สามารถสรุปได้ว่า แม้จะมีความก้าวหน้าอย่างน่าทึ่ง แต่โมเดลเหล่านี้ยังไม่บรรลุถึงระดับ AGI ที่แท้จริง Generative AI ที่ได้รับการพัฒนาขึ้นมาในปัจจุบันยังมีข้อจำกัดในหลายด้าน โดยเฉพาะด้านความสามารถในการปรับตัว การเรียนรู้อย่างต่อเนื่อง และความเข้าใจเชิงนามธรรมที่ลึกซึ้ง

เทคโนโลยีเอไอ ยังคงพัฒนาอย่างรวดเร็ว และเป็นไปได้ว่าในอนาคตอันใกล้ เราอาจได้เห็นโมเดลที่เข้าใกล้ความเป็น AGI มากขึ้น แต่ในปัจจุบัน ณ เดือนเมษายน 2025 นี้ ยังไม่มีโมเดลใดที่บรรลุถึงระดับ AGI อย่างสมบูรณ์ ซึ่งผู้เชี่ยวชาญหลายคนยังบอกว่าคงใช้เวลาอีกนานหลายปี

ธนชาติ นุ่มนนท์