AI ฉลาดเกินมนุษย์? พัฒนาการล่าสุด ChatGPT, Gemini และ Claude

ตอนที่ ChatGPT ออกมาเมื่อปลายปี 2565 ผู้คนตื่นเต้นกันมากที่เห็น Generative AI (Gen-AI) สามารถสร้างเนื้อหาต่างๆ ได้อย่างน่ามหัศจรรย์ และมีการทดสอบพบว่า ChatGPT มีความสามารถที่โดดเด่นในการทำคะแนนสูงในการทดสอบด้าน IQ และทำได้ดีกว่ามนุษย์ในบางงาน

ตอนที่ ChatGPT ออกมาเมื่อปลายปี 2565 ผู้คนตื่นเต้นกันมากที่เห็น Generative AI (Gen-AI) สามารถสร้างเนื้อหาต่างๆ ได้อย่างน่ามหัศจรรย์ และมีการทดสอบพบว่า ChatGPT มีความสามารถที่โดดเด่นในการทำคะแนนสูงในการทดสอบด้าน IQ และทำได้ดีกว่ามนุษย์ในบางงาน เช่น สามารถที่จะสอบผ่านข้อสอบด้านบัญชี CPA ข้อสอบด้านกฎหมาย หรือข้อสอบใบอนุญาตประกอบวิชาชีพแพทย์ของสหรัฐอเมริกา (USMLE)

ChatGPT เป็นโมเดลภาษาขนาดใหญ่ (Large Language Model -LLM) โดยโมเดลที่ใช้ในตอนแรกชื่อว่า GPT-3.5 ซึ่งถูกสร้างมาจากอัลกอริทึม Deep Learning ที่มีความซับซ้อน และจะใช้ข้อมูลขนาดใหญ่จากหลายแหล่ง หลายภาษาในการเทรนด้วยเครื่องคอมพิวเตอร์ขนาดใหญ่ โดย GPT-3.5 มีความสามารถทางด้านภาษาอังกฤษออกมาได้ดีทีเดียว และภาษาไทยก็อยู่ในระดับที่ดีพอใช้

หลังจากนั้นประมาณเดือนมีนาคม ปีถัดมา (พ.ศ. 2566) ChatGPT ก็เปิดตัวโมเดลใหม่คือ GPT-4 ซึ่งมีอัลกอริทึมที่ดีกว่า GPT-3.5 และการทดสอบก็พบว่า การทำข้อสอบต่างๆ เช่น ข้อสอบเพื่อขอใบอนุญาตทนายความในสหรัฐอเมริกา ได้คะแนนเพิ่มเป็น 298 จากคะแนนเต็ม 400 จากเดิมที่ GPT-3.5 เคยทำได้ 213 คะแนน

ส่วนการทำข้อสอบคณิตศาสตร์ SAT ได้คะแนน 700 จากคะแนนเต็ม 800 จากเดิมที่ GPT-3.5 เคยทำได้ 670 คะแนน นอกจากนี้ยังมีการทดสอบมาตรฐาน MMLU (ความรู้ระดับปริญญาตรี) ด้วยภาษาอังกฤษพบว่า GPT-4 ทำได้ 85.5% เหนือกว่า GPT-3.5 ที่ทำได้ 70.1% หรือแม้แต่ GPT-4 ถ้าทำด้วยภาษาไทยก็ได้ 71.8% สูงกว่า GPT-3.5 ภาษาอังกฤษ

บริษัทเทคโนโลยีรายใหญ่หลายบริษัทต่างแข่งกันการพัฒนาโมเดลภาษาขนาดใหญ่ สำหรับ Gen-AI เมื่อปี 2566 บริษัท Google ได้ประกาศตัวโมเดล Gemini Pro และ Gemini Ultra ออกมา ซึ่งมีความโดดเด่นในการทำงานหลากหลายโหมด รวมถึงข้อความ ภาพ เสียง และวิดีโอ และจากการทดสอบทางวิชาการพบว่า Gemini Ultra มีความสามารถที่ดีในหลายด้าน โดยได้คะแนนรวม 62.4% เมื่อเทียบกับ GPT-4 ที่ได้คะแนน 56.8%

ล่าสุดบริษัท Anthropic ที่ได้รับเงินสนับสนุนมาจากบริษัท Amazon ได้เปิดตัวโมเดล LLM ตัวใหม่ชื่อ Claude-3 ซึ่งอัลกอริทึมมีความซับซ้อนยิ่งขึ้น และจำนวนพารามิเตอร์ที่เพิ่มขึ้น โดย Anthropic ระบุว่าการทดสอบ Claude-3 เมื่อเทียบกับ GPT-4 และ Gemini Ultra ในการทำข้อสอบมาตรฐานต่างๆ เช่น MMLU, GSM8K, HumanEval และ HellaSwag พบว่า Claude-3 ทำคะแนนได้สูงกว่าในทุกการทดสอบ

อย่างไรก็ตาม นักวิจัยเอไอบางท่านแนะนำว่าอย่าเพิ่งสรุปประสิทธิภาพของโมเดลจากผลการทดสอบเหล่านี้ทั้งหมด เพราะคะแนนอาจไม่สะท้อนประสบการณ์การใช้งานจริง

นอกจากนี้มีบทความที่ลงในเว็บ Maximum Truth ที่ได้ทำการทดสอบโมเดล Gen-AI หลายตัวโดยการใช้แบบทดสอบ IQ ของ Mensa ประเทศนอร์เวย์ โดยการอธิบายคำถามด้วยคำพูดแทนภาพ ผลปรากฏว่า Claude-3 ทำคะแนนได้ดีที่สุด โดยตอบถูกเฉลี่ย 19.5 ข้อ จาก 35 ข้อ คิดเป็น IQ ประมาณ 101 ซึ่งเป็นก้าวกระโดดอย่างมากเมื่อเทียบกับ Gen-AI ตัวอื่นๆ

ส่วน GPT-4 ตามมาเป็นอันดับสอง มี IQ 85 และ Gemini มี IQ 77.5 ขณะที่ตัวอื่นๆ เช่น Llama-2 ของบริษัท Meta มี IQ ต่ำกว่า 70 ทั้งนี้บทความดังกล่าวคาดการณ์ว่าหาก Anthropic ยังคงพัฒนา Claude ในอัตราเดิม เราอาจเห็น Gen-AI ที่มี IQ 120 ในอีกหนึ่งปี และ IQ 140 ในอีก 2-3 ปีข้างหน้า

ผมเองได้มีโอกาสใช้โมเดล LLM ทั้งสามตัวคือ GPT-4, Gemini Ultra และ Claude-3 และได้ทดสอบประสิทธิภาพในการใช้ภาษาไทย พบว่าทั้งสามตัวทำงานได้ดีทีเดียว แต่ก็เห็นคล้ายกับผลทดสอบของต่างประเทศว่าโมเดล Claude-3 มีความโดดเด่นกว่าตัวอื่น โดยเฉพาะในการเขียนภาษาไทยที่สามารถสร้างเนื้อหาได้ดีมาก ข้อความคล้ายกับสำนวนที่เราเขียน นอกจากนี้ยังสามารถทำ OCR (Optical Character Recognition) อ่านข้อความภาษาไทยจากรูปภาพ รวมถึงอ่านไฟล์เอกสารภาษาไทยได้เป็นอย่างดี

นอกจากนี้ผมยังได้ทดสอบให้ Gen-AI ทั้งสามตัวทำข้อสอบ O-Net วิชาคณิตศาสตร์ ระดับชั้นมัธยมศึกษาปีที่ 3 ปีการศึกษา 2565 ที่เป็นภาษาไทยโดยเลือกข้อสอบปรนัย 16 ข้อ ที่มีทั้งข้อความ สมการคณิตศาสตร์ รูปภาพ และกราฟประกอบ ซึ่งผลการทดสอบ พบว่า Claude 3 ทำคะแนนได้ดีที่สุด โดยได้คะแนน 10 จาก 16 และ ส่วน Gemini Ultra ได้คะแนนอยู่ที่ 8 จาก 16 แม้จะดูคะแนนไม่สูงนักแต่เมื่อมาดูคะแนนเฉลี่ยข้อสอบ O-Net วิชาคณิตศาสตร์ ม.3 ในปี 2565 พบว่ามีแค่ 24.39% ก็สะท้อนให้เห็นว่า Gen-AI บางตัวทำข้อสอบได้ดีกว่าเด็กจำนวนมากแล้ว

ผมเองยังทดลองให้มาทำข้อสอบวิทยาศาตร์ภาษาไทย แต่พบว่ายังทำได้ไม่ดีนัก คาดว่าเป็นเพราะข้อมูลวิทยาศาสตร์ภาษาไทยที่ถูกนำมาเทรนยังมีไม่มากนัก เพราะตอนแรกตั้งใจจะให้ทำข้อสอบ ม.ปลาย แต่พอทดสอบดูแล้ว Gen-AI ทั้งสามยังทำไม่ได้ดี ผมจึงลดลำดับชั้นมาเหลือแค่ทำข้อสอบชั้นประถมต้น โดยเลือกทำข้อสอบปรนัย 35 ข้อ ผลการทดสอบพบว่า Gemini Ultra ทำคะแนนได้ดีที่สุด ได้ 23 จาก 35 ตามมาด้วย GPT-4 ทำได้ 18 จาก 35 แต่ต้องอาศัยเครื่องมืออื่นในการทำ OCR ภาษาไทย ส่วน Claude-3 คะแนนต่ำสุด สอบตกได้เพียง 14 จาก 35

โดยภาพรวมเราจะเห็นได้ว่า บริษัทเทคโนโลยีรายใหญ่ต่างก็เร่งพัฒนาประสิทธิภาพของโมเดลเอไอเพิ่มขึ้นไปเรื่อยๆ และก็เริ่มเก่งขึ้นอย่างรวดเร็วในหลายๆ ด้าน หลายอย่างมีความสามารถเหนือมนุษย์ และเริ่มมี IQ ที่ดีขึ้น ซึ่งการทดสอบโมเดลใหม่ๆ จะเห็นสัญญาณว่าในอนาคต AI อาจมีความสามารถที่ล้ำหน้ายิ่งขึ้นได้อีก ดังนั้นในอีกไม่กี่ปีข้างหน้า น่าจะส่งผลกระทบต่อสังคมอย่างมหาศาล