ภาษามนุษย์กับโมเดลภาษาที่ขับเคลื่อน Gen AI | Now and Beyon

ภาษามนุษย์กับโมเดลภาษาที่ขับเคลื่อน Gen AI | Now and Beyon

ปัญญาประดิษฐ์เชิงสร้างสรรค์ (Generative Artificial Intelligence: Gen AI) มีความก้าวหน้าอย่างมหาศาล เริ่มจากโครงข่ายประสาทเทียมเชิงลึก (deep neural networks) และเทคโนโลยีการจดจำภาพ (image recognition)

ผนวกเข้ากับชุดข้อมูลขนาดใหญ่ที่มีการกำกับ (เพื่ออธิบายชุดข้อมูลดิบในการฝึกฝน (train) โมเดลการเรียนรู้) ตามด้วยการสร้างโมเดลภาษาแบบไม่มีผู้สอน นำไปสู่ ChatGPT ในปี 2565 ซึ่งเป็นอินเทอร์เฟซ (การเชื่อมต่อที่ทำให้ระบบหรือแอปพลิเคชันต่าง ๆ (APIs) สามารถสื่อสารกันได้)

แบบโต้ตอบสนทนาที่ใช้โมเดลภาษาขนาดใหญ่ และล่าสุด ChatGPT-5 ที่เพิ่งเปิดตัวไป

โมเดลภาษาขนาดใหญ่ (Large Language Models หรือ LLMs) คือ Gen AI ที่ฝึกฝนจากข้อมูลจำนวนมหาศาล (Big Data) ผ่านโมเดลการเรียนรู้ ทำให้ประมวลผลข้อมูล เข้าใจ และผลิตภาษามนุษย์ได้

LLMs ที่รู้จักกันดี เช่น ChatGPT และ Gemini ส่วนใหญ่สามารถสกัดข้อมูล เขียน-แปลงข้อความ วิเคราะห์-สรุปข้อความ แปลภาษา จึงมีบทบาทในเชิงธุรกิจและบริการ เช่น การตอบคำถาม การแก้ปัญหาเบื้องต้น

อย่างไรก็ดีการรู้คิด (cognition) ในมนุษย์และสัตว์ คือ กระบวนการทางสมองที่รวมถึงภาษา (ในมนุษย์) การใช้ความคิด-เหตุผล การเรียนรู้ การแก้ไขปัญหา ฯลฯ ภาษามนุษย์มีความหลากหลายและแปรไปตามสถานการณ์

เป็นเหตุให้ LLMs สมัยใหม่ต้องทำงานกับชุดข้อมูลการฝึกฝนที่หลากหลายและสมจริง เพื่อจะสามารถจำลองการเรียนรู้ของมนุษย์ได้ในระดับที่ไม่เคยมีมาก่อนและอาจนำไปสู่การพัฒนาโมเดลเชิงปัญญาและการรู้คิดในอนาคต (โมเดลทาง AI ไม่ได้เป็นโมเดลเชิงปัญญาทั้งหมด)

ขณะนี้จึงมีข้อถกเถียงกันว่าโมเดลเหล่านี้สามารถอธิบายกลไกการเรียนรู้ภาษาของมนุษย์ได้มากน้อยเพียงใด โดยเฉพาะภาษาในเด็กเล็ก ในขั้นที่จะนำมาเปรียบเทียบกันโดยตรงผู้เชี่ยวชาญเสนอว่าโมเดลต้องออกแบบอย่างรอบคอบ

การฝึกฝนและการประเมินผลควรสอดคล้องกับธรรมชาติของการเรียนรู้และประมวลผลภาษาในมนุษย์ซึ่งมีประเด็นสำคัญดังนี้

รูปแบบและหน้าที่

ดูเผิน ๆ ภาษามนุษย์และผลลัพธ์ของ LLMs มีความคล้ายคลึงกัน แต่วิธีการแตกต่างกัน LLMs ส่วนใหญ่ออกแบบมาเพื่อเลียนแบบพฤติกรรมการเขียนของมนุษย์ แม้ว่าจะทำได้อย่างน่ามหัศจรรย์ แต่กลไกพื้นฐานยังมีความจำกัดในบริบทที่ละเอียดอ่อน (nuance) ในการปฏิสัมพันธ์อย่างเป็นธรรมชาติ

และการจัดการกับความหลากหลายทางภาษา ภาษาในเผ่าพันธุ์มนุษย์มีที่มาจากการเปล่งเสียง การพูด และการใช้มือโต้ตอบแบบเผชิญหน้ากัน ซึ่งมีมาอย่างน้อยหลายแสนปีก่อนจะมีภาษาเขียนขึ้น 

ภาษาของมนุษย์จึงไม่ได้เป็นเพียงข้อความและภาษาเขียน แต่ครอบคลุมทั้งภาษาพูด ภาษามือ การใช้ท่าทาง การปฏิสัมพันธ์ และการสร้างความหมายร่วมกันผ่านระบบภาษาในหลายระดับ 

ในการตีความหรือสร้างคำพูดของ LLMs เชื่อมโยงกับโมเดลการรู้จำเสียงพูดอัตโนมัติที่โดยหลักขึ้นอยู่กับประสิทธิภาพของการถอดหรือแปลงคำพูดเป็นข้อความมาก่อน ส่วนการตีความด้านความหมายของ LLMs ก็เป็นระบบความหมายที่ต่างกับระบบของมนุษย์ซึ่งมีลักษณะเชิงสัญศาสตร์

อันประกอบด้วยรูปแบบ ความหมาย และการเชื่อมโยงระหว่างกัน รวมถึงความสัมพันธ์กับสิ่งต่าง ๆ ในโลกแห่งความเป็นจริง

รูปแบบข้อมูลรับเข้า

ข้อมูลภาษาส่วนใหญ่ที่ใช้ฝึก LLMs มาจากข้อความทางอินเทอร์เน็ต แม้มีจำนวนมากแต่ก็มีความจำกัดและเป็นเพียงส่วนย่อยของภาษาต่าง ๆ ในโลก ข้อความทางอินเทอร์เน็ตโน้มเอียงไปกับข้อมูลบางลักษณะ เพราะมาจากผู้ใช้ภาษาที่มีระบบภาษาเขียน

เช่น ภาษาอังกฤษ รวมถึงมาจากกลุ่มคนที่สามารถเข้าถึงอินเทอร์เน็ตได้ สังเกตได้ว่าแม้ในปัจจุบันมีภาษาร่วม 7 พันกว่าภาษา แต่ภาษาที่มีภาษาเขียนมีจำนวนมากกว่าครึ่งหนึ่งเพียงเล็กน้อยเท่านั้น

เมื่อ LLMs ได้รับการฝึกฝนจากข้อมูลภาษาเขียนจำนวนมาก จึงแตกต่างจากการเรียนรู้ภาษาของเด็กเล็กที่เป็นการพูดโต้ตอบ เด็กเล็กได้รับข้อมูลภาษาหลากหลายรูปแบบ ทั้งเสียง ภาพ และ ท่าทาง-การเคลื่อนไหว

ปัจจุบันจึงมีแนวทางให้ LLMs ได้ฝึกกับชุดข้อมูลในลักษณะเดียวกัน รวมทั้งใช้การปฏิสัมพันธ์เพื่อสร้างการเชื่อมโยงระหว่างภาพและข้อความ รวมถึงข้อมูลจากรูปแบบอื่น ๆ ได้

ปริมาณข้อมูลรับเข้า

เชื่อกันว่า GPT-3 ซึ่งถือเป็นโมเดลแรก ได้รับการฝึกฝนด้วยข้อมูลประมาณ 400 พันล้านคำ ในขณะที่เด็กเล็กน่าจะได้รับข้อมูลด้านภาษา (language input) น้อยกว่า 10 ล้านคำต่อปี

ความแตกต่างในเชิงปริมาณนี้มีนัยสำคัญและนำไปสู่งานวิจัยที่พยายามรวบรวมและประเมินผลข้อมูลภาษาที่เด็กเล็กได้รับ (เป็นโครงการวิจัยที่มีรายละเอียดและใช้ทรัพยากรมาก) 

นักวิชาการแสดงความเห็นว่าข้อมูลนี้มีรูปแบบที่หลากหลาย อาจไม่สามารถวัดปริมาณด้วยจำนวน “คำ” หรือ “ประโยค” เพราะเรายังขาดความเข้าใจอย่างถ่องแท้เกี่ยวกับปริมาณและมูลค่าของข้อมูลรับเข้า ในทางกลับกันความเข้าใจนี้จะมีความสำคัญต่อการพัฒนารูปแบบข้อมูลที่ใช้ฝึกฝน LLMs

โดยสรุป ภาษามนุษย์เป็นพฤติกรรมที่ซับซ้อนและเชื่อมโยงกับกลไกการรู้คิด ส่วน LLMs ยังมีฐานะเป็นเครื่องมือ ไม่ใช่ทฤษฎีการรู้คิด หรือทฤษฎีทางภาษา แต่มีความคล้ายคลึงในเชิงหน้าที่กับภาษาเขียน ในการตอบคำถาม สร้างข้อความใหม่ ๆ ที่มีความหมายและโครงสร้างได้อย่างถูกต้อง 

อย่างไรก็ดี ผู้ใช้ต้องมีวิจารณญาณ พึงระวังว่า LLMs มีข้อจำกัดในการตีความ-ใช้เหตุผล ในการให้ข้อมูลที่ละเอียดอ่อนและอาจนำไปสู่ข้อมูลที่มีอคติหรือผิดพลาด โดยเฉพาะการประมวลข้อมูลที่ไม่สมบูรณ์ หรือไม่สอดคล้องกัน

แม้ว่าโมเดลการเรียนรู้ของ LLMs จะมีความแตกต่างจากกลไกการเรียนรู้ภาษาของเด็ก แต่ทั้งคู่ก็แสดงให้เห็นว่าการเรียนรู้จากข้อมูลที่จำกัดนั้นเกิดขึ้นได้ และความสัมพันธ์ระหว่างข้อมูลรับเข้า-ผลลัพธ์ ปรากฏได้ในหลายรูปแบบ 

(อ้างอิง Frank. Trends in Cognitive Sciences (2023), Cushley, et al. Open Mind (2024), Frank & Goodman. PsyArXiv (2025) และ Sornlertlamvanich. Knowledge and Information Systems (2025))