'Google' เปิดตัว 'Gemini 3' เก่งรอบด้าน ฉลาดสุดเท่าที่เคยมีมา

โต๊ะข่าวไอที ดิจิทัล

มาแล้ว "Gemini 3" Google เผยเป็นโมเดลที่ฉลาดที่สุดเท่าที่เคยมีมา โดดเด่นทั้งการให้เหตุผลระดับสูง เข้าใจตัวอักษร ภาพ และเสียง ทั้งยังทำให้การเขียนโค้ดของนักพัฒนาง่ายขึ้น

กูเกิล (Google) ประกาศเปิดตัว Gemini 3 อย่างเป็นทางการ โดยระบุว่า เป็นโมเดลที่ฉลาดที่สุดเท่าที่เคยมีมา ถูกออกแบบมาเพื่อช่วยให้ผู้ใช้สามารถ "เปลี่ยนทุกความคิดให้เป็นจริง" โดยการรวมความสามารถทั้งหมดของ Gemini เข้าไว้ด้วยกัน

โมเดลรุ่นใหม่นี้โดดเด่นด้วยความสามารถในการให้เหตุผลระดับสูง การเข้าใจตัวอักษร ภาพ และเสียง ขณะเดียวกันเอื้อให้การเขียนโค้ดของนักพัฒนาทำได้ง่ายมากขึ้น

ซุนดาร์ พิชัย ซีอีโอของ Google และ Alphabet เผยว่า ปัจจุบัน AI Overviews มีผู้ใช้ 2 พันล้านคนต่อเดือน แอป Gemini มีผู้ใช้มากกว่า 650 ล้านคนต่อเดือน ลูกค้าคลาวด์มากกว่า 70% ใช้ กูเกิล AI

ความสำเร็จนี้เกิดจากแนวทางแบบฟูลสแตกที่แตกต่างสำหรับนวัตกรรม AI ตั้งแต่โครงสร้างพื้นฐานชั้นนำ งานวิจัย โมเดล และเครื่องมือระดับโลก ไปจนถึงผลิตภัณฑ์ที่เข้าถึงผู้คนหลายพันล้านคนทั่วโลก

ความสามารถหลัก

การให้เหตุผล : Gemini 3 มีความสามารถในการให้เหตุผลที่ล้ำสมัย (state-of-the-art reasoning) และถูกสร้างขึ้นเพื่อทำความเข้าใจความลึกซึ้ง และรายละเอียดปลีกย่อย ไม่ว่าจะเป็นการรับรู้เบาะแสที่ละเอียดอ่อนในความคิดสร้างสรรค์ หรือการแยกแยะชั้นของปัญหาที่ยากลำบาก
Deep Think Mode : โหมด Gemini 3 Deep Think ถูกนำเสนอเพื่อผลักดันขีดจำกัดของความฉลาดให้ก้าวหน้ายิ่งขึ้น โดยจะมอบการเปลี่ยนแปลงขั้นสูงในความสามารถด้านการให้เหตุผล และความเข้าใจแบบหลายรูปแบบ (multimodal understanding) ของ Gemini 3 เพื่อช่วยแก้ปัญหาที่ซับซ้อนยิ่งขึ้น
ความเข้าใจในบริบท : Gemini 3 สามารถทำความเข้าใจบริบท และความตั้งใจที่อยู่เบื้องหลังคำขอได้ดีขึ้นมาก ทำให้ได้สิ่งที่ต้องการโดยไม่ต้องมีคำสั่งที่ซับซ้อนมากนัก

การเปิดตัว Gemini 3 ถือเป็นก้าวสำคัญอีกขั้นบนเส้นทางสู่ AGI ซึ่งทางกูเกิลเชื่อมั่นว่า Gemini 3 เป็นโมเดลที่ดีที่สุดในโลกสำหรับการทำความเข้าใจแบบมัลติโมดัล และเป็นโมเดลการให้เหตุผลที่ล้ำสมัยที่สุด

Gemini 3 Pro ซึ่งเป็นเวอร์ชันแรกที่เปิดตัวให้ใช้งานล่วงหน้า (preview) ในวันนี้ ได้แสดงให้เห็นถึงความสามารถในการให้เหตุผลที่ลึกซึ้ง และละเอียดอ่อนอย่างไม่เคยมีมาก่อน มีความสามารถในการทำความเข้าใจบริบท และความตั้งใจเบื้องหลังคำขอของผู้ใช้ได้ดีขึ้นมาก ทำให้ผู้ใช้ได้รับสิ่งที่ต้องการโดยใช้คำสั่ง (prompting) น้อยลง

เรียนรู้ สร้างสรรค์ วางแผน

Gemini 3 ถูกสร้างขึ้นบนพื้นฐานของการสังเคราะห์ข้อมูลจากหลายรูปแบบได้อย่างราบรื่น รวมถึงข้อความ รูปภาพ วิดีโอ เสียง และโค้ด โมเดลนี้มีความสามารถหลักสามด้านที่ช่วยให้ผู้ใช้ทำงานในชีวิตประจำวันได้ง่ายขึ้น

การเรียนรู้ (Learn Anything): Gemini 3 สามารถช่วยให้เรียนรู้ในรูปแบบที่เหมาะสมกับคุณ โดยใช้ประโยชน์จากการให้เหตุผล การมองเห็น การทำความเข้าใจเชิงพื้นที่ และประสิทธิภาพหลายภาษา ตัวอย่างเช่น

สามารถถอดรหัส และแปลสูตรอาหารที่เขียนด้วยลายมือในภาษาต่างๆ ให้เป็นสมุดทำอาหารที่แบ่งปันได้
สามารถสร้างโค้ดสำหรับแฟลชการ์ดแบบโต้ตอบ หรือการสร้างภาพข้อมูล (visualizations) จากบทความทางวิชาการ หรือวิดีโอบรรยายขนาดยาว
สามารถวิเคราะห์วิดีโอการแข่งขันกีฬา และระบุจุดที่ต้องปรับปรุง พร้อมสร้างแผนการฝึกซ้อมได้

การสร้าง (Build Anything): สำหรับนักพัฒนา Gemini 3 คือโมเดล vibe coding และ agentic coding ที่ดีที่สุด มีความสามารถพิเศษในการสร้างโค้ดแบบ zero-shot และจัดการกับคำสั่งที่ซับซ้อนเพื่อสร้าง Web UI ที่สมบูรณ์ และโต้ตอบได้มากขึ้น

การวางแผน (Plan Anything): Gemini 3 ได้ปรับปรุงความสามารถในการวางแผนล่วงหน้าในระยะยาว (longer horizons) อย่างน่าเชื่อถือ สามารถจัดการเวิร์กโฟลว์หลายขั้นตอนที่ซับซ้อนตั้งแต่ต้นจนจบ

เช่น การจองบริการในพื้นที่ หรือการจัดการกล่องจดหมายอีเมล ความสามารถด้านการวางแผนระยะยาวนี้แสดงให้เห็นจากการครองอันดับสูงสุดใน Vending-Bench 2 ซึ่งจำลองธุรกิจตู้จำหน่ายสินค้า

การเปิดตัว/ความพร้อมใช้งาน

สำหรับทุกคน : ในแอป Gemini และสำหรับสมาชิก Google AI Pro และ Ultra ใน AI Mode ใน Search นี่เป็นครั้งแรกที่ Google เปิดตัว Gemini ใน Search ตั้งแต่วันแรก
สำหรับนักพัฒนา : ใน Gemini API, AI Studio, แพลตฟอร์ม Google Antigravity และ Gemini CLI
สำหรับองค์กร (Enterprise) : ใน Vertex AI และ Gemini Enterprise

Google ระบุว่า Gemini 3 เป็นโมเดลที่ปลอดภัยที่สุดเท่าที่เคยมีมา โดยได้ผ่านชุดการประเมินความปลอดภัยที่ครอบคลุมที่สุด ซึ่งแสดงให้เห็นถึงการลดการประจบประแจง (sycophancy) และเพิ่มความต้านทานต่อการโจมตีแบบ prompt injections

นี่เป็นเพียงจุดเริ่มต้นของยุค Gemini 3 และ Google จะยังคงผลักดันขอบเขตของความฉลาดทางปัญญา ความสามารถของเอเจนต์ (agents) และการปรับให้เป็นส่วนบุคคลต่อไป

อ้างอิง : Google

พิสูจน์อักษร....สุรีย์ ศิลาวงษ์

โต๊ะข่าวไอที ดิจิทัล