ดวลเดือด AI กูเกิลส่ง ‘Gemini 1.5’ ท้าชน GPT-4o โอเพนเอไอ

ดวลเดือด AI กูเกิลส่ง ‘Gemini 1.5’ ท้าชน GPT-4o โอเพนเอไอ

กูเกิล เปิดตัว Gemini 1.5 Flash และ Gemini 1.5 Pro เวอร์ชันล่าสุด เน้นประมวลผลข้อมูลขนาดใหญ่ เพิ่มโหมดสั่งด้วยเสียง หวังสู้ศึก GPT-4o ของโอเพนเอไอที่ชิงเปิดตัวแซงหน้า

งานประชุมนักพัฒนาประจำปีของ Google I/O เมื่อวันอังคารที่ 14 พ.ค. ที่ผ่านมา กูเกิลประกาศเปิดตัว “Gemini 1.5 Flash” โมเดลใหม่ล่าสุดในซีรีส์ Gemini และยังอัปเดต “Gemini 1.5 Pro” รุ่นรองรับข้อมูลขนาดใหญ่แแถมเอไอยังเชื่อฟังคำสั่งมากขึ้น

รายงานของกูเกิลระบุว่า รุ่น Flash มีราคาที่ประหยัดกว่าแต่ศักยภาพใกล้เคียงกับรุ่น Pro และยังประมวลผลได้อย่างรวดเร็ว เหมาะแก่ผู้ต้องการใช้เอไอแบบง่าย ๆ แต่ยังต้องการการประมวลผลที่ทรงพลัง โดยฟีเจอร์หลัก ๆ ที่สามารถทำได้คือ 

  • สรุปการสนทนา จับประเด็นสำคัญ และดึงข้อมูลที่น่าสนใจออกมาได้ เช่น การสรุปอีเมล 100 ฉบับ หรือ วิเคราะห์เอกสารขนาดใหญ่หลายฉบับได้มากถึง 1,500 หน้า
  • สร้างแคปชันภาพและวิดีโอ Flash สามารถสร้างคำอธิบายภาพและวิดีโอได้อย่างละเอียด เหมาะสำหรับผู้ใช้งานที่ต้องการอธิบายภาพ หรือวิดีโอสั้น ๆ
  • ดึงข้อมูลจากเอกสารและตาราง 
  • รองรับภาษา 35 ภาษา (ขณะที่ GPT-4o ของ OpenAI รองรับ 50 ภาษา)

Flash รองรับ context window ขนาด 1 ล้านโทเค็นเท่ากับรุ่นใหญ่ และยังถูกพัฒนาด้านการใช้เหตุผลเฉพาะเรื่อง เอไอสามารถวิเคราะห์ข้อมูลและตัดสินใจได้อย่างชาญฉลาดขึ้น ด้านภาพก็ถูกอัปเดตให้สามารถวิเคราะห์ภาพและเข้าใจบริบทได้มากกว่าเดิม

สำหรับรุ่น Pro ถูกอัปเดตมาจากชื่อ Gemini Advanced รองรับการประมวลผลข้อมูลขนาดใหญ่สูงสุดถึง 2 ล้านโทเค็น เพราะถูกเพิ่ม context window ซึ่งเทียบเท่ากับคลิปเสียงยาว 11 ชั่วโมง วิดีโอ 1 ชั่วโมง เอกสาร 700,000 คำ หรือโค้ด 30,000 บรรทัด เหมาะสำหรับงานที่ต้องการวิเคราะห์ข้อมูลขนาดใหญ่ เช่น การวิจัยทางวิทยาศาสตร์ การวิเคราะห์ข้อมูลการตลาด หรือการพัฒนาซอฟต์แวร์ขนาดใหญ่

นอกจากนี้ ฟีเจอร์ใหม่ ๆ ที่เพิ่มเข้าคือ Live for Gemini Advanced สั่งการด้วยเสียง (แบบเดียวกันกับ Voice Mode ของ OpenAI ที่เพิ่งเปิดตัวแซงหน้าเมื่อวันจันทร์) และยังสามารถทำงานร่วมกับ Google Workspace ได้อีกด้วย 

เบื้องต้น Gemini 1.5 Pro จะเปิดให้ทดสอบใน Workspace Labs ส่วน Gemini 1.5 Flash จะเปิดให้ทดสอบและใช้งานใน Vertex AI ซึ่งเป็นแพลตฟอร์มการเรียนรู้เอไอของกูเกิล ก่อนจะปล่อยให้ใช้งานจริง ส่วนเวอร์ชัน 2 ล้านโทเค็นยังอยู่ในช่วงทดสอบเฉพาะวงปิด

อ้างอิง: cnbc และ Google Blog