สมรภูมิ AI ใครจะครองบัลลังก์? จุดร่วมจุดต่าง Gemini 1.5 Pro และ GPT-4o

เทียบชัดๆ ! Gemini 1.5 Pro ปะทะ GPT-4o อาวุธลับของกูเกิล และโอเพนเอไอ เปิดตัวไล่เลี่ยกัน มีอะไรที่เป็นจุดร่วมหรือเป็นจุดต่างบ้าง ?

กูเกิลและโอเพนเอไอนับว่าเป็นคู่ชกที่ท้าชิงบัลลังก์โมเดลภาษาขนาดใหญ่ (LLMs) โดยล่าสุด ประกาศเปิดตัวไล่เลี่ยกันระหว่าง “Gemini 1.5 Pro” และ “GPT-4o” อวดโฉมอาวุธลับที่ซุ่มพัฒนามาสักระยะ

อย่างไรก็ตาม แม้ว่าบริษัทเทคฯ จะฟาดฟันอย่างดุเดือด หากแต่ผู้ที่ได้รับผลประโยชน์ก็คือ ผู้ใช้งาน (User) เพราะโมเดลภาษาขนาดใหญ่ที่อัปเดตนั้นมาพร้อมกับความก้าวหน้าที่อัจฉริยะมากขึ้น

สมรภูมิ AI ใครจะครองบัลลังก์? จุดร่วมจุดต่าง Gemini 1.5 Pro และ GPT-4o

‘สั่งการด้วยเสียง’ จุดร่วมบิ๊กเทคฯ

ทางโอเพนเอไอชิงเปิดตัวก่อนล่วงหน้า 1 วัน GPT-4o (โฟร์-โอ) มาพร้อมกับความเร็วและแรง กล่าวคือ โมเดลภาษาชุดนี้ประมวลผลไวกว่ารุ่น GPT-4 โดย ตัว “o” ในชื่อย่อมาจาก omni ที่แปลว่าความรอบรู้ พร้อมทั้งรองรับได้ถึง 50 ภาษา หนึ่งในนั้นมีภาษาไทย สามารถแปลได้แบบเรียลไทม์

มิรา มูราติ หัวหน้าฝ่ายเทคโนโลยีของโอเพนเอไอ กล่าวว่า โฟร์-โอนั้นเร็วขึ้นมาก สามารถนำเข้าข้อมูลได้หลายรูปแบบ (multimodal) ไม่ว่าจะเป็นข้อความ เสียง หรือภาพ วิดีโอ เอไอก็สามารถประมวลผลได้ไว ตอบกลับได้ในทันที และยังสามารถสรุปข้อมูลทั้งข้อความ วิดีโอคลิป ตาราง และเอกสารต่างๆ เป็นจำนวนมาก ได้อย่างกระชับ และมีใจความสำคัญมากขึ้น

กูเกิลตามมาทีหลัง แต่ก็ชูจุดเด่น Gemini 1.5 Pro ด้านการประมวลผลข้อมูลขนาดใหญ่ เพราะมีหน้าต่างบริบท (context window) สูงสุดถึง 2 โทเคน เปรียบให้เห็นภาพง่ายๆ มันสามารถรองรับคลิปเสียงยาว 11 ชั่วโมง วิดีโอ 1 ชั่วโมง เอกสาร 700,000 คำ หรือโค้ด 30,000 บรรทัดได้อย่างสบายๆ ซึ่งกูเกิลก็ได้เพิ่มอีก 35 ภาษาเข้ามาใช้เพื่อการประมวลผล

จุดร่วมที่ดูเหมือนว่ายักษ์ใหญ่เอไอสองเจ้าจะคิดเหมือนกันก็คือ “การสั่งการด้วยเสียง” สำหรับโอเพนเอไอจะเรียกว่า Voice Mode ผู้ใช้สามารถพูดแทรก ChatGPT ได้ทันที เช่น ขอให้พูดเสียงหุ่นยนต์หรือตอบเป็นเพลง ตลอดจนขอให้เอไอเล่านิทานก่อนนอนก็ทำได้

“Voice Mode เป็นฟังก์ชันคำสั่งเสียง โดยเอไอสามารถตอบสนองต่อคำสั่งเสียงของผู้ใช้ภายในเวลาเพียง 232 มิลลิวินาที โดยเฉลี่ยอยู่ที่ 320 มิลลิวินาที ซึ่งใกล้เคียงกับเวลาตอบสนองของมนุษย์ในการสนทนา กล่าวได้ว่า มันสามารถทำหน้าที่แปลภาษาโดยอาจไม่ต้องพึ่งพาล่ามเลย”

ส่วนฝั่งกูเกิลใช้ชื่อว่า Live for Gemini Advanced โดยได้เพิ่มไฮไลต์สำคัญมาอีกอย่างคือ เอไอสามารถมองเห็นโลกภายนอกผ่าน “กล้อง” หากสั่งด้วยเสียงแล้วแพลนกล้องไปยังจุดต่างๆ จะสามารถช่วยหาของที่หายไป หรือแม้แต่กระทั่งระบุวัตถุบางอย่าง เช่น ถามว่าบนโต๊ะมีอุปกรณ์อะไรที่ส่งเสียงได้บ้าง Gemini ก็จะตอบว่า ลำโพง

นอกจากกูเกิลจะอัปเดตความสามารถของรุ่น Pro แล้ว ก็ยังเพิ่มรุ่น 1.5 Flash เข้ามาในซีรีส์ของเอไอ Gemini โดย Flash มีหน้าต่างบริบท 1 โทเคน แต่ศักยภาพใกล้เคียงกับรุ่น Pro และยังประมวลผลได้อย่างรวดเร็ว เหมาะแก่ผู้ต้องการใช้เอไอแบบง่ายๆ ราคาประหยัด แต่ยังต้องการ การประมวลผลหลากหลายรูปแบบ

ฝั่งโอเพนเอไอก็ปล่อย ChatGPT เวอร์ชันเดสก์ท็อป ที่สามารถติดตั้งได้บนหน้าจอคอมพิวเตอร์ เพื่อการใช้งานที่ง่าย และสะดวกขึ้น พร้อมทั้งเปิดให้ใช้ฟีเจอร์ที่ก่อนหน้านี้สงวนสิทธิ์เฉพาะสมาชิก ChatGPT Plus บางฟีเจอร์ เช่น สามารถอัปโหลดรูปภาพ และให้เอไอตอบคำถามได้ หรือฟีเจอร์ Memory ที่จดจำฐานข้อมูลต่างๆ โดยไม่ต้องป้อนหลายรอบ

ผูก AI บนระบบปฏิบัติการอุปกรณ์สื่อสาร

เบื้องต้น Gemini 1.5 Pro จะเปิดให้ทดสอบใน Workspace Labs ส่วน Gemini 1.5 Flash จะเปิดให้ทดสอบและใช้งานใน Vertex AI ซึ่งเป็นแพลตฟอร์มการเรียนรู้เอไอของกูเกิล ก่อนจะปล่อยให้ใช้งานจริง ส่วนเวอร์ชัน 2 ล้านโทเคนยังอยู่ในช่วงทดสอบแบบลับๆ

กูเกิลยังมีแผนผูก Gemini เข้ากับระบบของแอนดรอยด์ (Android) รวมถึง Gemini Nano เพราะต้องการทำให้แอนดรอยด์ เป็นระบบปฏิบัติการแรกในโลกที่มีเอไอเป็นพื้นฐานของการรันบนอุปกรณ์ ไม่ใช่แค่การใช้งานผ่านเว็บไซต์หรือแอปพลิเคชัน

ขณะเดียวกัน ก็มีรายงานว่าโอเพนเอไอใกล้ปิดดีลเจรจากับ แอปเปิล (Apple) เพราะต้องการใส่ GPT เข้าไปเป็นฟีเจอร์หลักของ iOS 18 แล้ว โดยคาดว่าจะเปิดตัว iOS รุ่นล่าสุด และ iPhone 16 เดือนก.ย.นี้

ด้าน แบรด ไลท์แคป ประธานเจ้าหน้าที่ฝ่ายปฏิบัติการของโอเพนเอไอ กล่าวว่า “การเปิดตัว GPT-4o ครั้งนี้ ถือเป็นหนึ่งในการประกาศครั้งใหญ่ของบริษัท นับตั้งแต่เปิดตัว ChatGPT เราใช้เวลาพัฒนาแชตบอตเอไอน้อยกว่า 1 ปี และได้รับความช่วยเหลือจากบริษัทต่างๆ มากกว่า 20 บริษัท ก้าวต่อไปคือ การทำให้ทุกคนสามารถทำงานร่วมกับเครื่องมืออย่าง ChatGPT ง่ายขึ้น และมีความปลอดภัยมากขึ้น”

ท้ายที่สุดแล้วเอไอทั้งสองตัวก็มีการพัฒนาขนาบคู่ทิศทางเดียวกัน มีจุดแตกต่างเพียงไม่กี่อย่าง ขึ้นอยู่กับว่าผู้ใช้งานจะถนัดมือ และต้องการใช้ทำอะไรมากกว่า ฝั่งผู้สร้างเองก็พยายามพัฒนาโมเดลเหล่านี้ให้ตอบโจทย์กับการใช้งานที่มากขึ้น

จุดสำคัญคือ การแข่งขันของโมเดลเอไอนำไปสู่การพัฒนาเทคโนโลยีที่รวดเร็ว ผู้ใช้งานควรคำนึงถึงจริยธรรมในการใช้เครื่องมือเหล่านี้ให้เป็นประโยชน์มากกว่าโทษ

อ้างอิง: Google และ OpenAI

พิสูจน์อักษร....สุรีย์ ศิลาวงษ์