ค่าใช้จ่ายสอนโมเดลเอไอ‘สูง’กว่าที่หลายคนคิดไว้มาก

ค่าใช้จ่ายสอนโมเดลเอไอ‘สูง’กว่าที่หลายคนคิดไว้มาก

สัปดาห์ที่ผานมาผมได้ทดลองใช้ระบบเอไอระบบหนึ่ง ที่อยู่บนคลาวด์คอมพิวติ้ง ด้วยการเขียนโปรแกรม และใช้เครื่องเซิร์ฟเวอร์บนคลาวด์ในการสร้างโมเดลเอไอ ค่าใช้จ่ายในการสอนโมเดลในระยะเวลาสั้นๆ นั้นสูงถึงเกือบ 200 ดอลลาร์

ในหลายโอกาสผมได้ลงมือปฏิบัติเรื่องไอทีด้วยตัวเอง ดังเช่น การติดตั้งระบบและเขียนโปรแกรม เหตุผลหนึ่งก็เพราะอยากเรียนรู้ว่าเรื่องต่างๆ ที่ผู้คนมักกล่าวถึงไม่ว่าจะเป็นเรื่อง เอไอ ดีพเลิร์นนิ่ง บล็อกเชน บิ๊กดาต้า หรือคลาวด์คอมพิวติ้ง เป็นอย่างไร มีความยากง่ายในการพัฒนาเพียงใด มีค่าใช้จ่ายเท่าไร และมีความน่าสนใจเพียงใด หรือเป็นเพียง Buzzword อีกคำหนึ่งที่คนไอทีชอบนำมาพูดกัน เพื่อให้เกิดศัพท์ใหม่ๆ ที่น่าตื่นเต้น

สัปดาห์ที่ผานมาผมได้ทดลองใช้ระบบเอไอระบบหนึ่ง ที่อยู่บนคลาวด์คอมพิวติ้ง ด้วยการเขียนโปรแกรม และใช้เครื่องเซิร์ฟเวอร์บนคลาวด์ในการสร้างโมเดลเอไอ ซึ่งปกติจะมีขั้นตอนการสอนให้เข้าใจข้อมูล (train data) โดยขั้นตอนนี้ จะใช้เซิร์ฟเวอร์ที่มีประสิทธิภาพสูงและใช้เวลานานพอสมควร ขึ้นอยู่กับขนาดข้อมูลที่มีอยู่ และความซับซ้อนของโมเดลที่ต้องการสอน แม้ข้อมูลที่ผมใช้สอน โมเดลจะมีขนาดเล็กแค่หลักแสนเรคอร์ดและเป็นโมเดลง่ายๆ ไม่ซับซ้อนนัก แต่สิ่งหนึ่งที่พบ คือ ค่าใช้จ่ายในการสอนโมเดลในระยะเวลาสั้นๆ นั้นสูงถึงเกือบ 200 ดอลลาร์

“เอไอ” ไม่ใช่เรื่องใหม่ แต่กำลังเป็นที่น่าสนใจมากขึ้นทุกวันนี้ก็เป็นเพราะว่าระบบเอไอเก่งขึ้นอย่างมาก ปัจจัยที่ทำให้เก่งขึ้นเนื่องจากมีปริมาณข้อมูลที่มากขึ้น ระบบคอมพิวเตอร์มีประสิทธิภาพที่ดีขึ้นทำให้สามารถประมวลผลได้มากขึ้น และสามารถพัฒนาโมเดลต่างๆ ที่มีอยู่ให้เก่งขึ้นได้ โดยเฉพาะการพัฒนาโมเดลที่ใช้อัลกอริทึมอย่างดีพเลิร์นนิ่งซึ่งมีโมเดลที่ซับซ้อนและมีพารามิเตอร์ที่ต้องสอนจำนวนมาก

ค่าใช้จ่ายในการพัฒนาโมเดลต่างๆ ของเอไอ โดยเฉพาะด้านทรัพยากรที่ใช้ในการสอนโมเดลจะมีมูลค่าค่อนข้างสูงมาก ล่าสุดบริษัทไมโครซอฟท์ และบริษัท Nvidia ซึ่งเป็นผู้ผลิตซีพียูความเร็วสูงรายใหญ่ของโลก ออกมาประกาศว่าประสบความสำเร็จในการสอนโมเดลเอไอด้านประมวลผลภาษาที่ชื่อ MT-NLP โดยโมเดลนี้มีพารามิเตอร์รที่จะต้องสอนจากข้อมูลขนาดใหญ่ถึง 530 พันล้านตัวแปร บริษัททั้งสองใช้เครื่องคอมพิวเตอร์ Nvidia DGX A100 จำนวน 560 เครื่อง โดยแต่ละเครื่องมีซีพียูในการประมวลผลที่เป็น 8 Nvidia A100 80 GB ซึ่งก็เป็นระบบที่มีราคามหาศาล
 

อีกตัวอย่างหนึ่ง คือ กรณีของบริษัทอาลีบาบา ที่พัฒนาโมเดล M6-10T ซึ่งมีพารามิเตอร์ 10 ล้านล้านตัวแปร ต้องใช้เครื่องคอมพิวเตอร์ที่มีซีพียูของ Nvidia V100 จำนวน 512 เครื่อง ในการสอนถึง 10 วัน ซึ่งหากคิดเป็นค่าใช่จ่ายบนระบบคลาวด์ค่าประมวลผลจะมีมูลค่าถึงสามแสนดอลลาร์ หรือกรณีของ University of Washington’s Grover ทำการสอนโมเดลให้เรียนรู้เรื่องของ Fake News ก็มีค่าใช้จ่ายในการสอนโมเดลเป็นระยะเวลาสองสัปดาห์มีมูลค่าถึง 25,000 ดอลลาร์

หลายท่านอาจคิดว่าทำไมต้องใช้เครื่องเซิร์ฟเวอร์บนระบบคลาวด์คอมพิวติ้ง เราก็สามารถจัดหาเครื่องที่มี ซีพียูมาติดตั้งเองในองค์กร และทำการสอนโมเดลผ่านเครื่องดังกล่าว เรื่องนี้เป็นไปไม่ได้ถ้าต้องการสร้างโมเดลขนาดใหญ่ที่มีข้อมูลมหาศาล ตัวอย่างเช่น ถ้าเราต้องการสอนโมเดลภาษาที่ชื่อ GPT-3 (ซึ่งมีขนาดเล็กกว่าโมเดล M6-10T ของอาลีบาบาถึง 57 เท่า) บนเครื่องมีระบบประมวลผลซีพียูเพียงเครื่องเดียว อาจต้องใช้เวลาถึง 355 ปี

รายงานของบริษัท DeepMind ซึ่งเป็นบริษัทลูกของ Google ที่ทำงานทางด้านเอไอเมื่อปี 2019 ระบุว่า มีรายได้ 315 ล้านดอลลาร์ แต่มีรายจ่ายถึง 849 ล้านดอลลาร์ ค่าใช้จ่ายหมดไปกับค่าบุคลากร ค่าทรัพยากรคอมพิวเตอร์ ค่าใช้จ่ายในการสอนโมเดล และคาดว่ายังคงจะขาดทุนอย่างต่อเนื่องไปอีก 5-10 ปี แต่เมื่อได้ระบบเอไอที่ดีและโดดเด่นแล้วก็คาดว่าคงจะทำให้บริษัทมีกำไรที่ดีขึ้น ดังนั้นจะเห็นได้ว่าการลงทุนพัฒนาระบบเอไอจะมีมูลค่าค่อนข้างสูงและไม่อาจเห็นผลกำไรโดยเร็ว

ผมคิดว่าหลายๆ คนคงเคยได้ยินว่า “ข้อมูลคือน้ำมันในยุคใหม่” องค์กรใดมีข้อมูลขนาดใหญ่ก็เสมือนมีสินทรัพย์มูลค่ามหาศาล และยิ่งมีข้อมูลมากเราก็จะพัฒนาระบบเอไอให้เก่งยิ่งขึ้น แต่เชื่อว่าหลายๆ คนอาจมองข้ามเรื่องของค่าใช้จ่ายในการสอนโมเดลของเอไอ เพราะยิ่งมีข้อมูลมากการสอนก็ยิ่งนานขึ้น และยิ่งต้องการเอไอที่มีความถูกต้องมากขึ้น โมเดลที่จะสอนก็จะมีความซับซ้อนมากขึ้นมีจำนวนพารามิเตอร์มากขึ้น ค่าใช้จ่ายในการสอนโมเดลก็จะสูงขึ้นมาก

วันนี้การทำเอไอง่ายขึ้นมาก มีโมเดลต่างๆ ที่องค์กรสามารถนำมาสอนให้เรียนรู้จากข้อมูลของตัวเอง แต่สิ่งหนึ่งที่ผู้บริหารจะต้องตระหนักคือ ค่าสอนโมเดลของเอไอ โดยเฉพาะเมื่อต้องใช้กับข้อมูลขนาดใหญ่ เพราะมีค่าใช้จ่ายสูงมาก และเชื่อว่าจะสูงกว่าการจ่ายค่านักพัฒนาระบบเอไอหลายเท่า

ดังนั้นหากจะลงทุนใช้ข้อมูลขนาดใหญ่กับการพัฒนาเอไอ ผู้บริหารคงต้องเตรียมงบประมาณไว้มากพอสมควรสำหรับค่าใช้จ่ายในการสอนโมเดล