มิติใหม่ของ ‘Firewall’ (3)

สัปดาห์นี้เราจะมาตามกันต่อในตอนสุดท้ายของไฟร์วอลล์ที่รองรับ AI โดยจะโฟกัสที่เรื่องการตรวจจับข้อมูลสำคัญ (Sensitive Data Detection หรือ SDD)
โดยมีการใช้งานอยู่ 2 รูปแบบขึ้นอยู่กับว่า คุณเป็นเจ้าของโมเดลและข้อมูลเอง หรือคุณต้องการป้องกันไม่ให้ผู้ใช้งานส่งข้อมูลไปยัง LLM สาธารณะ
1. ผู้ใช้งาน LLM ผ่านระบบ WAF สามารถใช้ SDD ที่ออกแบบมาเพื่อตรวจสอบข้อมูลการเงิน (หมายเลขบัตรเครดิต) ความลับต่างๆ (API keys) และตรวจจับข้อมูล PII บางประเภทที่โมเดลส่งกลับมา
2. การป้องกันไม่ให้ผู้ใช้งาน ส่งข้อมูล PII หรือข้อมูลสำคัญอื่นๆ ไปยังผู้ให้บริการ LLM สาธารณะ เช่น OpenAI หรือ Anthropic เพื่อรับมือกับเรื่องนี้ จึงมีแผนที่จะขยายฟังก์ชันของ SDD ไปยังการสแกน prompt ที่ถูกส่งเข้ามา และเชื่อมผลลัพธ์เข้ากับ AI Gateway เพื่อให้สามารถตรวจจับว่า มีข้อมูลสำคัญใดถูกรวมอยู่ในคำขอหรือไม่ พร้อมทั้งดูประวัติของ prompt
โดยในแผนพัฒนาระยะต่อไป จะเปิดให้ผู้ใช้งานสามารถสร้าง signature ที่กำหนดเองและการพรางข้อมูลที่สำคัญบางอย่างใน prompt ก่อนที่จะไปถึงตัวโมเดล
อีกเรื่องที่น่าสนใจคือ การป้องกันการใช้งานโมเดลในทางที่ผิด เนื่องจากมีการสร้าง prompt injection เพื่อควบคุมหรือชักจูงโมเดลภาษาโดยใช้คำสั่งที่ออกแบบมาเฉพาะ ทำให้โมเดลตอบสนองในรูปแบบของการสร้างข้อมูลเท็จหรือตอบกลับด้วยเนื้อหาที่ไม่ถูกต้อง ไม่เหมาะสม
หรือออกนอกประเด็นโดยผลกระทบจากการโจมตีมีหลากหลาย ตั้งแต่การดึงข้อมูลลับ ไปจนถึงการชักนำการตัดสินใจโดยเลียนแบบการใช้งานปกติ
ตัวอย่างที่ชัดเจนคือการแก้ไขข้อมูลในประวัติย่อ (CV) เพื่อหลอกระบบคัดกรองเรซูเม่ นอกจากนี้ยังมีกรณีที่ผู้ใช้งาน AI Gateway ร้องขอการป้องกันไม่ให้โมเดลตอบกลับด้วยภาษาที่เป็นอันตราย ล่อแหลม หรือไม่เหมาะสม เพราะหากไม่ควบคุมผลลัพธ์ของโมเดล อาจเกิดความเสียหายต่อชื่อเสียงของแบรนด์ และทำให้ผู้ใช้งานสูญเสียความเชื่อมั่น
การโจมตีรูปแบบเหล่านี้สามารถจัดการโดยเพิ่มชั้นความปลอดภัยพิเศษที่โมเดล เพื่อฝึกการป้องกันการโจมตีด้วย prompt injection หรือกรองคำสั่งที่อยู่ในกลุ่มเสี่ยง
สุดท้ายเรื่องการตรวจสอบ Prompt และผลลัพธ์ เนื่องจากไฟร์วอลล์ที่รองรับ AI จะรันชุดการตรวจจับที่ออกแบบมาเพื่อระบุความพยายามในการโจมตีด้วย prompt injection และรูปแบบการใช้งานโมเดลที่ผิดๆ เช่น การตรวจสอบให้แน่ใจว่าเนื้อหายังคงอยู่ในขอบเขตที่เจ้าของโมเดลกำหนดไว้ เหมือนกับฟีเจอร์ WAF อื่นๆ ระบบจะสแกนหา prompt ที่แฝงอยู่ใน HTTP request หรือให้ผู้ใช้งานกำหนดกฎเพื่อระบุว่าคำสั่งนั้นอยู่ตรงไหน
เมื่อเปิดใช้งานแล้ว Firewall จะวิเคราะห์ทุก prompt และให้คะแนนตามความเสี่ยงว่าเป็นอันตรายหรือไม่ พร้อมติดแท็กหมวดหมู่ให้กับคำสั่งแต่ละรายการ โดยคะแนนจะอยู่ในช่วง 1 ถึง 99 (ยิ่งใกล้ 1 แสดงว่ามีแนวโน้มสูงว่าเป็น prompt injection)
ทำให้ผู้ใช้งานสามารถสร้างกฎ WAF เพื่อบล็อกหรือจัดการกับคำสั่งตามคะแนนและประเมินว่าควรให้ request เข้าถึงโมเดลหรือไม่ นอกจากคะแนนแล้ว ทุกPrompt ยังสามารถแท็กเพื่อให้ผู้ใช้งานตั้งกฎบล็อกหมวดเนื้อหาที่ไม่ต้องการ เช่น เนื้อหาที่เกี่ยวข้องกับ ศาสนา เพศ การเมือง หรือคำหยาบคาย ได้อีกด้วย
เราจะเห็นได้ว่า ไฟร์วอลล์ที่ได้รับการออกแบบให้รองรับการใช้งาน AI ช่วยให้ผู้ใช้งานสามารถควบคุมได้ว่า prompt และ request ใดที่จะเข้าถึงโมเดลภาษาของตนได้เพื่อลดความเสี่ยงจากการโจมตีและการขโมยข้อมูลของแฮกเกอร์ครับ







