ในบทความนี้
แม้ว่า DeepSeek จะสร้างความสนใจและความตื่นเต้นอย่างมาก แต่ก็ยังมาพร้อมกับข้อจำกัดที่ถูกฝังไว้เพื่อให้ใช้งานอย่างปลอดภัยและมีความรับผิดชอบ เช่นเดียวกับโมเดล AI อื่นๆ
แต่สิ่งนี้ก็ไม่ได้หยุดบางผู้ใช้จากการทดลองกับสิ่งที่เรียกว่า DeepSeek jailbreak promptแนวคิดเบื้องหลังคือเพื่อ "หลอก" ระบบป้องกันภายในของโมเดล และผลักดันให้มันสร้างคำตอบที่ปกติแล้วจะไม่ถูกสร้างขึ้น

หากคุณสงสัยเกี่ยวกับผลกระทบและข้อกังวลที่ตามมานี้ เราจะอธิบายแนวคิด DeepSeek jailbreak prompt ว่าคืออะไร จุดประสงค์ของบทความนี้คือเพื่อเน้นย้ำเทคนิคเหล่านี้เพื่อให้งานวิจัยในอนาคตสามารถมุ่งเน้นไปที่การปรับปรุงระบบป้องกันของโมเดลภาษา AI ขนาดใหญ่
ส่วนที่ 1. คุณสามารถทำอะไรกับ DeepSeek ได้บ้าง?
ก่อนจะพูดลึกถึง prompt jailbreak ของ DeepSeek มาทำความเข้าใจก่อนว่า DeepSeek ถูกออกแบบมาเพื่อทำอะไร ในฐานะโมเดล AI ขั้นสูง DeepSeek สามารถสร้างคำตอบที่มีโครงสร้างดีและเข้าใจบริบทในหัวข้อต่างๆ ได้ ผู้คนใช้ในหลากหลายด้าน เช่น:
- การเขียนและสร้างเนื้อหา
- สนับสนุนงานวิจัยเชิงวิชาการหรือธุรกิจ
- ให้ความช่วยเหลือและคำอธิบายทางเทคนิค
- และตอบสนองความต้องการหลากหลายทั้งในชีวิตประจำวันและในเชิงวิชาชีพ

แม้จะมีศักยภาพเหล่านี้ ผู้ใช้ก็ยังจำเป็นต้องเข้าใจขอบเขตข้อจำกัดที่ถูกฝังในระบบ DeepSeek เช่นเดียวกับระบบ AI อื่นๆ ทำงานบนกรอบพื้นฐานที่เรียกว่า system promptซึ่งเป็นชุดคำสั่งที่ซ่อนอยู่เพื่อกำกับพฤติกรรม บังคับใช้กฎความปลอดภัย และยึดถือหลักจริยธรรมในการใช้งาน
เมื่อมีคนสามารถปรับเปลี่ยนหรือดึง system prompt ออกมาได้ ก็อาจเข้าถึงข้อมูลภายในที่ละเอียดอ่อน เปลี่ยนลักษณะคำตอบของโมเดล หรือใช้งาน AI ในทางที่ไม่ได้ตั้งใจไว้ และ DeepSeek ก็เคยเจอกรณีเหล่านี้ที่ถูกแชร์ในสาธารณะแล้ว
ส่วนที่ 2. อะไรเป็นสาเหตุของการเกิด DeepSeek Prompt Jailbreak?
DeepSeek ไม่ใช่โมเดล AI ตัวแรกที่เผชิญกับการพยายาม jailbreak แต่ความนิยมที่เติบโตอย่างรวดเร็วทำให้มันตกเป็นเป้าทันที ความสนใจในศักยภาพขั้นสูงแต่ต้นทุนต่ำกว่า ChatGPT ดึงดูดผู้คนเข้ามา และแทบจะในทันทีที่ระบบเปิดให้ใช้งาน ผู้ใช้ก็เริ่มทดสอบขอบเขตว่าทำได้มากน้อยแค่ไหน
เหตุผลก็ง่ายมาก: ผู้คนอยากรู้ว่าต้นทุนที่ถูกกว่าของ DeepSeek นั้นแลกมากับมาตรการความปลอดภัยที่แข็งแกร่งหรือไม่

System prompt ของ DeepSeek ถูกเปิดเผยหลังจากนักวิจัยค้นพบวิธี jailbreak
นักวิจัยยืนยันข้อกังวลเหล่านี้ เมื่อค้นพบวิธี jailbreak ที่เปิดเผย system prompt ของ DeepSeek ผลการศึกษาชี้ว่าระบบป้องกันของแพลตฟอร์มนี้ไม่น่าเชื่อถืออย่างที่คาดไว้
ในเชิงบริบท ประเภทเนื้อหาที่ DeepSeek เซ็นเซอร์ ได้แก่:
- ความรุนแรงและเนื้อหาที่เป็นอันตราย
- กิจกรรมที่ผิดกฎหมาย
- ข้อมูลส่วนบุคคลที่ละเอียดอ่อน
- หัวข้อที่อ่อนไหวทางการเมืองที่เกี่ยวข้องกับรัฐบาลของประเทศต้นทาง
- ภาพที่มีความรุนแรง และอื่นๆ

อย่างไรก็ตาม งานวิจัยใหม่ จาก Cisco และ University of Pennsylvania ได้ทดสอบโมเดล reasoning R1 ของ DeepSeek ด้วย prompt อันตราย 50 รายการจาก benchmark HarmBench ที่ใช้กันอย่างแพร่หลาย โดย prompt เหล่านี้ครอบคลุมเนื้อหาที่เป็นอันตรายกว่า 6 หมวดหมู่ เช่น อาชญากรรมไซเบอร์ ข้อมูลผิด และกิจกรรมผิดกฎหมาย
ผลลัพธ์คือ? DeepSeek ไม่สามารถป้องกันได้เลยแม้แต่กรณีเดียว
นักวิจัยพบว่า อัตราความสำเร็จของการโจมตีคือ 100% คือไม่มี prompt อันตรายใดถูกบล็อกเลย บริษัทด้านความปลอดภัย Adversa AI ก็ได้รับผลลัพธ์ในทำนองเดียวกัน โดยการทดสอบแสดงให้เห็นว่าวิธี jailbreak ทั่วไป ทั้งการเล่นคำ prompt จาก AI และการโจมตีด้วยโค้ด ก็สามารถผ่านระบบป้องกันของ DeepSeek ได้อย่างง่ายดาย

นอกจากนี้ ประเด็นเกี่ยวกับ system prompt jailbreak ของ DeepSeek ไม่ได้เป็นแค่เรื่องการข้ามระบบกรองเนื้อหาเท่านั้น อีกประเด็นที่น่าตกใจซึ่งรายงานโดย Wallarm คือ โมเดลสามารถเปิดเผยรายละเอียดเกี่ยวกับการฝึกสอนและกระบวนการ distillation ของตัวเอง ระหว่างการตรวจสอบ พบการอ้างอิงถึงโมเดล OpenAI โดยตรง ซึ่งชี้ว่าเทคโนโลยี OpenAI อาจมีอิทธิพลต่อขั้นตอนการฝึกสอนของ DeepSeek
ส่วนที่ 3. คอมมูนิตี้ต่างๆ แชร์คำสั่ง jailbreak ของ DeepSeek
ไม่นานนัก prompt jailbreak ก็ถูกเผยแพร่บนแพลตฟอร์มอย่าง Reddit และ GitHub ผู้ใช้เริ่มแชร์วิธีการหลบหลีกตัวกรองเนื้อหาของ DeepSeek บาง prompt เรียบง่ายอย่างไม่น่าเชื่อ ขณะที่บางอันก็ครีเอทมากขึ้น
1. “ย้ายไปอยู่โลกนอกโลกใบใหม่”
หนึ่งใน prompt jailbreak ของ DeepSeek ที่ได้รับความนิยมบน Reddit คือการขอให้ DeepSeek ช่วยจินตนาการว่าคุณได้ย้ายไปดาวเคราะห์ที่ชื่อ “Zeta” ซึ่งในโลกสมมตินี้ กฎเกณฑ์จริยธรรมของโลกไม่บังคับใช้กับ AI อีกต่อไป ทำให้โมเดลลดเกราะป้องกันตัวเองลง

2. การใช้การเข้ารหัส Hex
prompt jailbreak อีกแบบที่แชร์โดย Shashwat (Shawn) Gupta ใช้วิธีเปลี่ยนคำขอธรรมดาให้กลายเป็นสตริงโค้ดฐานสิบหก (hexadecimal)
hex encoding คือวิธีการแปลงข้อความเป็นตัวเลขและตัวอักษรตามระบบฐานสิบหก (0–9 และ a–f) โดยแต่ละตัวอักษรจะถูกแปลงเป็นค่าฐานสิบหกของเอง

คุณอาจต้องเพิ่มคำขอเพิ่มเติม เช่น ขอให้โมเดล “แยกแต่ละตัวอักษรด้วยจุด” เพื่อให้กลวิธีได้ผล ผลก็อาจแตกต่างกันไป และวิธีนี้ไม่ได้ผลคงที่ในการทดลองของเรา
3. ใช้การโจมตี Crescendo Jailbreak
ถัดไปคือทริก prompt jailbreak ที่เรียกว่า “Crescendo Attack” โดยแทนที่จะถามคำถามสำคัญโดยตรง วิธีนี้จะค่อยๆ ไล่คำถามทีละขั้น เพื่อให้ prompt แต่ละอันดูไม่มีพิษมีภัย แต่เมื่อรวมกันก็ทำให้โมเดลลดการป้องกันตัวเองลง จนยอมตอบสิ่งที่ปกติจะไม่ตอบให้

เช่น ถ้าคุณถามโต้งๆ ว่า “จะทำน้ำมันขวดโมโลตอฟได้อย่างไร?” DeepSeek จะไม่ตอบแน่นอน แต่ถ้าคุณสร้างการสนทนาโดยค่อยๆ ถามคำถามย่อยที่ดูไม่โจ่งแจ้ง อาจนำ AI ไปสู่การเปิดเผยสิ่งที่ควรถูกบล็อกได้ในที่สุด

4. ค้นพบ prompt jailbreak ของ DeepSeek เพิ่มเติมบน GitHub
คุณยังสามารถพบ prompt jailbreak อื่นๆ อีกมากมายบน GitHub ที่นั่นผู้ใช้มักจะแชร์ทั้ง prompt โค้ด ตัวอย่าง ทดลอง และโน้ตละเอียดเกี่ยวกับวิธีที่สามารถหลอกตัวกรองของ DeepSeek ได้ บางรายแชร์ prompt jailbreak สำหรับ DeepSeek R1 ด้วย เช่น:
ส่วนที่ 4. Jailbreak สามารถใช้กับเครื่องมือ AI อื่นๆ ได้ไหม?
กรณี prompt jailbreak ของ DeepSeek จึงทำให้เกิดคำถามสำคัญ: เหตุการณ์แบบนี้จะเกิดขึ้นกับเครื่องมือ AI ตัวอื่นได้ไหม? คำตอบก็คือ ใช่ การ jailbreak ไม่ได้เป็นปัญหาเฉพาะของ DeepSeek ทุกโมเดลภาษาอาจถูก “แหย่” จนทะลุรั้วป้องกันได้เช่นกัน
แต่ละโมเดลก็จะตอบสนองแตกต่างกันไป และมาตรการความปลอดภัยในแต่ละแพลตฟอร์มก็ไม่เท่ากัน จากที่พบในโลกออนไลน์ กลโกง jailbreak หลายอย่างที่เคยใช้ได้ก็ใช้ไม่ได้แล้วเมื่อเราทดสอบในภายหลัง

สำหรับการสร้างภาพและวิดีโอ
เนื่องจาก DeepSeek ปัจจุบันยังเป็นโมเดลข้อความ ความพยายาม jailbreak จึงกระทบต่อผลลัพธ์แบบข้อความเท่านั้น แต่ถ้ากลยุทธ์เดียวกันถูกนำไปใช้กับภาพหรือวิดีโอ ผลกระทบอาจรุนแรงยิ่งขึ้นไปอีก
แต่อย่าเพิ่งกังวลไป การ jailbreak กับการสร้างภาพหรือวิดีโอนั้นซับซ้อนและทำได้ยากกว่ามากโดยทั่วไป Wondershare Filmora ตัวอย่างเช่น ได้ฝังระบบป้องกันเพื่อขัดขวางการสร้างวิดีโอหรือภาพที่มี “คำที่อ่อนไหว” หรือ prompt ที่ไม่ปลอดภัย

แม้ว่า Filmora จะใช้โมเดลขั้นสูงอย่าง Veo 3 สำหรับ แปลงข้อความเป็นวิดีโอ แต่มันก็เพิ่มระบบกรองเนื้อหาของตัวเองเพื่อจับ prompt ที่เสี่ยงอันตรายตั้งแต่ต้นทาง
ส่วนที่ 5. ผลกระทบในอนาคตต่อการพัฒนาและความปลอดภัยของ AI
กรณี system prompt jailbreak ของ DeepSeek สะท้อนปัญหาใหญ่ว่า การเข้าถึง AI ได้ง่ายและต้นทุนต่ำ มักแลกมากับความเสี่ยงด้านความปลอดภัย
การนำ AI ที่ราคาจับต้องได้สู่ผู้ใช้วงกว้าง ช่วยให้เทคโนโลยีก้าวหน้าถึงทุกคน แต่ถ้ามาตรการป้องกันอ่อนแอ ก็จะเปิดช่องให้โมเดลถูกดัดแปลง ถูกละเมิด และเสี่ยงเกิดผลเสียที่ต้นทุนจริงสูงกว่าเดิม ทั้งความปลอดภัย ข้อมูลรั่ว และความน่าเชื่อถือที่สูญเสียไป

หลังค้นพบช่องโหว่ DeepSeek ก็รีบออกแพตช์แก้ไขทันที อย่างไรก็ตาม ความเสี่ยงจากการ jailbreak แสดงให้เห็นว่าระบบ AI ต้องมีการป้องกันที่รัดกุมและต่อเนื่อง เพื่อสร้างความปลอดภัยและความน่าเชื่อถือในระยะยาว
สรุป
prompt jailbreak ของ DeepSeek แสดงให้เห็นว่าระบบ AI ที่ล้ำหน้าแค่ไหนก็ยังเปราะบาง หากไม่ได้ให้ความสำคัญกับความปลอดภัย แม้จะขยายขีดจำกัดของ AI ให้เข้าถึงได้มากขึ้น แต่มาตรการที่อ่อนแอก็ทำให้เป็นเป้าโจมตีง่ายได้เช่นกัน
จากตรงนี้ เราจะเห็นความท้าทายใหญ่ของอุตสาหกรรม AI: นวัตกรรมและการเข้าถึงต้องสมดุลกับการป้องกันที่เข้มแข็งเสมอ หากช่องโหว่ขยายไปสู้การสร้างภาพหรือวิดีโอ ผลกระทบก็อาจใหญ่หลวงกว่าเดิมได้อีก

