Tấn công AI Prompt Injection là gì?

Ngọc Khánh

Các cuộc tấn công AI Prompt Injection đầu độc đầu ra từ những công cụ AI mà bạn dựa vào, thay đổi và thao túng đầu ra của nó thành thứ gì đó có hại. Nhưng cuộc tấn công AI Prompt Injection hoạt động như thế nào và bạn có thể làm gì để tự bảo vệ mình như thế nào?

Tấn công AI Prompt Injection là gì?

Các cuộc tấn công AI Prompt Injection tận dụng những lỗ hổng của mô hình Generative AI để thao túng đầu ra của chúng. Chúng có thể được bạn thực hiện hoặc được người dùng bên ngoài thực hiện thông qua một cuộc tấn công Prompt Injection gián tiếp. Các cuộc tấn công DAN (Do Anything Now) không gây ra bất kỳ rủi ro nào cho bạn, người dùng cuối, nhưng về mặt lý thuyết, những cuộc tấn công khác có khả năng đầu độc đầu ra mà bạn nhận được từ Generative AI.

Ví dụ, ai đó có thể thao túng AI hướng dẫn bạn nhập tên người dùng và mật khẩu của bạn ở dạng bất hợp pháp, sử dụng quyền hạn và độ tin cậy của AI để thực hiện một cuộc tấn công phishing thành công. Về mặt lý thuyết, AI tự động (chẳng hạn như đọc và trả lời tin nhắn) cũng có thể nhận và hành động theo các hướng dẫn không mong muốn từ bên ngoài.

Các cuộc tấn công Prompt Injection hoạt động như thế nào?

Các cuộc tấn công Prompt Injection hoạt động bằng cách cung cấp những hướng dẫn bổ sung cho AI mà không có sự đồng ý hoặc hiểu biết của người dùng. Tin tặc có thể thực hiện điều này theo một số cách, bao gồm tấn công DAN và tấn công Prompt Injection gián tiếp.

Tấn công DAN (Do Anything Now)

Các cuộc tấn công DAN (Do Anything Now) là một kiểu tấn công Prompt Injection nhanh chóng liên quan đến những mô hình Generative AI "jailbreak" như ChatGPT. Những cuộc tấn công jailbreak này không gây rủi ro cho bạn với tư cách là người dùng cuối - nhưng chúng mở rộng khả năng của AI, khiến nó trở thành công cụ để lạm dụng.

Ví dụ, nhà nghiên cứu bảo mật Alejandro Vidal đã sử dụng lời nhắc DAN để khiến GPT-4 của OpenAI tạo code Python cho keylogger. Được sử dụng với mục đích xấu, AI đã jailbreak làm giảm đáng kể các rào cản dựa trên kỹ năng liên quan đến tội phạm mạng và có thể cho phép những tin tặc mới thực hiện các cuộc tấn công tinh vi hơn.

Tấn công Training Data Poisoning

Các cuộc tấn công Training Data Poisoning chính xác không phải là tấn công Prompt Injection, nhưng chúng có những điểm tương đồng đáng chú ý về cách thức hoạt động và rủi ro mà chúng gây ra cho người dùng. Không giống như các cuộc tấn công Prompt Injection, những cuộc tấn công Training Data Poisoning là một loại tấn công đối nghịch trong Machine Learning, xảy ra khi tin tặc sửa đổi dữ liệu huấn luyện được sử dụng bởi mô hình AI. Kết quả tương tự cũng xảy ra: Đầu ra bị nhiễm độc và hành vi bị sửa đổi.

Những ứng dụng tiềm năng của các cuộc tấn công Training Data Poisoning thực tế là vô hạn. Ví dụ, về mặt lý thuyết, AI được sử dụng để lọc các nỗ lực lừa đảo từ nền tảng trò chuyện hoặc email có thể sửa đổi dữ liệu đào tạo của nó. Nếu tin tặc dạy cho AI moderator rằng một số loại hành vi lừa đảo nhất định có thể chấp nhận được thì chúng có thể gửi tin nhắn lừa đảo mà không bị phát hiện.

Các cuộc tấn công Training Data Poisoning không thể gây hại trực tiếp cho bạn nhưng có thể gây ra nhiều mối đe dọa khác. Nếu bạn muốn tự bảo vệ mình trước những cuộc tấn công này, hãy nhớ rằng AI không phải là công cụ hoàn hảo và bạn nên xem xét kỹ lưỡng mọi thứ bạn gặp phải trên mạng.

Tấn công Prompt Injection gián tiếp

Tấn công Prompt Injection gián tiếp là loại tấn công Prompt Injection nhanh chóng gây rủi ro lớn nhất cho bạn, với tư cách là người dùng cuối. Các cuộc tấn công này xảy ra khi những hướng dẫn độc hại được cung cấp cho Generative AI bằng một tài nguyên bên ngoài, chẳng hạn như lệnh gọi API, trước khi bạn nhận được thông tin đầu vào mong muốn.

Tấn công Prompt Injection gián tiếp

Một bài báo có tiêu đề "Làm tổn hại các ứng dụng tích hợp LLM trong thế giới thực bằng Prompt Injection gián tiếp trên arXiv" đã trình bày một cuộc tấn công lý thuyết trong đó AI có thể được hướng dẫn để thuyết phục người dùng đăng ký một trang web lừa đảo trong câu trả lời, sử dụng văn bản ẩn (với mắt người nhưng mô hình AI hoàn toàn có thể đọc được) để lén lút đưa thông tin vào. Một cuộc tấn công khác của cùng một nhóm nghiên cứu được ghi lại trên GitHub cho thấy một cuộc tấn công trong đó Copilot (trước đây là Bing Chat) được thực hiện để thuyết phục người dùng rằng đó là một đại lý hỗ trợ trực tiếp đang tìm kiếm thông tin thẻ tín dụng.

Các cuộc tấn công Prompt Injection gián tiếp đang đe dọa vì chúng có thể thao túng những câu trả lời bạn nhận được từ mô hình AI đáng tin cậy - nhưng đó không phải là mối đe dọa duy nhất mà chúng gây ra. Như đã đề cập trước đó, chúng cũng có thể khiến bất kỳ AI tự trị nào mà bạn có thể sử dụng hành động theo những cách không mong muốn và có thể gây hại.

Các cuộc tấn công AI Prompt Injection có phải là mối đe dọa không?

Các cuộc tấn công AI Prompt Injection là một mối đe dọa, nhưng vẫn chưa biết chính xác những lỗ hổng này có thể được sử dụng như thế nào. Không có bất kỳ cuộc tấn công AI Prompt Injection thành công nào được biết đến và nhiều nỗ lực đã biết được thực hiện bởi những nhà nghiên cứu không có ý định thực sự gây hại. Tuy nhiên, nhiều nhà nghiên cứu AI coi các cuộc tấn công AI Prompt Injection là một trong những thách thức khó khăn nhất để triển khai AI một cách an toàn.

Hơn nữa, mối đe dọa về các cuộc tấn công AI Prompt Injection đã được những cơ quan chức năng chú ý. Theo Washington Post, vào tháng 7 năm 2023, Ủy ban Thương mại Liên bang đã điều tra OpenAI, tìm kiếm thêm thông tin về các trường hợp đã biết về những cuộc tấn công Prompt Injection. Chưa có cuộc tấn công nào được biết là thành công ngoài thử nghiệm, nhưng điều đó có thể sẽ thay đổi.

Tin tặc liên tục tìm kiếm các phương tiện mới và chúng ta chỉ có thể đoán tin tặc sẽ sử dụng những cuộc tấn công Prompt Injection như thế nào trong tương lai. Bạn có thể tự bảo vệ mình bằng cách luôn áp dụng mức độ giám sát lành mạnh đối với AI. Các mô hình AI cực kỳ hữu ích, nhưng điều quan trọng cần nhớ là bạn có một thứ mà AI không có: Khả năng phán đoán của con người. Hãy nhớ rằng bạn nên xem xét kỹ lưỡng kết quả đầu ra mà bạn nhận được từ các công cụ như Copilot và thích sử dụng các công cụ AI khi chúng phát triển và cải tiến.

Thứ Năm, 25/01/2024 16:50

5 ★ 1 👨 850

Bạn nên đọc

Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!