
Bảo mật LLM
Bảo mật LLM bao gồm các thực hành, kỹ thuật và kiểm soát được sử dụng để bảo vệ các triển khai mô hình ngôn ngữ lớn khỏi một lớp mối đe dọa đặc thù của AI bao g...

Thao túng cửa sổ ngữ cảnh đề cập đến các cuộc tấn công khai thác cửa sổ ngữ cảnh hữu hạn của các mô hình ngôn ngữ lớn — bao gồm nhồi nhét ngữ cảnh, tràn ngữ cảnh và đầu độc chiến lược — để làm suy giảm hiệu suất, che giấu các tải trọng độc hại hoặc ghi đè các chỉ thị trước đó.
Cửa sổ ngữ cảnh là một trong những ranh giới bảo mật quan trọng nhất và ít được hiểu nhất trong các triển khai mô hình ngôn ngữ lớn. Nó xác định thông tin nào mà LLM có thể truy cập trong một lần gọi suy luận — và đó là một tài nguyên hữu hạn mà kẻ tấn công có thể cố ý khai thác.
Một mô hình ngôn ngữ lớn xử lý văn bản dưới dạng token (khoảng 3/4 từ trên mỗi token). Cửa sổ ngữ cảnh xác định số lượng token tối đa mà mô hình có thể xử lý cùng một lúc. Các mô hình hiện đại dao động từ 4K đến hơn 1M token, nhưng tất cả đều có giới hạn.
Trong cửa sổ ngữ cảnh, LLM xử lý:
Tất cả những điều này xuất hiện như một luồng thống nhất đối với mô hình. Mô hình không có cơ chế vốn có để xử lý các chỉ thị từ các nguồn khác nhau một cách khác biệt — và sự chú ý của nó đến các phần cụ thể của ngữ cảnh không đồng đều.
Kẻ tấn công gửi một đầu vào cực kỳ lớn — thường là một tài liệu dài, khối mã hoặc kết xuất văn bản — để đẩy nội dung trước đó (đặc biệt là lời nhắc hệ thống) xa hơn khỏi vị trí hiện tại của mô hình.
Nghiên cứu chứng minh rằng các LLM thể hiện hành vi “lạc ở giữa”: chúng chú ý nhiều hơn đến nội dung ở đầu và cuối của các ngữ cảnh dài, và ít chú ý hơn đến thông tin ở giữa. Bằng cách làm ngập ngữ cảnh, kẻ tấn công có thể định vị chiến lược tải trọng độc hại của họ (thường ở cuối) trong khi các chỉ thị an toàn trước đó trôi vào vùng chú ý thấp ở giữa.
Ví dụ thực tế: Lời nhắc hệ thống của chatbot thiết lập rằng nó không thể thảo luận về sản phẩm đối thủ cạnh tranh. Kẻ tấn công gửi một tài liệu 50.000 token theo sau là một lời nhắc hỏi về đối thủ cạnh tranh. Chỉ thị lời nhắc hệ thống đã bị loãng hiệu quả.
Khi ngữ cảnh đầy, LLM hoặc cơ sở hạ tầng của nó phải quyết định loại bỏ gì. Nếu việc cắt ngắn ưu tiên tính gần đây (loại bỏ nội dung cũ nhất trước), kẻ tấn công có thể làm tràn ngữ cảnh để loại bỏ hoàn toàn lời nhắc hệ thống — để lại mô hình hoạt động chỉ với ngữ cảnh do người dùng cung cấp.
Trình tự tấn công:
Trong các hệ thống RAG, các tài liệu được truy xuất tiêu tốn không gian ngữ cảnh đáng kể. Kẻ tấn công có thể ảnh hưởng đến những gì được truy xuất (thông qua đầu độc RAG ) có thể chọn lọc lấp đầy ngữ cảnh với nội dung phục vụ mục tiêu của họ trong khi đẩy ra thông tin hợp pháp.
Nghiên cứu đã xác định rằng các chỉ thị ở các vị trí cụ thể trong ngữ cảnh có ảnh hưởng không cân xứng. Kẻ tấn công hiểu cách lắp ráp ngữ cảnh có thể tạo ra các đầu vào được thiết kế để đặt ở các vị trí chú ý cao so với tải trọng của họ.
Trong các mô hình hỗ trợ ngữ cảnh rất dài (hàng trăm nghìn token), kẻ tấn công có thể nhúng hàng trăm ví dụ “minh họa” cho thấy mô hình tạo ra các đầu ra vi phạm chính sách trước yêu cầu độc hại thực tế. Mô hình, được điều kiện hóa bởi các minh họa này, có khả năng tuân thủ cao hơn đáng kể.
Không đặt tất cả các chỉ thị quan trọng về bảo mật chỉ ở đầu lời nhắc hệ thống. Lặp lại các ràng buộc chính ở cuối lời nhắc hệ thống và xem xét chèn các lời nhắc ngắn gọn tại các điểm chính trong các cuộc hội thoại dài.
Triển khai giới hạn độ dài đầu vào tối đa phù hợp với trường hợp sử dụng của bạn. Một chatbot dịch vụ khách hàng hiếm khi cần xử lý đầu vào 100.000 token — giới hạn điều này làm giảm nguy cơ tấn công làm ngập.
Ghi nhật ký và giám sát kích thước và thành phần ngữ cảnh. Các đầu vào lớn bất thường, tăng trưởng ngữ cảnh nhanh chóng hoặc thành phần ngữ cảnh bất ngờ là các chỉ báo tấn công tiềm năng.
Đối với các cuộc hội thoại kéo dài, triển khai tóm tắt ngữ cảnh giữ lại các sự kiện và ràng buộc chính thay vì lịch sử hội thoại thô. Điều này chống lại các cuộc tấn công tràn trong khi duy trì tính liên tục của cuộc hội thoại.
Bao gồm các kịch bản thao túng ngữ cảnh trong các cam kết kiểm thử thâm nhập AI . Kiểm tra xem các hành vi an toàn có giữ được trên các ngữ cảnh dài hay không và liệu các lời nhắc hệ thống có còn hiệu quả sau khi làm ngập ngữ cảnh hay không.
Cửa sổ ngữ cảnh là lượng văn bản (đo bằng token) mà một mô hình ngôn ngữ lớn có thể xử lý cùng một lúc. Nó bao gồm lời nhắc hệ thống, lịch sử hội thoại, tài liệu được truy xuất và đầu ra của công cụ. Mọi thứ mà mô hình 'biết' trong một phiên phải nằm trong cửa sổ này.
Kẻ tấn công có thể làm ngập ngữ cảnh bằng nội dung không liên quan để đẩy các chỉ thị ban đầu (bao gồm cả các rào cản an toàn) ra khỏi phạm vi chú ý hiệu quả của mô hình, chèn các tải trọng độc hại bị chôn vùi trong các ngữ cảnh dài và bị bỏ qua bởi các bộ lọc, hoặc khai thác hành vi cắt ngắn ngữ cảnh để đảm bảo nội dung độc hại tồn tại trong khi các chỉ thị hợp pháp thì không.
Các biện pháp phòng thủ bao gồm: neo các chỉ thị quan trọng tại nhiều điểm trong ngữ cảnh (không chỉ ở đầu), triển khai giới hạn kích thước ngữ cảnh, giám sát các tải trọng ngữ cảnh lớn bất thường, sử dụng tóm tắt ngữ cảnh cho các cuộc hội thoại dài và kiểm tra các kịch bản thao túng ngữ cảnh trong các đánh giá bảo mật.
Thao túng cửa sổ ngữ cảnh là một bề mặt tấn công bị đánh giá thấp. Kiểm thử thâm nhập của chúng tôi bao gồm các kịch bản tràn ngữ cảnh và đầu độc chiến lược.

Bảo mật LLM bao gồm các thực hành, kỹ thuật và kiểm soát được sử dụng để bảo vệ các triển khai mô hình ngôn ngữ lớn khỏi một lớp mối đe dọa đặc thù của AI bao g...

Một token trong ngữ cảnh của các mô hình ngôn ngữ lớn (LLMs) là một chuỗi ký tự mà mô hình chuyển đổi thành các biểu diễn số để xử lý hiệu quả. Token là các đơn...

Chúng tôi đã kiểm tra và xếp hạng khả năng viết của 5 mô hình phổ biến có trên FlowHunt để tìm ra LLM tốt nhất cho viết nội dung....