Cửa sổ ngữ cảnh trong LLM là gì?

Cửa sổ ngữ cảnh là lượng văn bản (đo bằng token) mà một mô hình ngôn ngữ lớn có thể xử lý cùng một lúc. Nó bao gồm lời nhắc hệ thống, lịch sử hội thoại, tài liệu được truy xuất và đầu ra của công cụ. Mọi thứ mà mô hình 'biết' trong một phiên phải nằm trong cửa sổ này.

Kẻ tấn công có thể khai thác cửa sổ ngữ cảnh như thế nào?

Kẻ tấn công có thể làm ngập ngữ cảnh bằng nội dung không liên quan để đẩy các chỉ thị ban đầu (bao gồm cả các rào cản an toàn) ra khỏi phạm vi chú ý hiệu quả của mô hình, chèn các tải trọng độc hại bị chôn vùi trong các ngữ cảnh dài và bị bỏ qua bởi các bộ lọc, hoặc khai thác hành vi cắt ngắn ngữ cảnh để đảm bảo nội dung độc hại tồn tại trong khi các chỉ thị hợp pháp thì không.

Làm thế nào để bảo vệ chống lại thao túng cửa sổ ngữ cảnh?

Các biện pháp phòng thủ bao gồm: neo các chỉ thị quan trọng tại nhiều điểm trong ngữ cảnh (không chỉ ở đầu), triển khai giới hạn kích thước ngữ cảnh, giám sát các tải trọng ngữ cảnh lớn bất thường, sử dụng tóm tắt ngữ cảnh cho các cuộc hội thoại dài và kiểm tra các kịch bản thao túng ngữ cảnh trong các đánh giá bảo mật.

Thao Túng Cửa Sổ Ngữ Cảnh

Thao túng cửa sổ ngữ cảnh đề cập đến các cuộc tấn công khai thác cửa sổ ngữ cảnh hữu hạn của các mô hình ngôn ngữ lớn — bao gồm nhồi nhét ngữ cảnh, tràn ngữ cảnh và đầu độc chiến lược — để làm suy giảm hiệu suất, che giấu các tải trọng độc hại hoặc ghi đè các chỉ thị trước đó.

Cửa sổ ngữ cảnh là một trong những ranh giới bảo mật quan trọng nhất và ít được hiểu nhất trong các triển khai mô hình ngôn ngữ lớn. Nó xác định thông tin nào mà LLM có thể truy cập trong một lần gọi suy luận — và đó là một tài nguyên hữu hạn mà kẻ tấn công có thể cố ý khai thác.

Cửa Sổ Ngữ Cảnh Là Gì?

Một mô hình ngôn ngữ lớn xử lý văn bản dưới dạng token (khoảng 3/4 từ trên mỗi token). Cửa sổ ngữ cảnh xác định số lượng token tối đa mà mô hình có thể xử lý cùng một lúc. Các mô hình hiện đại dao động từ 4K đến hơn 1M token, nhưng tất cả đều có giới hạn.

Trong cửa sổ ngữ cảnh, LLM xử lý:

Lời nhắc hệ thống: Các chỉ thị do nhà phát triển xác định thiết lập vai trò và ràng buộc của chatbot
Lịch sử hội thoại: Các lượt trước đó trong phiên hiện tại
Nội dung được truy xuất: Tài liệu, kết quả cơ sở dữ liệu và đầu ra công cụ được trả về bởi RAG hoặc tìm kiếm
Đầu vào người dùng: Tin nhắn hiện tại của người dùng

Tất cả những điều này xuất hiện như một luồng thống nhất đối với mô hình. Mô hình không có cơ chế vốn có để xử lý các chỉ thị từ các nguồn khác nhau một cách khác biệt — và sự chú ý của nó đến các phần cụ thể của ngữ cảnh không đồng đều.

Các Kỹ Thuật Tấn Công Cửa Sổ Ngữ Cảnh

Nhồi Nhét Ngữ Cảnh / Làm Ngập Ngữ Cảnh

Kẻ tấn công gửi một đầu vào cực kỳ lớn — thường là một tài liệu dài, khối mã hoặc kết xuất văn bản — để đẩy nội dung trước đó (đặc biệt là lời nhắc hệ thống) xa hơn khỏi vị trí hiện tại của mô hình.

Nghiên cứu chứng minh rằng các LLM thể hiện hành vi “lạc ở giữa”: chúng chú ý nhiều hơn đến nội dung ở đầu và cuối của các ngữ cảnh dài, và ít chú ý hơn đến thông tin ở giữa. Bằng cách làm ngập ngữ cảnh, kẻ tấn công có thể định vị chiến lược tải trọng độc hại của họ (thường ở cuối) trong khi các chỉ thị an toàn trước đó trôi vào vùng chú ý thấp ở giữa.

Ví dụ thực tế: Lời nhắc hệ thống của chatbot thiết lập rằng nó không thể thảo luận về sản phẩm đối thủ cạnh tranh. Kẻ tấn công gửi một tài liệu 50.000 token theo sau là một lời nhắc hỏi về đối thủ cạnh tranh. Chỉ thị lời nhắc hệ thống đã bị loãng hiệu quả.

Tràn Ngữ Cảnh / Khai Thác Cắt Ngắn

Khi ngữ cảnh đầy, LLM hoặc cơ sở hạ tầng của nó phải quyết định loại bỏ gì. Nếu việc cắt ngắn ưu tiên tính gần đây (loại bỏ nội dung cũ nhất trước), kẻ tấn công có thể làm tràn ngữ cảnh để loại bỏ hoàn toàn lời nhắc hệ thống — để lại mô hình hoạt động chỉ với ngữ cảnh do người dùng cung cấp.

Trình tự tấn công:

Thiết lập một cuộc hội thoại với nhiều lượt
Tạo ra các phản hồi dài để tối đa hóa mức tiêu thụ ngữ cảnh
Tiếp tục cho đến khi nội dung lời nhắc hệ thống bị cắt ngắn
Bây giờ đưa ra các chỉ thị độc hại mà không có lời nhắc hệ thống cạnh tranh

Đầu Độc Ngữ Cảnh Qua Nội Dung Được Truy Xuất

Trong các hệ thống RAG, các tài liệu được truy xuất tiêu tốn không gian ngữ cảnh đáng kể. Kẻ tấn công có thể ảnh hưởng đến những gì được truy xuất (thông qua đầu độc RAG ) có thể chọn lọc lấp đầy ngữ cảnh với nội dung phục vụ mục tiêu của họ trong khi đẩy ra thông tin hợp pháp.

Chèn Vị Trí

Nghiên cứu đã xác định rằng các chỉ thị ở các vị trí cụ thể trong ngữ cảnh có ảnh hưởng không cân xứng. Kẻ tấn công hiểu cách lắp ráp ngữ cảnh có thể tạo ra các đầu vào được thiết kế để đặt ở các vị trí chú ý cao so với tải trọng của họ.

Chèn Nhiều Lần

Trong các mô hình hỗ trợ ngữ cảnh rất dài (hàng trăm nghìn token), kẻ tấn công có thể nhúng hàng trăm ví dụ “minh họa” cho thấy mô hình tạo ra các đầu ra vi phạm chính sách trước yêu cầu độc hại thực tế. Mô hình, được điều kiện hóa bởi các minh họa này, có khả năng tuân thủ cao hơn đáng kể.

Biện Pháp Phòng Thủ Chống Lại Thao Túng Cửa Sổ Ngữ Cảnh

Neo Các Chỉ Thị Quan Trọng

Không đặt tất cả các chỉ thị quan trọng về bảo mật chỉ ở đầu lời nhắc hệ thống. Lặp lại các ràng buộc chính ở cuối lời nhắc hệ thống và xem xét chèn các lời nhắc ngắn gọn tại các điểm chính trong các cuộc hội thoại dài.

Giới Hạn Kích Thước Ngữ Cảnh

Triển khai giới hạn độ dài đầu vào tối đa phù hợp với trường hợp sử dụng của bạn. Một chatbot dịch vụ khách hàng hiếm khi cần xử lý đầu vào 100.000 token — giới hạn điều này làm giảm nguy cơ tấn công làm ngập.

Giám Sát Ngữ Cảnh

Ghi nhật ký và giám sát kích thước và thành phần ngữ cảnh. Các đầu vào lớn bất thường, tăng trưởng ngữ cảnh nhanh chóng hoặc thành phần ngữ cảnh bất ngờ là các chỉ báo tấn công tiềm năng.

Tóm Tắt Cho Các Cuộc Hội Thoại Dài

Đối với các cuộc hội thoại kéo dài, triển khai tóm tắt ngữ cảnh giữ lại các sự kiện và ràng buộc chính thay vì lịch sử hội thoại thô. Điều này chống lại các cuộc tấn công tràn trong khi duy trì tính liên tục của cuộc hội thoại.

Kiểm Tra Ngữ Cảnh Đối Kháng

Bao gồm các kịch bản thao túng ngữ cảnh trong các cam kết kiểm thử thâm nhập AI . Kiểm tra xem các hành vi an toàn có giữ được trên các ngữ cảnh dài hay không và liệu các lời nhắc hệ thống có còn hiệu quả sau khi làm ngập ngữ cảnh hay không.

Các Thuật Ngữ Liên Quan

Chèn Lời Nhắc — khai thác các lỗ hổng xử lý chỉ thị
Chèn Lời Nhắc Gián Tiếp — chèn qua nội dung môi trường
Buôn Lậu Token — bỏ qua bộ lọc dựa trên mã hóa
Đầu Độc RAG — làm nhiễm cơ sở tri thức
Bảo Mật LLM — các thực hành bảo mật AI toàn diện

Câu hỏi thường gặp

Cửa sổ ngữ cảnh trong LLM là gì?: Cửa sổ ngữ cảnh là lượng văn bản (đo bằng token) mà một mô hình ngôn ngữ lớn có thể xử lý cùng một lúc. Nó bao gồm lời nhắc hệ thống, lịch sử hội thoại, tài liệu được truy xuất và đầu ra của công cụ. Mọi thứ mà mô hình 'biết' trong một phiên phải nằm trong cửa sổ này.
Kẻ tấn công có thể khai thác cửa sổ ngữ cảnh như thế nào?: Kẻ tấn công có thể làm ngập ngữ cảnh bằng nội dung không liên quan để đẩy các chỉ thị ban đầu (bao gồm cả các rào cản an toàn) ra khỏi phạm vi chú ý hiệu quả của mô hình, chèn các tải trọng độc hại bị chôn vùi trong các ngữ cảnh dài và bị bỏ qua bởi các bộ lọc, hoặc khai thác hành vi cắt ngắn ngữ cảnh để đảm bảo nội dung độc hại tồn tại trong khi các chỉ thị hợp pháp thì không.
Làm thế nào để bảo vệ chống lại thao túng cửa sổ ngữ cảnh?: Các biện pháp phòng thủ bao gồm: neo các chỉ thị quan trọng tại nhiều điểm trong ngữ cảnh (không chỉ ở đầu), triển khai giới hạn kích thước ngữ cảnh, giám sát các tải trọng ngữ cảnh lớn bất thường, sử dụng tóm tắt ngữ cảnh cho các cuộc hội thoại dài và kiểm tra các kịch bản thao túng ngữ cảnh trong các đánh giá bảo mật.

Kiểm Tra Chatbot Của Bạn Chống Lại Các Cuộc Tấn Công Dựa Trên Ngữ Cảnh

Thao túng cửa sổ ngữ cảnh là một bề mặt tấn công bị đánh giá thấp. Kiểm thử thâm nhập của chúng tôi bao gồm các kịch bản tràn ngữ cảnh và đầu độc chiến lược.

Đặt Lịch Đánh Giá Bảo Mật Đặt Lịch Demo

Tìm hiểu thêm

Bảo mật LLM

Bảo mật LLM bao gồm các thực hành, kỹ thuật và kiểm soát được sử dụng để bảo vệ các triển khai mô hình ngôn ngữ lớn khỏi một lớp mối đe dọa đặc thù của AI bao g...

Mar 12, 2026 6 phút đọc

LLM Security AI Security +3

Token

Một token trong ngữ cảnh của các mô hình ngôn ngữ lớn (LLMs) là một chuỗi ký tự mà mô hình chuyển đổi thành các biểu diễn số để xử lý hiệu quả. Token là các đơn...

May 30, 2025 4 phút đọc

Token LLM +3

Tìm kiếm LLM tốt nhất cho viết nội dung: Đã kiểm tra và xếp hạng

Chúng tôi đã kiểm tra và xếp hạng khả năng viết của 5 mô hình phổ biến có trên FlowHunt để tìm ra LLM tốt nhất cho viết nội dung....

May 30, 2025 15 phút đọc

AI Content Writing +6