Một trong những hạn chế đáng chú ý của các AI Agent hiện nay không phải là khả năng suy luận hay độ chính xác, mà nằm ở việc các agent không lưu giữ thông tin sau khi kết thúc một phiên làm việc. Mỗi khi bắt đầu phiên mới, agent hoạt động như một thực thể hoàn toàn tách biệt, không nhớ được lịch sử tương tác, dữ liệu người dùng cung cấp hay công việc đang dang dở. Kevin Chen – kỹ sư tại Anthropic – gọi đây là trạng thái “bị cô lập theo mặc định” và đã trình bày chi tiết vấn đề này trong một workshop kỹ thuật mới công bố.

Mô tả giới hạn bộ nhớ của AI Agent
Các chatbot như Claude hay ChatGPT được thiết kế để xử lý từng cuộc hội thoại riêng biệt với mục tiêu trả lời câu hỏi trong phạm vi phiên đó, sau khi kết thúc thì mọi thông tin đều bị xóa bỏ. Điều này hoàn toàn phù hợp với cách sử dụng phổ biến của chatbot truyền thống. Tuy nhiên, với AI Agent chịu trách nhiệm thực thi các tác vụ phức tạp kéo dài qua nhiều phiên hoặc có thể tự động vận hành mà không cần giám sát liên tục thì đây lại là điểm yếu nghiêm trọng. Ví dụ, một AI Agent quản lý dự án cần ghi nhớ những deadline hiện tại, hoặc một agent nghiên cứu phải biết tài liệu nào đã được đọc và phân tích từ lần làm việc trước. Nếu không có khả năng lưu giữ thông tin qua các phiên, dù agent có mạnh mẽ đến đâu cũng chỉ là công cụ hỗ trợ tra cứu tạm thời chứ không thể trở thành cộng sự lâu dài.
Để giải quyết bài toán này, Anthropic đã phát triển một quy trình gồm bốn bước xoay quanh hai tính năng chủ đạo: Memory Store và Dreaming.

Memory Store lưu trữ thông tin hiệu quả
Bước đầu tiên là thiết lập Memory Store – một kho lưu trữ dạng hệ thống tệp được tích hợp trực tiếp vào phiên làm việc khi khởi tạo. Thay vì sử dụng cơ sở dữ liệu truyền thống, Anthropic chọn giải pháp lưu file trực tiếp nhằm tận dụng các lệnh tìm kiếm quen thuộc và cho phép truy xuất linh hoạt hơn. Mỗi tệp trong Memory Store được quản lý theo phiên bản giúp dễ dàng truy vết mọi thay đổi. Khi tạo Memory Store, lập trình viên chỉ cần đặt tên cùng mô tả ngắn gọn và có thể theo dõi toàn bộ nội dung qua giao diện trực quan trên bảng điều khiển. Đáng chú ý, Memory Store hoàn toàn linh hoạt trong việc tạo riêng cho mỗi người dùng hoặc nhóm làm việc tuỳ theo mục đích sử dụng.
Bước thứ hai liên quan đến việc gắn Memory Store vào phiên làm việc mới bằng cách truyền mã định danh kèm hai tham số quan trọng. Tham số đầu tiên cho phép hướng dẫn agent về loại thông tin cần ghi nhớ như quyết định đầu tư hay tiến độ dự án. Tham số thứ hai kiểm soát quyền truy cập – mặc định là quyền đọc và ghi nhưng có thể tùy chỉnh chỉ cho phép đọc nhằm bảo vệ dữ liệu gốc. Khi phiên làm việc bắt đầu, agent sẽ tự động truy cập Memory Store để lấy ngữ cảnh liên quan rồi ghi lại các thông tin mới ở cuối phiên. Hệ thống còn cho phép tổ chức dữ liệu theo thư mục con và người dùng có thể tự chỉnh sửa nếu phát hiện sai sót hoặc muốn bổ sung thêm ngữ cảnh.

Tích hợp Memory Store vào quá trình làm việc
Tuy nhiên, việc cho phép agent ghi tự do vào Memory Store theo thời gian gây ra nguy cơ kho lưu trữ ngày càng phình to với dữ liệu trùng lặp và nhiều thông tin cũ không còn chính xác. Để đối phó với thách thức này, Anthropic phát triển Dreaming – một tiến trình xử lý hàng loạt chạy nền bất đồng bộ dựa trên kiến trúc đa agent. Một agent điều phối sẽ kích hoạt nhiều agent con chịu trách nhiệm rà soát từng bản ghi trong kho lưu trữ.

Quá trình Dreaming xử lý dữ liệu bộ nhớ
Trong quá trình Dreaming, lập trình viên cung cấp danh sách các phiên cần rà soát và lựa chọn mô hình AI phù hợp như Claude Opus 4.7 hoặc Sonnet 4.6 tùy theo yêu cầu chất lượng và ngân sách. Các agent con sẽ kiểm tra tính xác thực thông tin, bổ sung chi tiết thiếu như ngày tháng và mã định danh cụ thể, loại bỏ dữ liệu trùng lặp hoặc lỗi thời đồng thời tạo ra một tệp mục lục tổng hợp giúp các agent tương lai dễ dàng tiếp cận nhanh chóng thay vì phải tìm kiếm toàn bộ kho lưu trữ thủ công.

Kiểm duyệt bộ nhớ sau quá trình Dreaming
Dreaming tiêu thụ lượng token đáng kể do tính chất toàn diện của quy trình nhưng đạt tỷ lệ truy xuất từ bộ đệm lên đến 95% trong phần lớn trường hợp thử nghiệm. Công ty cũng đang nghiên cứu các phương án giảm chi phí thêm khoảng 50% bằng cách áp dụng cơ chế lên lịch xử lý theo đợt giống mô hình batch processing hiện tại.

Kiểm duyệt bộ nhớ sau quá trình Dreaming
Bước cuối cùng trong quy trình là xem xét, phê duyệt và thay thế kho lưu trữ cũ bằng kho được tối ưu hóa từ Dreaming. Thiết kế hệ thống đảm bảo rằng kho lưu trữ gốc không bị chỉnh sửa trực tiếp mà tạo ra bản sao mới hoàn chỉnh để người dùng có thể so sánh trực quan những thay đổi trên bảng điều khiển quản trị: tập tin nào được thêm mới, thông tin nào được cập nhật hay loại bỏ. Đây là bước kiểm soát của con người nhằm phát hiện lỗi hoặc bổ sung ngữ cảnh trước khi đưa vào sử dụng chính thức. Lập trình viên sau đó gắn kho lưu trữ đã duyệt vào các phiên làm việc tiếp theo đồng thời có thể đánh dấu kho cũ là không còn hoạt động nhằm giữ số lượng Memory Store trong tổ chức ở mức hợp lý mà không ảnh hưởng đến các phiên đã sử dụng kho cũ trước đó.
Kevin Chen tổng kết kiến trúc này gồm ba lớp chính: lớp phiên làm việc là đơn vị tạm thời cô lập; lớp Memory Store kết nối thông tin giữa các phiên; lớp Dreaming liên tục cải thiện chất lượng bộ nhớ theo thời gian. Phương pháp này đã giải quyết triệt để vấn đề mà lập trình viên từng phải nhồi nhét toàn bộ ngữ cảnh vào đầu mỗi phiên mới khiến chi phí tăng cao và hiệu quả giảm sút khi dữ liệu tích lũy ngày càng lớn. Với Memory Store cùng Dreaming, AI Agent giờ đây không chỉ sở hữu bộ nhớ liên tục mà còn có khả năng tự tối ưu hóa trí nhớ qua từng chu kỳ làm việc.