Ít ai biết rằng chatbot AI nổi tiếng Claude không chỉ được phát triển bởi các kỹ sư và chuyên gia machine learning, mà còn nhờ công sức của một triết gia tại công ty Anthropic. Amanda Askell, nhà nghiên cứu AI đồng thời là triết gia làm việc tại trụ sở Anthropic ở San Francisco, đã đảm nhiệm vai trò đặc biệt trong việc xây dựng bộ quy tắc đạo đức giúp định hình hành vi của Claude khi tương tác với con người. Công việc của cô không đơn thuần là lập trình hay huấn luyện mô hình, mà còn liên quan đến việc chuyển hóa các nguyên tắc triết học và đạo đức thành một hệ thống hướng dẫn khả thi cho trí tuệ nhân tạo.

Amanda Askell, triết gia và nhà nghiên cứu AI tại Anthropic
Điểm đặc biệt nhất trong quá trình phát triển Claude chính là bản tài liệu hướng dẫn dài khoảng 30.000 từ mà Amanda Askell biên soạn. Tài liệu này đóng vai trò như một hiến pháp thu nhỏ dành cho AI, cung cấp những nguyên tắc chi tiết về cách phản hồi người dùng, xử lý các câu hỏi nhạy cảm cũng như từ chối các yêu cầu tiềm ẩn nguy hiểm một cách rõ ràng và minh bạch. Thay vì chỉ dựa vào dữ liệu huấn luyện truyền thống cùng phản hồi con người, Anthropic còn áp dụng phương pháp gọi là Constitutional AI – trong đó AI được cung cấp một hệ khung các giá trị đạo đức để tự đánh giá và điều chỉnh câu trả lời của mình sao cho phù hợp.
Một phần không thể thiếu của tài liệu đề cập đến cách chatbot Claude ứng xử với những tình huống khó xử hoặc có tính chất gây hại. Khi người dùng cố gắng khai thác để yêu cầu tạo ra nội dung độc hại, lừa đảo hoặc thao túng, Claude sẽ từ chối dứt khoát và giải thích rõ lý do thay vì đáp trả mập mờ hay tránh né. Bên cạnh việc ngăn chặn các hành vi nguy hiểm, Anthropic còn mong muốn Claude thể hiện sự lịch sự và thấu cảm trong giao tiếp – dù thực tế AI không có cảm xúc thật nhưng được thiết kế để phản hồi tinh tế, phù hợp với ngữ cảnh nhằm tránh gây tổn thương người dùng.
Vai trò của Amanda Askell khác biệt hoàn toàn so với hình dung thông thường về ngành trí tuệ nhân tạo. Cô không trực tiếp viết mã hay xây dựng thuật toán mà tập trung giải quyết những vấn đề mang tính triết học và đạo đức xã hội, từ đó phát triển thành bộ quy tắc cụ thể để AI áp dụng. Câu chuyện này phản ánh một khía cạnh thú vị của lĩnh vực AI hiện đại: khi các mô hình ngày càng mạnh mẽ và lan rộng ứng dụng, việc xác định chuẩn mực đạo đức cho AI trở thành bài toán trọng tâm và không phải lúc nào cũng do các kỹ sư đảm nhận.

Câu chuyện cho thấy vai trò đặc biệt của triết gia trong phát triển chatbot Claude
Có thể nói, mỗi câu trả lời lễ phép và tinh tế từ Claude đều dựa trên nền tảng của bản hướng dẫn dài tới 30.000 từ mà Amanda Askell kỳ công xây dựng. Những lần chatbot từ chối trả lời theo cách nhẹ nhàng chính là biểu hiện rõ nét nhất cho sự vận hành hiệu quả của “bản hiến pháp” này. Đây cũng là minh chứng cho thấy bên cạnh tiến bộ công nghệ, yếu tố đạo đức luôn đóng vai trò nền tảng giúp AI tương tác có trách nhiệm và nhân văn hơn với người dùng.