OpenAI vừa giới thiệu ba tính năng mới trong bộ API giọng nói, mở ra cơ hội cho các lập trình viên phát triển ứng dụng có khả năng trò chuyện tương tác, dịch thuật nhanh và phiên âm theo thời gian thực. Những cải tiến này tập trung nâng cao trải nghiệm người dùng qua giao diện giọng nói thông minh, đồng thời tăng cường khả năng xử lý và phản hồi phức tạp, phục vụ đa dạng nhu cầu trong nhiều ngành nghề khác nhau.
Mô hình GPT-Realtime-2 là điểm nhấn nổi bật trong lần ra mắt này khi được trang bị khả năng suy luận vượt trội, tương đương với phiên bản GPT-5. Điều này giúp mô hình không chỉ đơn giản trả lời các câu hỏi theo kịch bản có sẵn mà còn xử lý linh hoạt những yêu cầu phức tạp hơn trong cuộc đối thoại. Nhờ đó, giọng nói tạo ra từ GPT-Realtime-2 trở nên tự nhiên và mang tính tương tác cao hơn đáng kể so với phiên bản tiền nhiệm GPT-Realtime-1.5.
GPT-Realtime-Translate là tính năng dịch thuật theo thời gian thực được thiết kế bắt kịp tốc độ hội thoại tự nhiên của người dùng. Hệ thống hỗ trợ nhận diện hơn 70 ngôn ngữ đầu vào, đồng thời cung cấp bản dịch đầu ra ở 13 ngôn ngữ phổ biến, giúp mở rộng phạm vi giao tiếp và ứng dụng trên toàn cầu một cách thuận tiện và hiệu quả.
GPT-Realtime-Whisper cho phép chuyển đổi giọng nói thành văn bản ngay lập tức khi cuộc trò chuyện diễn ra, loại bỏ việc phải chờ kết thúc mới có thể phiên âm. Tính năng này đặc biệt hữu ích cho các trường hợp cần ghi lại nội dung hội thoại trực tiếp, như trong các buổi họp, sự kiện hay lớp học trực tuyến.

API giọng nói OpenAI hỗ trợ đa ngôn ngữ và phiên âm
Theo đại diện OpenAI, các model được phát triển nhằm vượt lên trên giới hạn của mô hình hỏi-đáp truyền thống bằng cách hỗ trợ giao diện giọng nói toàn diện: bao gồm lắng nghe, suy luận, dịch thuật và phiên âm liên tục trong suốt cuộc trò chuyện. Điều này góp phần biến các ứng dụng và dịch vụ sử dụng API trở nên thông minh hơn, đáp ứng tốt hơn nhu cầu tương tác tự nhiên giữa con người với máy móc.
Nhóm đối tượng chính hướng đến của bộ API giọng nói mới là các doanh nghiệp muốn nâng cao chất lượng chăm sóc khách hàng qua giao tiếp đa ngôn ngữ. Bên cạnh đó, công nghệ cũng được kỳ vọng sẽ mang lại giá trị cho lĩnh vực giáo dục, truyền thông đa phương tiện, sự kiện trực tiếp cũng như các nền tảng sáng tạo nội dung số. Về mặt bảo mật và vận hành an toàn, hệ thống tích hợp nhiều lớp kiểm soát để phòng chống việc sử dụng sai mục đích như gửi tin rác hoặc gian lận trực tuyến. Khi phát hiện nội dung vi phạm chính sách, hệ thống có thể tự động ngắt kết nối nhằm đảm bảo môi trường tương tác lành mạnh.
Về cơ chế tính phí, hai model GPT-Realtime-Translate và GPT-Realtime-Whisper áp dụng mức phí dựa trên số phút sử dụng thực tế. Trong khi đó, GPT-Realtime-2 được thanh toán theo lượng token được tiêu thụ trong quá trình vận hành. Đây là mô hình kinh tế phù hợp với nhiều quy mô doanh nghiệp cũng như nhu cầu phát triển ứng dụng đa dạng.