Baichuan tuyên bố vượt OpenAI về xử lý văn bản dài
Baichuan vừa ra mắt một mô hình ngôn ngữ lớn Baichuan2-192k mà công ty cho biết có thể hấp thụ và tóm tắt tiểu thuyết. Theo Baichuan, Baichuan2-192k trở thành mô hình ngôn ngữ lớn mạnh mẽ nhất thế giới trong việc xử lý các truy vấn văn bản dài.
Baichuan2-192k là mô hình ngôn ngữ lớn (LLM) mới nhất của Baichuan - công ty đứng sau công cụ tìm kiếm phổ biến ở Trung Quốc Sogou. Nhà sáng lập Wang Xiaochuan cho biết LLM mới dựa trên "cửa sổ ngữ cảnh" (Context Window) có thể xử lý khoảng 350.000 ký tự tiếng Trung, qua đó trở thành mô hình mạnh nhất thế giới trong việc xử lý các câu lệnh văn bản dài.
Cửa sổ ngữ cảnh là sự kết hợp giữa văn bản đầu vào và đầu ra mà mô hình có thể xử lý trong quá trình hội thoại với người dùng.
Để so sánh, Claude 2 trước đó là mô hình ngôn ngữ lớn tiên tiến nhất thế giới xét về số lượng từ mà người dùng có thể đưa vào truy vấn trò chuyện của họ, được cho có cửa sổ ngữ cảnh khoảng 75.000 từ tiếng Anh, tương ứng với hàng trăm trang tài liệu hoặc một cuốn sách. Claude 2 được công ty Anthropic (Mỹ), do Amazon hậu thuẫn, giới thiệu vào tháng 7. Nếu tuyên bố của Baichuan là chính xác, Baichuan2-192k đang mạnh hơn Claude 2 gấp gần năm lần.
Baichuan khẳng định mô hình của họ vượt qua Claude 2 về chất lượng phản hồi cũng như khả năng hiểu và tóm tắt văn bản dài. Tuyên bố này dựa trên kết quả kiểm tra của LongEval, dự án do Đại học California, Berkeley và các tổ chức khác của Mỹ khởi xướng nhằm đánh giá mức độ xử lý của một mô hình LLM cụ thể.
Theo Xiaochuan, Baichuan2-192k hữu ích cho các doanh nghiệp cần xử lý và tạo văn bản dài hàng ngày, chẳng hạn ngành pháp lý, truyền thông. tài chính. Công ty đang thử nghiệm mô hình cho một số đối tác ở phạm vi nội bộ.
Tuy nhiên, nghiên cứu chung của các học giả từ Đại học Stanford và Đại học California (Berkeley) cho thấy khả năng xử lý nhiều thông tin hơn không hẳn làm cho một mô hình ngôn ngữ lớn tốt hơn so với các đối thủ khác. Baichaun phải đối mặt với sự cạnh tranh ngày càng cao từ các đối thủ Trung Quốc đang chạy đua để thu hút người dùng đến với các mô hình và ứng dụng AI của họ.
Ngày 31/10, Alibaba cho biết Tongyi Qianwen - mô hình AI được đào tạo với hàng trăm tỷ thông số - đã vượt GPT-3.5 của OpenAI và Llama2 của Meta, đồng thời "thu hẹp khoảng cách đáng kể" với GPT-4. Trong khi đó, Zhipu AI, công ty khởi nghiệp do Alibaba và Tencent hậu thuẫn, tuần trước ra mắt ChatGLM3 với nhiều cải tiến, gồm tốc độ suy luận nhanh hơn, chi phí đào tạo thấp hơn và bổ sung trợ lý mã hóa.