Bộ phận trí thông minh nhân tạo (AI) DeepMind của Google vừa cho biết đã đạt đến tầm cao mới trong việc tạo ra hệ thống phát âm với giọng như con người.
DeepMind được biết đến với việc phát triển AlphaGo đánh bại nhà vô địch cờ vây thế giới. Không dừng lại ở đó, bộ phận của Google lại tiếp tục phát triển hệ thống mới gọi là WaveNet, hệ thống AI mới có khả năng hành động như một mạng lưới thần kinh chuyên sâu, có khả năng tạo ra bài phát biểu bằng cách lấy mẫu giọng nói người thật và hình thành dạng sóng âm thanh thô.
DeepMind tiếp tục phát triển hệ thống AI mới nhằm tạo bước độ phá về cách phát âm của robot
Thử nghiệm với người tiếng Anh và tiếng Trung Quốc đã phát hiện ra rằng WaveNet tốt hơn so với hệ thống text-to-speech, vốn không thuyết phục về chất lượng bài phát biểu.
Hiện tại chương trình text-to-speech làm việc theo một trong hai cách. Đầu tiên là giọng nói của con người-âm thanh thông qua một bản ghi âm bài phát biểu, sau đó sắp xếp lại dựa vào các sóng âm. Cách khác đó là dựa trên giọng nói mà máy tính đã tạo ra và được lập trình với các quy tắc về ngữ pháp và âm thanh, có nghĩa nó không cần dữ liệu ghi lại mà phát ra bởi robot, nhưng vẫn tốt hơn so với text-to-speech.
WaveNet về cơ bản vẫn sử dụng đầu vào tiếng nói thực sự, nhưng nó học và bắt chước lời nói tốt hơn. Một WaveNet có thể nắm bắt được các đặc điểm của nhiều diễn giả khác nhau với độ chính xác như nhau, có thể chuyển đổi giữa chúng bằng cách điều khiển bản sắc âm phát.
Trên thực tế, nó có thể áp dụng những thứ như chuyển động miệng và hơi thở nhân tạo để mô phỏng biến tố và cảm xúc. Nếu đó là chưa đủ, AI cũng hoạt động như với nhạc piano, khi các nhà nghiên cứu cho phép nó làm việc với các tác phẩm cổ điển, từ đó tạo ra các tác phẩm riêng.
WaveNet vẫn còn một chặng dường dài để đưa vào các ứng dụng cũng như trợ lý giọng nói của Google, tuy nhiên hiện tại DeepMind đã công bố một số mẫu bản âm thanh phát ra bởi WaveNet trên trang dự án của họ.