Gần 200.000 cuốn sách bị vi phạm bản quyền để "huấn luyện" AI
Gần 200.000 cuốn sách đang được một số công ty công nghệ lớn sử dụng để đào tạo hệ thống trí tuệ nhân tạo. Điều quan trọng là tác giả của các cuốn sách này không hề hay biết về sự việc.
Theo một cuộc điều tra của The Atlantic, một hệ thống có tên Books3 đã sử dụng dữ liệu dựa trên bộ sưu tập sách điện tử vi phạm bản quyền thuộc mọi thể loại để giúp các hệ thống AI “học” cách truyền đạt thông tin.
Kết quả điều tra cho thấy, với AI tiên tiến phải có nguồn văn bản chất lượng cao để tiếp thu ngôn ngữ và đó là lý do sách được sử dụng. Books3 là đề tài của nhiều vụ kiện Meta và các công ty khác, xoay quanh việc sử dụng hệ thống này để huấn luyện trí tuệ nhân tạo.
Cũng từ cơ sở dữ liệu được lấy từ Books3 của The Atlantic, các tác giả có thể kiểm tra xem liệu cuốn sách của họ có đang được sử dụng để huấn luyện AI hay không.
Cho đến thời điểm hiện tại, các tác giả của gần 200.000 cuốn sách đã thấy tài liệu của mình bị sử dụng. Điều quan trọng là không hề có văn bản xin phép hay bất cứ động thái liên quan đến bản quyền trong việc sử dụng sách để cài đặt cho AI.
Theo The Atlantic, Nora Roberts, tiểu thuyết gia lãng mạn nổi tiếng, có tới 206 cuốn sách bị lấy dữ liệu. Roberts nói: “Chúng tôi là con người, chúng tôi là nhà văn, và chúng tôi đang bị lợi dụng bởi những người sử dụng tác phẩm của chúng tôi mà không được phép hay không trả thù lao”.