Project Gutenberg sử dụng AI chuyển văn bản thành giọng nói, phát hành 5.000 cuốn sách nói miễn phí

Sách nói đã trở nên phổ biến trong những năm gần đây nhưng việc tiếp cận là vô cùng khó khăn và tốn kém.

Giờ đây, độc giả có thể nghe hàng nghìn cuốn sách nói về văn học cổ điển miễn phí và các tài liệu thuộc phạm vi công cộng khác thông qua Project Gutenberg. Các nhà nghiên cứu của MicrosoftMIT đã tạo ra bộ sưu tập này bằng cách quét sách bằng phần mềm chuyển văn bản thành giọng nói nghe có vẻ tự nhiên và có thể phân tích định dạng đầy đủ.

Các văn bản bao gồm các tác phẩm của Shakespeare, Agatha Christie, Jane Austen, Leonardo Da Vinci và những người nổi tiếng khác. Người dùng có thể nghe chúng trên Internet Archive, Spotify, Apple Podcasts và Google Podcasts. Mã được sử dụng để xây dựng bộ sưu tập có sẵn trên GitHub.

Project Gutenberg sử dụng AI chuyển văn bản thành giọng nói, phát hành 5.000 cuốn sách nói miễn phí

Apple bắt đầu bán sách nói vào tháng 1 bằng công nghệ chuyển văn bản thành giọng nói tự động. Tuy nhiên, dự án này đã bị xem xét kỹ lưỡng bởi các tác giả văn học vì ứng dụng vào thương mại và những dữ liệu này được dùng để đào tạo AI của công ty. Cách tiếp cận của Gutenberg cũng có thể thể gây ra phản ứng tương tự như Apple vì sử dụng mã nguồn mở.

Dự án Gutenberg đã dành nhiều thập kỷ để tập hợp một thư viện tài liệu miễn phí ở định dạng văn bản và "sách nói" lại giúp tài liệu này trở nên dễ tiếp cận hơn. Chúng hữu ích cho những độc giả đang lái xe, làm việc, khiếm thị, học đọc hoặc học một ngôn ngữ mới.

Vấn đề đầu tiên và quan trọng nhất là xác định những cuốn sách kỹ thuật số nào mà phần mềm có thể phân tích. Project Gutenberg thu thập tài liệu của mình ở nhiều định dạng và nhiều file của nó có lỗi hoặc bản quét không hoàn hảo. Vì vậy, các nhà nghiên cứu đã tập trung vào những cuốn sách được lưu trữ dưới dạng tệp HTML và xây dựng một công cụ (như hình trên) để khám phá những mục nào hiển thị định dạng tương tự.

Project Gutenberg sử dụng AI chuyển văn bản thành giọng nói, phát hành 5.000 cuốn sách nói miễn phí

Một vấn đề khác mà các nhà nghiên cứu đã giải quyết là đảm bảo hệ thống nhận biết được văn bản nào cần đọc hoặc bỏ qua. Nó giải quyết các thành phần như mục lục, số trang, chú thích cuối trang và các tài liệu không liên quan khác.

Hơn nữa, kết quả văn bản được đọc bởi giọng nói tự nhiên của con người. Các nhà nghiên cứu tập trung vào việc truyền tải giọng phù hợp nhất cho các tác phẩm phi hư cấu và tường thuật, nhưng người dùng có thể điều chỉnh phần mềm để thử đọc kịch tính.

 

Bài viết liên quan

Bài viết đọc nhiều nhất

Bài viết mới trong ngày

Kadokawa và cuộc "thay máu" lịch sử: Khi gã khổng lồ giải trí kêu gọi nhân viên trên 45 tuổi nghỉ hưu sớm

Kadokawa và cuộc "thay máu" lịch sử: Khi gã khổng lồ giải trí kêu gọi nhân viên trên 45 tuổi nghỉ hưu sớm

hoanlagvn

Trong một động thái đầy bất ngờ nhằm tái thiết lập bộ máy vận hành, tập đoàn truyền thông hàng đầu Nhật Bản - Kadokawa - vừa chính thức phát đi thông báo về chương trình nghỉ hưu sớm tự nguyện. Đây được xem là nỗ lực "tinh gọn" đội ngũ để đối đầu với sức ép cạnh tranh khủng khiếp trong kỷ nguyên giải trí đa nền tảng.

Giải trí
"Cơn địa chấn" 16 nghìn tỷ đồng: Tên miền của nhóm nhạc Aqours bị rao bán, fan lo sợ sập bẫy lừa đảo

"Cơn địa chấn" 16 nghìn tỷ đồng: Tên miền của nhóm nhạc Aqours bị rao bán, fan lo sợ sập bẫy lừa đảo

hoanlagvn

Một sự việc hy hữu đang khiến cộng đồng yêu thích thương hiệu Love Live! Sunshine!! đứng ngồi không yên: Tên miền của câu lạc bộ người hâm mộ chính thức nhóm Aqours bất ngờ bị đưa lên sàn đấu giá. Với mức giá "trên trời" cùng những rủi ro an ninh tiềm ẩn, đây đang là chủ đề nóng nhất trên các diễn đàn công nghệ và giải trí tại Nhật Bản.

Giải trí
Lên đầu trang