Công nghệ chuyển giọng nói thành văn bản: Nó là gì và cách thức hoạt động ra sao?

1. Nhu cầu chuyển giọng nói thành văn bản

Với sự phát triển không ngừng của khoa học công nghệ, việc tự động nhận diện giọng nói và chuyển thành văn bản không còn chỉ xuất hiện trong những quyển truyện tranh Doraemon mà đã bước ra ngoài đời thực.

Công nghệ bước ra từ truyện tranh - Máy in tiếng nói

Vậy chuyển đổi giọng nói thành văn bản thực chất là gì ? Hiểu đơn giản nó là quá trình chuyển đổi đầu vào bằng giọng nói sau ghi âm trực tiếp hoặc từ các file âm thanh thành văn bản kỹ thuật số dựa trên công nghệ nhận dạng giọng nói.

Trước đây cần có trợ lý/thư ký để ghi chép lại nội dung cần thiết của các cuộc họp, phỏng vấn,… Tuy nhiên việc ghi chép như vậy sẽ tốn rất nhiều thời gian, công sức và rất dễ bị mất mát thông tin trong quá trình ghi chép, nhất là trong những cuộc họp kéo dài nhiều giờ. Ngoài ra, nếu có nhiều người cùng tranh luận trong một cuộc họp, sẽ rất khó để những người thư ký có thể ghi chép lại hết nội dung. Dĩ nhiên bạn có thể ghi âm lại và xử lý sau khi kết thúc cuộc họp để tránh việc bỏ lỡ thông tin quan trọng. Tuy nhiên công việc này thực sự rất nhàm chán, khâu xử lý hậu cần tốn rất nhiều thời gian mà chưa chắc sẽ đem lại hiệu quả cao.

Ghi chép nội dung cuộc họp một cách truyền thống

Công cụ chuyển đổi giọng nói thành văn bản theo thời gian thực sẽ giải quyết tất cả những vấn đề kể trên. Về cơ bản, công cụ này sẽ cho phép chuyển đổi gần như ngay lập tức lời nói của các thành viên trong một cuộc họp thành văn bản, ngoài ra cho phép người đánh giá/chỉnh sửa (reviewer) mà ở đây là các trợ lý hoặc thư ký có thể chỉnh sửa lại nội dung văn bản vừa được chuyển đổi sao cho phù hợp nhất.

Đấy chỉ là một ví dụ cho thấy công cụ chuyển giọng nói thành văn bản thực sự hữu ích trong các cuộc họp, phỏng vấn, … Nhờ những lợi ích và tính năng ưu việt, công cụ này hiện nay đang được ứng dụng ở rất nhiều lĩnh vực khác nhau như: báo chí, truyền thông, giáo dục, khoa học, … Ngoài ra, chúng ta có thể tích hợp và triển khai dễ dàng trên các thiết bị thông minh như điện thoại, laptop.

2. Bài toán đặt ra đối với các phần mềm chuyển giọng nói thành văn bản

Chuyển đổi giọng nói thành văn bản đang dần trở thành xu hướng công nghệ được yêu thích trong thời đại 4.0

Để giải thích cho sự ưu việt và tiện lợi của công cụ trên, chúng ta sẽ điểm qua một vài khó khăn đặt ra khi chuyển giọng nói thành văn bản và cách xử lý chúng.

Đầu tiên sẽ là vấn đề nhận diện giọng nói đối với nhiều ngôn ngữ đầu vào khác nhau. Ngoài ra đối với cùng một từ nhưng có rất nhiều cách nói (các mẫu) khác nhau tùy vào từng người. Ví dụ, một người có thể nói “hello", tuy nhiên một người khác có thể nói chậm hơn “heellooo” tạo ra âm thanh dài hơn. Đó đều là cùng nói về một từ. Bài toán nhận diện chính xác từ đầu vào đòi hỏi các mô hình học máy và học sâu mạnh mẽ với một số lượng lớn các mẫu để có thể dự đoán, đưa ra kết quả chuyển đổi chính xác nhất.

Tiếp theo là vấn đề về lỗi chính tả của văn bản sau khi chuyển đổi. Sau khi nhận diện được các từ từ giọng nói đầu vào, chúng sẽ không có dấu câu và sẽ dễ gây ra khó hiểu, nhầm lẫn cho người đọc. Việc sử dụng mô hình học máy để tự động nhận diện dấu câu sau khi chuyển đổi giọng nói sẽ là giải pháp hữu ích cho vấn đề này

Một bài toán nữa đặt ra đó là về mặt trải nghiệm người dùng, ở đây đang nói đến tốc độ xử lý, chuyển đổi âm thanh theo thời gian thực. Âm thanh đầu vào sẽ được chia làm các đoạn nhỏ bởi các đoạn ngắt nghỉ trong nhịp nói của người nói hoặc của đoạn ghi âm(split by silence), sau đó sẽ liên tục được đưa vào bộ xử lý, chuyển đổi sang các đoạn văn bản. Người dùng cuối sẽ thấy văn bản sẽ liên tục được cập nhật theo thời gian thực. Sẽ có một độ trễ nhất định khi xử lý và cập nhật các đoạn văn bản đó. Việc tối ưu, giảm được độ trễ sẽ làm tăng trải nghiệm cho người dùng.

3. Ứng dụng chuyển đổi giọng nói thành văn bản theo thời gian thực (Speech Translation)

Ứng dụng Speech Translation được thiết kế dưới dạng một website, cho phép chuyển đổi giọng nói hoặc các file ghi âm giọng nói ở nhiều định dạng khác nhau (mp3, m4a, webm, …) thành văn bản (text) ngay tức thì, theo thời gian thực. Ứng dụng này được thiết kế dành riêng cho các cuộc họp, các buổi phỏng vấn với nhu cầu ghi lại nội dung cuộc họp dưới dạng các văn bản.

Các công nghệ nổi bật được sử dụng trong ứng dụng Speech Translation:

Đầu tiên là tích hợp cơ chế học máy (machine learning) để nâng cao độ chính xác khi chuyển đổi trong quá trình sử dụng.

Tích hợp học máy để nâng cao độ chính xác khi nhận diện giọng nói

Tiếp theo là sử dụng mô hình tự động sửa lỗi chính tả, thêm các dấu câu cho văn bản sau khi chuyển đổi.
Ngoài ra còn tích hợp thêm mô hình dịch thuật đa ngôn ngữ của Google cho phép tự động dịch văn bản sang các ngôn ngữ khác nhau

Tích hợp các mô hình dịch của google

Sơ đồ kiến trúc của ứng dụng được mô tả như sau:

Sơ đồ kiến trúc của ứng dụng Speech Translation

Ứng dụng sẽ được sử dụng bởi ba tác nhân chính: diễn giả (speaker), người chỉnh sửa (reviewer) và người dùng cuối (audience).

Diễn giả sẻ kết nối mic trực tiếp với hệ thống, sau đó dữ liệu âm thanh sẽ được hệ thống xử lý, bao gồm các bước nhận dạng giọng nói và chuyển sang dạng text, chỉnh sửa lỗi chính tả, sau đó dịch sang các ngôn ngữ khác nhau. Toàn bộ quá trình sẽ được xử lý theo thời gian thực (realtime)
Trước khi văn bản được đưa qua mô hình dịch để chuyển sang các ngôn ngữ khác, văn bản sẽ được hiển thị cho người chỉnh sửa, ví dụ như các thư ký, các trợ lý. Họ có thể chỉnh sửa lại văn bản nếu phát hiện sai sót hoặc cắt bớt/thêm các thông tin cần thiết trước khi văn bản được cập nhật cho người dùng cuối.
Văn bản sau khi được hệ thống dịch sang các ngôn ngữ khác nhau sẽ được hiển thị cho người dùng cuối và cho phép họ tùy chọn ngôn ngữ để có thể thuận tiện theo dõi. Đoạn văn bản này cũng sẽ được liên tục cập nhật ngay tức thì theo thời gian thực và theo tốc độ của người nói, tránh việc bỏ sót thông tin.

4. Kết luận

Với những công nghệ và tính năng kể trên, ứng dụng Speech Translation chắc chắn sẽ là một công cụ đắc lực trong các cuộc họp, các buổi thuyết trình, giúp tối ưu về mặt thời gian đem lại hiệu quả cao.

Và chúng tôi - Rabiloo, tự tin là một công ty công nghệ có thể tạo ra các sản phẩm thực sự hữu dụng phục vụ trong công việc và đời sống của khách hàng. Nếu bạn quan tâm đến ứng dụng chuyển giọng nói thành văn bản hoặc các dịch vụ khác như: phát triển phần mềm, phát triển website, game, trí tuệ nhân tạo…. Xin đừng ngần ngại, hãy liên hệ với chúng tôi, chúng tôi luôn sẵn sàng tư vấn miễn phí mọi thắc mắc của bạn.