1. Giới thiệu tổng quan về tính năng mới của Google

Ngày 21/5/2025, tại sự kiện Google I/O, Google chính thức công bố tính năng dịch giọng nói trực tiếp trong cuộc gọi, một bước tiến lớn trong lĩnh vực truyền thông số và công nghệ ngôn ngữ. Đây là một phần trong chiến lược ứng dụng trí tuệ nhân tạo (AI) nhằm xóa nhòa rào cản ngôn ngữ giữa con người ở khắp nơi trên thế giới.
Tính năng này trước mắt được triển khai trên nền tảng Google Meet, cho phép người dùng nghe bản dịch của người nói bằng một giọng nói gần giống giọng thật, bao gồm cả ngữ điệu và biểu cảm – điều mà rất ít công cụ trên thị trường hiện nay có thể làm được.
2. Tuyên bố tại Google I/O 2025: Công nghệ phá vỡ rào cản ngôn ngữ
Tại hội nghị thường niên Google I/O, CEO Sundar Pichai gọi đây là “công nghệ giúp phá vỡ rào cản ngôn ngữ”. Ông nhấn mạnh rằng việc đồng bộ cả ngữ điệu, biểu cảm và giọng gốc trong bản dịch là yếu tố khiến giao tiếp giữa các ngôn ngữ trở nên tự nhiên và liền mạch hơn.
Pichai cho biết: “Nó có thể khớp giọng và ngữ điệu, thậm chí biểu cảm của người nói gần như theo thời gian thực. Điều này đưa con người đến gần hơn với cuộc trò chuyện tự nhiên và trôi chảy giữa các ngôn ngữ.”
Tuyên bố này nhận được sự quan tâm lớn từ cộng đồng công nghệ, giáo dục, doanh nghiệp toàn cầu và những người đang tìm kiếm các giải pháp giao tiếp hiệu quả trong môi trường đa ngôn ngữ.
3. Cơ chế hoạt động: Dịch giọng nói trực tiếp với ngữ điệu và biểu cảm gốc
Tính năng dịch giọng nói trực tiếp trong cuộc gọi không chỉ đơn giản là chuyển ngữ. Google sử dụng mô hình ngôn ngữ Gemini cùng hệ thống AI phức tạp để thực hiện nhiều nhiệm vụ đồng thời:
- Nhận diện và xử lý âm thanh đầu vào (giọng nói người nói).
- Dịch nội dung sang ngôn ngữ đích với độ trễ thấp.
- Tổng hợp lại nội dung bằng giọng nói nhân tạo có ngữ điệu gần giống với người nói gốc.
- Duy trì biểu cảm, tông giọng, và thậm chí là các khoảng ngừng tự nhiên.
Ngoài ra, âm thanh gốc vẫn được giữ lại với âm lượng nhỏ hơn, tạo cảm giác chân thực và dễ hiểu cho người nghe – nhất là trong các cuộc đối thoại hai chiều.
Google cũng cho biết, công nghệ này có thể hoạt động ổn định với các kết nối mạng ở mức trung bình – điều cực kỳ quan trọng để phổ cập tính năng tới người dùng toàn cầu, kể cả những khu vực có hạ tầng mạng chưa tối ưu.
4. Ứng dụng thực tiễn trong cuộc sống và công việc toàn cầu
Tính năng dịch giọng nói trực tiếp trong cuộc gọi có tiềm năng ứng dụng rất rộng, không chỉ trong môi trường cá nhân mà cả ở cấp độ doanh nghiệp và quốc tế. Một số ví dụ điển hình:
- Gia đình sống ở nhiều quốc gia: Ông bà nói tiếng Tây Ban Nha có thể trò chuyện trực tiếp với cháu mình ở Mỹ mà không cần học tiếng Anh.
- Doanh nghiệp đa quốc gia: Cuộc họp nhóm giữa các chi nhánh toàn cầu diễn ra suôn sẻ mà không cần phiên dịch viên.
- Dịch vụ khách hàng toàn cầu: Nhân viên chăm sóc khách hàng nói tiếng Việt có thể hỗ trợ người dùng ở Pháp qua Google Meet một cách tự nhiên.
Đây chính là minh chứng cho việc công nghệ có thể kết nối con người trên toàn cầu theo cách ngày càng dễ dàng hơn.
5. Các ưu điểm vượt trội so với các công cụ hiện tại
So với các phần mềm hiện có, giải pháp mới của Google có nhiều điểm nổi bật:
- Độ trễ thấp: Bản dịch xuất hiện gần như ngay lập tức, giúp cuộc trò chuyện không bị gián đoạn.
- Giữ nguyên biểu cảm và ngữ điệu: Không còn tình trạng bản dịch đơn điệu, thiếu cảm xúc như trước đây.
- Giọng đọc tương tự người thật: Nhờ công nghệ tổng hợp giọng nói tiên tiến, trải nghiệm nghe trở nên tự nhiên hơn.
- Dễ tích hợp với hệ sinh thái Google: Các công ty đã dùng Workspace sẽ dễ dàng triển khai trên Google Meet.
6. Lộ trình triển khai và giới hạn ban đầu
Google bắt đầu triển khai tính năng này với cặp ngôn ngữ tiếng Anh – Tây Ban Nha, và hiện chỉ khả dụng với người dùng gói Google AI Pro và Ultra. Trong vài tuần tới, công ty sẽ mở rộng ra thêm nhiều ngôn ngữ khác.
Ngoài ra, Google cũng lên kế hoạch thử nghiệm thêm với các khách hàng doanh nghiệp sử dụng Google Workspace để cải thiện trải nghiệm giao tiếp toàn cầu.
Người dùng phổ thông hiện vẫn phải chờ một thời gian nữa để được trải nghiệm miễn phí – tuy nhiên đây là bước đi phù hợp để đảm bảo chất lượng và độ ổn định khi mở rộng quy mô.
7. Mối liên hệ với dự án Starline và công nghệ Google Beam
Công nghệ dịch giọng nói trực tiếp trong cuộc gọi là một phần của hệ sinh thái truyền thông tương tác mà Google đã âm thầm phát triển trong nhiều năm. Dự án Starline ra mắt năm 2021 là một nền tảng gọi điện “siêu chân thực” với hình ảnh 3D và âm thanh lập thể.
Tại Google I/O 2025, hãng cũng giới thiệu Google Beam – thiết bị phần cứng hỗ trợ hội thoại như thật. Nhờ việc kết hợp với AI dịch ngôn ngữ, Google Beam sẽ có thể trình chiếu người gọi bằng hình ảnh 3D, đồng thời dịch và tái tạo giọng nói theo thời gian thực.
Điều này không chỉ giúp con người hiểu nhau hơn mà còn làm cho trải nghiệm giao tiếp từ xa trở nên gần gũi như cuộc trò chuyện ngoài đời thật.
Tính năng dịch giọng nói trực tiếp trong cuộc gọi từ Google là bước ngoặt trong lĩnh vực truyền thông và công nghệ AI. Việc phá bỏ rào cản ngôn ngữ giúp thế giới gần nhau hơn, tạo điều kiện cho hợp tác toàn cầu, giao tiếp gia đình, giáo dục xuyên biên giới và hơn thế nữa.
Khi AI ngày càng trở nên thông minh và nhân văn hơn, công nghệ dịch ngôn ngữ theo thời gian thực sẽ không còn là một điều xa xỉ mà sẽ trở thành tiêu chuẩn mới trong mọi nền tảng giao tiếp kỹ thuật số. Google đang mở ra một chương mới, nơi mọi giọng nói đều được lắng nghe, dù ở bất kỳ ngôn ngữ nào.