1. Giới thiệu về tính năng Generate Speech trong Google AI Studio

Google AI Studio nổi lên như một nền tảng mạnh mẽ cho phép người dùng thử nghiệm và xây dựng các ứng dụng trí tuệ nhân tạo tạo sinh (generative AI). Một trong những thành phần chủ chốt của nền tảng này là tính năng “Generate Speech”, hay còn gọi là Text-to-Speech (TTS), mở ra khả năng tạo nội dung âm thanh một cách linh hoạt. Công nghệ tổng hợp giọng nói đã có những bước tiến vượt bậc, hướng tới việc tạo ra giọng nói tự nhiên và dễ dàng kiểm soát hơn, chủ yếu nhờ vào sự phát triển của các mô hình AI tiên tiến.

Trọng tâm của những cải tiến này, đặc biệt là các khả năng TTS cao cấp liên quan đến việc phân biệt giữa các model ‘flash’ và ‘pro’ cũng như các tính năng đa người nói, được vận hành bởi dòng model Gemini. Các model này cung cấp khả năng tạo TTS gốc (native TTS generation), nghĩa là chúng được thiết kế với khả năng chuyển đổi văn bản thành giọng nói một cách tự nhiên ngay từ đầu.

Khi tiếp cận tính năng tạo giọng nói của Google, điều quan trọng là cần phân biệt rõ ràng giữa các nền tảng khác nhau. Vertex AI Studio, một phần của Google Cloud console, cung cấp một tab “Generate speech” cơ bản. Tuy nhiên, tính năng này có một số hạn chế nhất định, ví dụ như giới hạn 200 ký tự cho mỗi yêu cầu và ít tùy chọn nâng cao hơn. Đối với các nhu cầu phức tạp hơn, Vertex AI Studio thường hướng người dùng đến Text-to-Speech console đầy đủ tính năng hơn.

Ngược lại, Google AI Studio (truy cập qua ai.google.dev) là nơi người dùng có thể trực tiếp thử nghiệm và sử dụng Gemini API, bao gồm các model TTS chuyên biệt như gemini-2.5-flash-preview-tts và gemini-2.5-pro-preview-tts để tạo ra giọng nói với độ tinh xảo và khả năng kiểm soát cao hơn. Bài viết này sẽ tập trung vào các khả năng tạo giọng nói thông qua Google AI Studio và Gemini API, nơi những tính năng tiên tiến mà người dùng quan tâm được cung cấp.

Sự phân chia này trong các sản phẩm TTS của Google trên nhiều nền tảng có thể gây nhầm lẫn. Việc người dùng tìm kiếm “Generate Speech” với các model “flash” và “pro” cho thấy sự quan tâm đến các tính năng cao cấp, vốn được liên kết chặt chẽ với Gemini API trong Google AI Studio, chứ không phải là tab “Generate Speech” cơ bản trong Vertex AI Studio. Do đó, việc làm rõ nơi truy cập các chức năng cụ thể này là rất cần thiết.

Một điểm đáng lưu ý khác là các model TTS tiên tiến như gemini-2.5-flash-preview-tts và gemini-2.5-pro-preview-tts hiện đang ở giai đoạn “preview” (xem trước). Tình trạng “preview” thường hàm ý rằng các tính năng có thể thay đổi, phát triển hoặc có các mức hỗ trợ và thỏa thuận cấp độ dịch vụ (SLA) khác so với các dịch vụ đã được phát hành chính thức (Generally Available – GA). Điều này cho thấy người dùng nên ý thức về các cập nhật tiềm năng và công nghệ này vẫn đang trong quá trình phát triển nhanh chóng. Phản hồi từ người dùng trong giai đoạn này cũng có thể rất giá trị đối với Google.

2. Tìm hiểu các Model TTS cốt lõi: gemini-2.5-flash-preview-tts và gemini-2.5-pro-preview-tts

Để khai thác hiệu quả tính năng Generate Speech, việc hiểu rõ các model nền tảng là điều cần thiết. Google AI Studio cung cấp hai model Gemini chính cho tác vụ Text-to-Speech (TTS), đó là gemini-2.5-flash-preview-tts và gemini-2.5-pro-preview-tts. Cả hai đều thuộc dòng Gemini 2.5 và được tối ưu hóa đặc biệt cho việc chuyển đổi văn bản thành giọng nói chất lượng cao.

Khác biệt cốt lõi và Trường hợp sử dụng

Mỗi model được thiết kế với những ưu tiên riêng, phù hợp với các nhu cầu và kịch bản sử dụng khác nhau:

gemini-2.5-flash-preview-tts:
- Model này được mô tả là “price-performant”, tức là mang lại hiệu suất tốt với chi phí hợp lý.
- Nó được tối ưu hóa cho tốc độ, độ trễ thấp và hiệu quả chi phí. Đặc điểm này kế thừa từ các model Gemini Flash nói chung, vốn được thiết kế cho các tác vụ cần phản hồi nhanh.
- Lý tưởng cho các ứng dụng có khối lượng lớn, nhạy cảm với độ trễ, chẳng hạn như trợ lý ảo tương tác, công cụ tóm tắt văn bản theo thời gian thực, hoặc các ứng dụng dịch vụ khách hàng cần phản hồi giọng nói tức thì.
- Model này “cung cấp các khả năng toàn diện” và đạt được “sự cân bằng giữa giá cả và hiệu suất”.

gemini-2.5-pro-preview-tts:
- Được định vị là “model text-to-speech mạnh mẽ nhất” của Google hiện tại.
- Model này được thiết kế để đạt chất lượng âm thanh tối đa và xử lý các yêu cầu TTS phức tạp hơn, có khả năng mang lại sắc thái giọng nói tinh tế hơn.
- Phù hợp cho các kịch bản đòi hỏi độ trung thực và biểu cảm cao nhất, ví dụ như tường thuật sách nói chất lượng cao, thuyết minh chuyên nghiệp hoặc các ứng dụng giọng nói quan trọng nơi chất lượng là ưu tiên hàng đầu.

Cả hai model này đều hỗ trợ tạo giọng nói đơn người nói (single-speaker) và đa người nói (multi-speaker).

Phân tích so sánh (Chất lượng, Độ trễ, Chi phí)

Việc lựa chọn giữa ‘Flash’ và ‘Pro’ đòi hỏi sự cân nhắc kỹ lưỡng về các yếu tố sau:

Chất lượng âm thanh, Độ tự nhiên, Độ biểu cảm:
- Mặc dù không có so sánh âm thanh trực tiếp trong các tài liệu tham khảo, model Pro thường được định vị cho chất lượng và sức mạnh cao hơn. Model Flash, với đặc tính “price-performant”, tập trung vào việc cung cấp chất lượng tốt trong khi tối ưu hóa các yếu tố khác.
- Các tài liệu cho thấy Gemini 2.0 Flash TTS đã có “ngữ điệu và nhịp điệu tự nhiên” cùng khả năng “kiểm soát biểu cảm cảm xúc”. Các model Gemini 2.5 (cả Pro và Flash) được kỳ vọng sẽ có “đầu ra âm thanh gốc cho trải nghiệm hội thoại tự nhiên hơn”, nắm bắt được “những sắc thái tinh tế trong cách chúng ta nói”.
- Một số đánh giá từ người dùng, dù mang tính chủ quan, cũng cho thấy độ biểu cảm cao của Gemini 2.5 Pro TTS.
- Từ đó, có thể suy luận rằng model Pro có khả năng cung cấp đầu ra âm thanh chi tiết, giàu sắc thái và có độ trung thực cao hơn, trong khi model Flash vẫn đảm bảo chất lượng tốt nhưng được tối ưu hóa cho tốc độ.

Độ trễ (Latency):
- Các model Flash nói chung được xây dựng để có độ trễ thấp hơn. Điều này cũng áp dụng cho gemini-2.5-flash-preview-tts.
- Các model Pro, tập trung vào chất lượng, có thể có độ trễ cao hơn một chút. Tuy nhiên, cả hai model TTS này đều được mô tả là có “độ trễ thấp”.

Chi phí:
- Các model Gemini Flash thường có chi phí sử dụng hiệu quả hơn so với các model Pro.
- Cụ thể, đối với các gói trả phí của Gemini API:
  - gemini-2.5-flash-preview-tts: 0.50 đô la cho mỗi 1 triệu token đầu vào, 10.00 đô la cho mỗi 1 triệu token đầu ra.
  - gemini-2.5-pro-preview-tts: 1.00 đô la cho mỗi 1 triệu token đầu vào, 20.00 đô la cho mỗi 1 triệu token đầu ra.
- Việc sử dụng Google AI Studio thường miễn phí, nhưng việc sử dụng API vượt quá các bậc miễn phí sẽ phát sinh chi phí.

Sự tồn tại của hai biến thể ‘Flash’ và ‘Pro’ cho TTS nhấn mạnh một sự đánh đổi kinh điển trong các mô hình AI: hiệu suất/tốc độ/chi phí so với khả năng/chất lượng. Người dùng không thể tối đa hóa tất cả các yếu tố này cùng một lúc và phải đưa ra lựa chọn dựa trên ưu tiên của dự án.

Bảng: So sánh Model Gemini TTS ‘Flash’ và ‘Pro’

Để dễ hình dung, bảng dưới đây tóm tắt các điểm khác biệt chính:

Tính năng	gemini-2.5-flash-preview-tts	gemini-2.5-pro-preview-tts
Mục tiêu chính	Cân bằng giá cả và hiệu suất, độ trễ thấp	Chất lượng và khả năng tối đa, xử lý yêu cầu phức tạp
Trường hợp sử dụng	Ứng dụng nhạy cảm độ trễ, khối lượng lớn, trợ lý ảo	Tường thuật chất lượng cao, ứng dụng giọng nói quan trọng
Chất lượng/Tự nhiên (Suy luận)	Tốt, tự nhiên	Rất tốt, biểu cảm cao, nhiều sắc thái hơn
Độ trễ (Suy luận)	Thấp hơn	Thấp (có thể cao hơn Flash một chút)
Chi phí (Input/Output /1M token)	$0.50 /$ 10.00	$1.00 /$ 20.00
Hỗ trợ Đơn người nói	Có	Có
Hỗ trợ Đa người nói	Có (tối đa 2 người)	Có (tối đa 2 người)
Giới hạn Token Input (TTS)	8,000 tokens	Chưa rõ ràng (model Pro chung có context window lớn hơn)

Vì cả hai model TTS này đều đang trong giai đoạn “preview”, các đặc tính hiệu suất cụ thể của chúng (chất lượng, độ trễ) có thể phát triển nhanh chóng. Sự khác biệt hiện tại, ví dụ như “Pro tốt hơn về chất lượng”, có thể thay đổi, hoặc model Flash có thể được cải thiện đáng kể. Do đó, người dùng nên thường xuyên tham khảo tài liệu mới nhất từ Google để có thông tin cập nhật.

Một giới hạn thực tế cần lưu ý là giới hạn token đầu vào. Model gemini-2.5-flash-preview-tts có giới hạn 8.000 token cho mỗi đầu vào TTS. Mặc dù tài liệu khác đề cập đến “context window 32k token cho một phiên TTS”, con số này có thể ám chỉ ngữ cảnh tương tác tổng thể hơn là độ dài của một đoạn văn bản TTS đơn lẻ. Điều này ngụ ý rằng đối với các đoạn văn bản rất dài cần tổng hợp, người dùng có thể cần phải chia nhỏ chúng, đặc biệt khi sử dụng model Flash. Model Pro có thể xử lý các đầu vào riêng lẻ dài hơn nếu biến thể TTS của nó kế thừa context window lớn hơn của model Pro chung, nhưng điều này chưa được xác nhận rõ ràng cho độ dài đầu vào TTS.

Chọn model phù hợp

Việc lựa chọn giữa gemini-2.5-flash-preview-tts và gemini-2.5-pro-preview-tts phụ thuộc vào các yêu cầu cụ thể của dự án:

Nếu chi phí và tốc độ là ưu tiên hàng đầu, và chất lượng âm thanh “tốt” là đủ, gemini-2.5-flash-preview-tts là một lựa chọn hợp lý.
Nếu chất lượng âm thanh vượt trội, độ biểu cảm cao và khả năng xử lý các sắc thái tinh tế là quan trọng nhất, và ngân sách cho phép, gemini-2.5-pro-preview-tts sẽ phù hợp hơn.
Đối với các ứng dụng cần hỗ trợ đa người nói, cả hai model đều cung cấp tính năng này, vì vậy quyết định sẽ nghiêng về các yếu tố khác như chất lượng và chi phí.

3. Xây dựng Prompt hiệu quả để tạo giọng nói

Prompt engineering, hay nghệ thuật xây dựng các câu lệnh đầu vào, đóng vai trò then chốt trong việc khai thác tối đa tiềm năng của các model Gemini TTS. Thay vì chỉ cung cấp văn bản thuần túy, một prompt được thiết kế tốt có thể hướng dẫn model tạo ra giọng nói với các đặc tính mong muốn.

Nguyên tắc chung về prompt engineering

Các chiến lược thiết kế prompt hiệu quả cho AI Studio nói chung cũng áp dụng cho việc tạo giọng nói. Điều này bao gồm:

Tính rõ ràng và cụ thể: Câu lệnh càng rõ ràng, model càng dễ hiểu và đáp ứng đúng yêu cầu.
Cung cấp ngữ cảnh: Thông tin nền tảng có thể giúp model tạo ra giọng nói phù hợp hơn với tình huống.
Đưa ra hướng dẫn: Chỉ rõ các yêu cầu về giọng điệu, tốc độ, hoặc cảm xúc.
Sử dụng ví dụ (few-shot examples): Mặc dù không được nhấn mạnh cho TTS trong các tài liệu, nguyên tắc này có thể hữu ích nếu model hỗ trợ.
Quy trình lặp đi lặp lại: Thử nghiệm, đánh giá và tinh chỉnh prompt là một quá trình liên tục để đạt được kết quả tối ưu.
System instructions (hướng dẫn hệ thống) và tone modifiers (bộ điều chỉnh giọng điệu): Có thể được sử dụng để định hướng phong cách của model.

Kiểm soát thuộc tính giọng nói bằng ngôn ngữ tự nhiên

Một trong những điểm mạnh của Gemini API TTS là khả năng kiểm soát giọng nói thông qua ngôn ngữ tự nhiên. Người dùng có thể “sử dụng ngôn ngữ tự nhiên để cấu trúc các tương tác và hướng dẫn phong cách, giọng địa phương, tốc độ và giọng điệu của âm thanh”. Điều này đánh dấu một sự thay đổi so với các hệ thống TTS truyền thống thường phụ thuộc nhiều vào SSML (Speech Synthesis Markup Language) để kiểm soát chi tiết.

Ví dụ cho prompt đơn người nói:
- “Say cheerfully: Have a wonderful day!” (Nói một cách vui vẻ: Chúc một ngày tuyệt vời!).
- “Say in an spooky whisper: ‘By the pricking of my thumbs Something wicked this way comes'” (Nói bằng giọng thì thầm ma quái: ‘Qua linh cảm của ngón tay ta, một điều gì đó xấu xa đang đến’).
- Các ví dụ giả định khác: “Đọc đoạn văn này bằng giọng bình tĩnh, có thẩm quyền, phù hợp cho một bộ phim tài liệu.” hoặc “Nói câu này với sự phấn khích và khẩn trương.”

Mẹo để đạt được đặc điểm giọng nói mong muốn:
- Sử dụng tính từ mô tả và gợi cảm: Ví dụ: “giọng ấm áp và thân thiện”, “giọng nghiêm túc và trang trọng”.
- Thử nghiệm với cách diễn đạt và cấu trúc câu trong prompt: Đôi khi, một thay đổi nhỏ trong cách bạn mô tả yêu cầu có thể tạo ra sự khác biệt lớn.
- Kết hợp hướng dẫn phong cách với việc lựa chọn giọng nói (voice selection): Như sẽ được đề cập trong Phần 5, việc chọn một giọng nói có đặc điểm phù hợp (ví dụ: giọng ‘Enceladus’ có hơi thở để nhấn mạnh sự “mệt mỏi”) có thể tăng cường hiệu quả của prompt.

Cơ chế kiểm soát chính cho phong cách giọng nói của Gemini TTS là ngôn ngữ tự nhiên, một sự khác biệt so với các hệ thống TTS truyền thống vốn phụ thuộc nhiều vào SSML để kiểm soát chi tiết như khoảng dừng, cao độ, tốc độ. Điều này có thể dễ dàng hơn cho một số người dùng nhưng có thể cung cấp ít khả năng kiểm soát chính xác, rõ ràng hơn cho những người đã quen với SSML.

Tinh chỉnh prompt lặp đi lặp lại

Việc tạo ra prompt hoàn hảo thường không thành công ngay từ lần đầu tiên. Quá trình này đòi hỏi sự kiên nhẫn và thử nghiệm.

Đừng ngần ngại sửa đổi prompt dựa trên kết quả đầu ra; những điều chỉnh nhỏ có thể mang lại kết quả cải thiện đáng kể.
Tận dụng giao diện của Google AI Studio để kiểm tra và xem trước nhanh chóng các thay đổi trong prompt.

Việc xây dựng các prompt ngôn ngữ tự nhiên hiệu quả cho đầu ra giọng nói đa dạng trở thành một kỹ năng riêng, tương tự như prompt engineering cho việc tạo văn bản hoặc hình ảnh. Nó có thể đòi hỏi nhiều thử nghiệm hơn để đạt được kết quả rất cụ thể so với việc sử dụng các thẻ SSML rõ ràng. Ngôn ngữ tự nhiên có thể mơ hồ, và cách model diễn giải các prompt về phong cách (“giọng hào hứng”) có thể khác nhau hoặc không hoàn toàn khớp với ý định của người dùng trong mọi trường hợp. Điều này nhấn mạnh sự cần thiết của việc tinh chỉnh lặp đi lặp lại.

4. Điều hướng Cài đặt và Cấu hình Model

Việc hiểu và tùy chỉnh các cài đặt model là yếu tố quan trọng để tối ưu hóa quá trình tạo giọng nói trong Google AI Studio, đặc biệt khi làm việc với Gemini API.

Tổng quan cài đặt trong giao diện Google AI Studio

Giao diện “Generate Speech” trong Google AI Studio, khi sử dụng các model Gemini TTS, có thể cung cấp các tùy chọn cơ bản tương tự như trong Vertex AI Studio, bao gồm:

Text input: Nơi nhập văn bản cần chuyển thành giọng nói.
Voice selection: Lựa chọn một trong các giọng nói có sẵn.
Model setting: Thay đổi độ sáng tạo trong cách đọc của AI.

Tuy nhiên, để có quyền kiểm soát nâng cao hơn, người dùng thường sẽ tương tác với Gemini API, nơi các đối tượng cấu hình chi tiết hơn được sử dụng.

SpeechConfig, VoiceConfig, và MultiSpeakerVoiceConfig cho Gemini API

Đây là các đối tượng cấu hình cốt lõi khi sử dụng Gemini API cho TTS:

SpeechConfig: Đối tượng này chứa cấu hình chung cho việc tạo giọng nói. Nó sẽ bao gồm voice_config cho trường hợp đơn người nói, hoặc multi_speaker_voice_config cho trường hợp đa người nói.
VoiceConfig: Được sử dụng cho đơn người nói, chủ yếu bao gồm prebuilt_voice_config, nơi người dùng chỉ định voice_name (tên giọng nói dựng sẵn, ví dụ: ‘Kore’, ‘Puck’).
MultiSpeakerVoiceConfig: Dành cho việc tạo giọng nói với nhiều người nói, sẽ được thảo luận chi tiết hơn trong Phần 6.

Kiểm soát tham số như cao độ, tốc độ nói và âm lượng

Tài liệu Gemini API nhấn mạnh việc sử dụng prompt ngôn ngữ tự nhiên để kiểm soát tốc độ (pace – liên quan đến speaking rate) và giọng điệu (tone – liên quan đến các sắc thái cao độ/âm lượng).

Không có đề cập rõ ràng về các tham số API trực tiếp như speakingRate, pitch, volumeGainDb trong SpeechConfig hoặc VoiceConfig cho các model Gemini TTS trong các tài liệu cốt lõi được tham khảo. Điều này tạo ra một sự khác biệt đáng kể so với Google Cloud Text-to-Speech API truyền thống, vốn có các tham số này một cách tường minh.

Do đó, việc kiểm soát các khía cạnh này trong Gemini TTS chủ yếu là gián tiếp thông qua prompt thay vì các cài đặt số học cụ thể. Ví dụ, thay vì đặt pitch = 5.0, người dùng có thể mô tả trong prompt: “Nói với giọng cao hơn một chút và đầy năng lượng.” Phản hồi từ người dùng cũng cho thấy mong muốn có sự điều chỉnh tốc độ động và tùy chọn ghi đè thủ công, cho thấy đây là một điểm được người dùng quan tâm.

Sự thiếu vắng các tham số cao độ/tốc độ/âm lượng rõ ràng trong Gemini TTS API (không giống như Cloud TTS truyền thống) cho thấy một sự thay đổi lớn trong mô hình kiểm soát. Google đang tận dụng khả năng của mô hình ngôn ngữ lớn để hiểu và tái tạo giọng nói đa dạng từ các mô tả tự nhiên, thay vì dựa vào các điều chỉnh chi tiết dựa trên thẻ hoặc số. Điều này có thể trực quan hơn cho người dùng quen với việc tạo prompt cho LLM, nhưng có thể kém trực tiếp hơn cho những người quen với việc kiểm soát số học/SSML chính xác.

Nếu giao diện AI Studio cung cấp một thanh trượt “Speed”, đây sẽ là một điều khiển số trực tiếp. Tuy nhiên, tài liệu Gemini API nhấn mạnh việc kiểm soát “pace” thông qua prompt ngôn ngữ tự nhiên. Điều này có thể có nghĩa là thanh trượt giao diện người dùng có thể là một tiện ích frontend chuyển đổi thành một sửa đổi prompt cơ bản hoặc một tham số cơ bản, trong khi việc điều chỉnh tốc độ tinh tế hơn đạt được thông qua các prompt văn bản.

Định dạng âm thanh đầu ra

Âm thanh được tạo ra có thể được tải xuống dưới dạng tệp .wav từ Vertex AI Studio. Các ví dụ sử dụng Gemini API cũng cho thấy việc lưu đầu ra dưới dạng tệp .wav. Âm thanh thường ở định dạng PCM, ví dụ, với tốc độ lấy mẫu 24000 Hz.

Hỗ trợ SSML: Làm rõ

Như đã đề cập trong Phần 3, SSML (Speech Synthesis Markup Language) dường như không được hỗ trợ để kiểm soát các model Gemini TTS thông qua Gemini API trong AI Studio. Quyền kiểm soát chủ yếu thông qua ngôn ngữ tự nhiên. Một số loại giọng nói khác của Google Cloud Text-to-Speech (như Studio, Neural2, Standard) có hỗ trợ SSML. Sự phân biệt này rất quan trọng để người dùng không nhầm lẫn giữa các dịch vụ.

Sự khác biệt giữa những gì một giao diện người dùng đơn giản hóa có thể cung cấp so với các khả năng và cơ chế kiểm soát đầy đủ được nêu chi tiết trong tài liệu cấp API là rất đáng kể. Đối với người dùng nâng cao, tài liệu API (hoặc việc thiếu một số tính năng nhất định trong đó) là nguồn thông tin chính xác nhất.

5. Khám phá Bảng màu Giọng nói có sẵn

Gemini API cung cấp một loạt các giọng nói được xây dựng sẵn (prebuilt voices) cho tính năng Text-to-Speech, cho phép người dùng lựa chọn phong cách âm thanh phù hợp với nội dung và mục đích của họ. Những giọng nói này là một phần không thể thiếu của trải nghiệm “Generate Speech” trong Google AI Studio khi sử dụng các model Gemini.

Điều quan trọng cần lưu ý là danh sách giọng nói này dành riêng cho Gemini TTS và có thể khác biệt so với danh mục giọng nói rộng lớn hơn của Google Cloud Text-to-Speech (bao gồm các loại như Standard, WaveNet, Neural2, Chirp HD nói chung). Mặc dù một số tên giọng nói có thể trùng lặp nếu công nghệ nền tảng được chia sẻ, cách chúng được tiếp cận và cấu hình qua Gemini API là riêng biệt.

Bảng: Các giọng nói có sẵn trong Generate Speech của Google AI Studio (Gemini TTS)

Dưới đây là danh sách 30 giọng nói được cung cấp cho Gemini TTS, cùng với các đặc điểm mô tả của chúng. Các đặc điểm này giúp người dùng hình dung về âm sắc và phong cách của từng giọng nói.

Tên Giọng nói (Voice Name)	Đặc điểm Mô tả (Characteristic)	Giới tính Tiềm năng (Inferred Gender)	Ví dụ Trường hợp sử dụng
Zephyr	Bright (Tươi sáng)	Nữ/Nam	Tường thuật năng động, quảng cáo vui tươi
Puck	Upbeat (Lạc quan)	Nữ/Nam	Thông báo hứng khởi, nội dung giải trí
Charon	Informative (Giàu thông tin)	Nam	Thuyết trình, đọc tin tức, hướng dẫn kỹ thuật
Kore	Firm (Chắc chắn)	Nữ/Nam	Thông báo quan trọng, hướng dẫn rõ ràng
Fenrir	Excitable (Dễ bị kích thích)	Nam	Bình luận thể thao, tường thuật sự kiện kịch tính
Leda	Youthful (Trẻ trung)	Nữ	Nội dung cho giới trẻ, nhân vật hoạt hình
Orus	Firm (Chắc chắn)	Nam	Tương tự Kore, giọng nam tính hơn
Aoede	Breezy (Nhẹ nhàng, thoải mái)	Nữ	Tường thuật thư giãn, podcast trò chuyện
Callirrhoe	Easy-going (Dễ chịu)	Nữ	Hướng dẫn thiền, kể chuyện nhẹ nhàng
Autonoe	Bright (Tươi sáng)	Nữ	Tương tự Zephyr, có thể mang sắc thái nữ tính hơn
Enceladus	Breathy (Có hơi thở)	Nữ/Nam	Giọng nói thân mật, thì thầm, gợi cảm xúc
Iapetus	Clear (Rõ ràng)	Nam	Đọc tài liệu, hướng dẫn sử dụng, thông tin chính xác
Umbriel	Easy-going (Dễ chịu)	Nữ/Nam	Tương tự Callirrhoe
Algieba	Smooth (Mượt mà)	Nữ/Nam	Tường thuật sang trọng, quảng cáo sản phẩm cao cấp
Despina	Smooth (Mượt mà)	Nữ	Tương tự Algieba, có thể mang sắc thái nữ tính hơn
Erinome	Clear (Rõ ràng)	Nữ	Tương tự Iapetus, có thể mang sắc thái nữ tính hơn
Algenib	Gravelly (Khàn)	Nam	Nhân vật có tuổi, giọng nói mạnh mẽ, có chút thô ráp
Rasalgethi	Informative (Giàu thông tin)	Nam	Tương tự Charon
Laomedeia	Upbeat (Lạc quan)	Nữ	Tương tự Puck, có thể mang sắc thái nữ tính hơn
Achernar	Soft (Mềm mại)	Nữ	Kể chuyện ru ngủ, giọng nói dịu dàng, tâm tình
Alnilam	Firm (Chắc chắn)	Nam	Tương tự Orus
Schedar	Even (Đều đặn)	Nữ/Nam	Giọng nói trung tính, đọc văn bản dài không gây mệt mỏi
Gacrux	Mature (Trưởng thành)	Nam	Nhân vật lớn tuổi, giọng nói có chiều sâu, đáng tin cậy
Pulcherrima	Forward (Hướng ngoại)	Nữ	Giọng nói tự tin, năng động, thu hút
Achird	Friendly (Thân thiện)	Nữ/Nam	Trợ lý ảo, dịch vụ khách hàng, giọng nói gần gũi
Zubenelgenubi	Casual (Thân mật, không trang trọng)	Nữ/Nam	Podcast trò chuyện, nội dung đời thường
Vindemiatrix	Gentle (Nhẹ nhàng)	Nữ	Giọng nói êm ái, phù hợp với nội dung thư giãn
Sadachbia	Lively (Sống động)	Nữ/Nam	Quảng cáo, nội dung cần sự năng nổ, hoạt náo
Sadaltager	Knowledgeable (Tri thức)	Nam	Chuyên gia, nhà khoa học, giọng nói uyên bác
Sulafar	Warm (Ấm áp)	Nữ/Nam	Kể chuyện, giọng nói truyền cảm, tạo sự đồng cảm

Việc đặt tên giọng nói (ví dụ: Puck, Zephyr, Charon) kết hợp với các đặc điểm mô tả (Lạc quan, Tươi sáng, Giàu thông tin) được thiết kế để gợi mở và thân thiện với người dùng hơn là các mã định danh kỹ thuật. Điều này phù hợp với phương pháp tạo prompt bằng ngôn ngữ tự nhiên, giúp người dùng dễ dàng nắm bắt và ghi nhớ hơn so với các tên chung chung hoặc mã phức tạp, từ đó giảm bớt rào cản trong việc lựa chọn giọng nói phù hợp.

Hướng dẫn chọn giọng nói

Việc lựa chọn giọng nói phù hợp là một bước quan trọng để truyền tải đúng thông điệp và cảm xúc:

Đối chiếu đặc điểm giọng nói với phong cách prompt: Ví dụ, nếu prompt yêu cầu giọng nói hào hứng, việc chọn một giọng nói có đặc điểm “Upbeat” như ‘Puck’ sẽ giúp tăng cường hiệu quả.
Xem xét đối tượng mục tiêu và mục đích của âm thanh: Một giọng nói phù hợp cho video hướng dẫn trẻ em có thể sẽ khác với giọng nói cho một bài thuyết trình kinh doanh.
Thử nghiệm: Cách tốt nhất để tìm ra giọng nói hoàn hảo là thử nghiệm nhiều giọng nói khác nhau cho cùng một đoạn văn bản. AI Studio cho phép người dùng nghe trước các mẫu giọng.

Một điểm cần lưu ý là cơ chế lựa chọn giọng nói trong Gemini TTS không dựa trên việc chỉ định giới tính một cách tường minh như trong các hệ thống TTS truyền thống (ví dụ: chọn en-US-Wavenet-F cho giọng nữ). Thay vào đó, VoiceConfig của Gemini TTS sử dụng voice_name như ‘Kore’. Mặc dù một số giọng nói có thể nghe có vẻ nam tính hoặc nữ tính theo khuôn mẫu, không có tham số gender nào được hiển thị trong VoiceConfig cho Gemini TTS. Điều này ngụ ý rằng giới tính là một đặc điểm cố hữu của giọng nói được xây dựng sẵn, thay vì là một tham số có thể lựa chọn cho một tên giọng nói nhất định. Người dùng chọn một giọng nói, và nó đi kèm với giới tính và phong cách vốn có của nó.

Hiện tại, tài liệu tập trung vào danh sách các giọng nói dựng sẵn này. Mặc dù Google Cloud TTS có cung cấp khả năng tạo Giọng nói Tùy chỉnh (Custom Voice), tính năng này không được đề cập rõ ràng cho các model Gemini TTS trong AI Studio qua các tài liệu tham khảo. Điều này cho thấy, ít nhất là ở thời điểm hiện tại, người dùng sẽ làm việc với bảng màu giọng nói đã được xác định này cho Gemini TTS. Đối với các nhu cầu về giọng nói mang thương hiệu rất cụ thể, người dùng có thể cần khám phá các dịch vụ Google Cloud TTS khác hoặc chờ đợi các tính năng giọng nói tùy chỉnh được tích hợp với Gemini TTS.

6. Làm chủ Tính năng Tổng hợp giọng nói Đa người nói (Multi-Speaker)

Một trong những khả năng ấn tượng của Gemini API TTS là hỗ trợ tạo ra âm thanh với nhiều người nói, mở ra nhiều ứng dụng thực tế như tạo podcast, phỏng vấn, kể chuyện tương tác, hoặc lồng tiếng cho các nhân vật khác nhau. Tính năng này cho phép tối đa hai người nói trong một yêu cầu.

Thiết lập MultiSpeakerVoiceConfig: Định nghĩa người nói và gán giọng

Để sử dụng tính năng đa người nói, cần cấu hình đối tượng types.MultiSpeakerVoiceConfig bên trong SpeechConfig. Đối tượng này nhận một danh sách các đối tượng types.SpeakerVoiceConfig.

Mỗi đối tượng types.SpeakerVoiceConfig định nghĩa:

speaker: Một chuỗi ký tự đặt tên cho người nói (ví dụ: ‘Joe’, ‘Jane’, ‘Speaker1’). Tên này phải khớp với tên người nói được sử dụng trong prompt văn bản.
voice_config: Một đối tượng types.VoiceConfig, thường chứa prebuilt_voice_config để chỉ định voice_name (tên giọng nói dựng sẵn từ bảng màu ở Phần 5) cho người nói đó.

Hệ thống dựa vào việc khớp tên người nói trong MultiSpeakerVoiceConfig với các thẻ tên người nói trong prompt. Do đó, tính nhất quán trong việc đặt tên là cực kỳ quan trọng để hệ thống có thể gán giọng nói và phong cách một cách chính xác. Lỗi trong việc đặt tên hoặc gắn thẻ không nhất quán trong prompt có thể dẫn đến việc gán giọng nói sai hoặc thất bại.

Xây dựng prompt cho hội thoại đa người nói

Prompt văn bản cho hội thoại đa người nói cần chứa bản ghi lời thoại, chỉ rõ người nào nói câu nào. Ví dụ:

Joe: How's it going today Jane?
Jane: Not too bad, how about you?

Để kiểm soát phong cách của từng người nói riêng lẻ, có thể thêm hướng dẫn bằng ngôn ngữ tự nhiên vào đầu prompt, ví dụ:

Make Speaker1 sound tired and bored, and Speaker2 sound excited and happy:.

Model sẽ cố gắng áp dụng các phong cách này cho những người nói tương ứng trong đoạn hội thoại theo sau.

Tính năng TTS đa người nói của Gemini thể hiện sự kết hợp mạnh mẽ giữa cấu hình có lập trình và prompt ngôn ngữ tự nhiên. Một mặt, người dùng định nghĩa có cấu trúc về người nói và giọng nói cơ bản của họ thông qua MultiSpeakerVoiceConfig. Mặt khác, prompt ngôn ngữ tự nhiên được sử dụng để cung cấp kịch bản hội thoại và các sắc thái phong cách riêng cho từng người nói. Cách tiếp cận kết hợp này mang lại cả khả năng kiểm soát cấu trúc và sự linh hoạt trong việc tạo kiểu biểu cảm.

Ví dụ mã Python

Dưới đây là một ví dụ mã Python hoàn chỉnh minh họa cách sử dụng Gemini API để tạo giọng nói đa người nói, lưu ý rằng bạn cần thay thế “GEMINI_API_KEY” bằng khóa API thực tế của mình:

Python

from google import genai
from google.genai import types
import wave

# Hàm tiện ích để lưu tệp âm thanh WAV
def wave_file(filename, pcm, channels=1, rate=24000, sample_width=2):
  with wave.open(filename, "wb") as wf:
      wf.setnchannels(channels)
      wf.setsampwidth(sample_width)
      wf.setframerate(rate)
      wf.writeframes(pcm)

# Khởi tạo client với API key
client = genai.Client(api_key="GEMINI_API_KEY") # Thay thế bằng API Key của bạn

# Prompt chứa đoạn hội thoại đa người nói và hướng dẫn phong cách
prompt = """TTS the following conversation between Joe and Jane:
Make Joe sound informative and clear, and Jane sound upbeat and friendly.
Joe: Hello Jane, welcome to our podcast on advanced AI.
Jane: Thanks Joe! It's great to be here and share some exciting news!"""

# Tạo nội dung giọng nói
response = client.models.generate_content(
  model="gemini-2.5-flash-preview-tts", # Có thể thay bằng gemini-2.5-pro-preview-tts
  contents=prompt,
  config=types.GenerateContentConfig(
      response_modalities=,
      speech_config=types.SpeechConfig(
        multi_speaker_voice_config=types.MultiSpeakerVoiceConfig(
            speaker_voice_configs=
        )
      )
  )
)

# Trích xuất dữ liệu âm thanh và lưu tệp
if response.candidates and response.candidates.content.parts:
    audio_part = next((part for part in response.candidates.content.parts if part.inline_data), None)
    if audio_part:
        data = audio_part.inline_data.data
        file_name = 'multi_speaker_output.wav'
        wave_file(file_name, data)
        print(f"Generated audio saved to {file_name}")
    else:
        print("No audio data found in the response.")
else:
    print("No candidates found in the response or content parts are missing.")
    print(f"Response: {response}")

Trong ví dụ này:

multi_speaker_voice_config được sử dụng để kích hoạt chế độ đa người nói.
speaker_voice_configs là một danh sách, mỗi phần tử là một SpeakerVoiceConfig cho một người nói.
Mỗi SpeakerVoiceConfig chỉ định speaker (tên người nói) và voice_config (chọn voice_name cho người nói đó).
Prompt bao gồm cả kịch bản và hướng dẫn phong cách cho từng người nói.

Allowlisting (Danh sách cho phép)

Một số tài liệu, đặc biệt là notebook ví dụ về tạo podcast đa người nói, có đề cập: “LƯU Ý: Việc tạo hội thoại với nhiều người nói chỉ khả dụng cho các dự án trong danh sách cho phép. Vui lòng liên hệ với Google Cloud nếu bạn muốn sử dụng tính năng này.”. Mặc dù các ví dụ chung về Gemini API TTS đa người nói (tối đa 2 người) dường như không có ghi chú này và có vẻ khả dụng rộng rãi ở dạng xem trước, điều quan trọng là phải nhận thức được rằng một số chức năng đa người nói rất tiên tiến hoặc các “giọng nói studio” cụ thể có thể yêu cầu đưa dự án vào danh sách cho phép.

Các vấn đề hoặc hạn chế đã biết

Một vấn đề tiềm ẩn đã được báo cáo là đôi khi Gemini TTS có thể bỏ qua cài đặt giọng nói riêng cho từng người trong các kịch bản đa người nói dài, và chỉ sử dụng một giọng nói cho toàn bộ đầu ra. Đây là một chi tiết thực tế quan trọng mà người dùng cần lưu ý khi làm việc với các đoạn hội thoại phức tạp hoặc dài.

7. Hạn chế, Thực tiễn tốt nhất và Triển vọng Tương lai

Việc sử dụng hiệu quả tính năng Generate Speech trong Google AI Studio với các model Gemini đòi hỏi sự hiểu biết về các giới hạn hiện tại, áp dụng các thực tiễn tốt nhất và nhận thức về hướng phát triển của công nghệ này.

Các hạn chế đã biết

Giới hạn Ký tự/Token:
- Tính năng TTS cơ bản trong Vertex AI Studio: giới hạn 200 ký tự.
- Đầu vào cho model Gemini API gemini-2.5-flash-preview-tts: 8.000 token.
- Context window cho một phiên Gemini API TTS: 32.000 token.
- Các giới hạn tỷ lệ sử dụng (rate limits) chung của Gemini API có thể được áp dụng, và các model TTS đang trong giai đoạn thử nghiệm/xem trước có thể có giới hạn tỷ lệ sử dụng chặt chẽ hơn.

Hỗ trợ SSML: Không được hỗ trợ cho Gemini TTS; việc kiểm soát chủ yếu thông qua ngôn ngữ tự nhiên.
Tham số Cao độ/Tốc độ/Âm lượng tường minh: Không có sẵn trong Gemini API TTS; được kiểm soát gián tiếp qua prompt ngôn ngữ tự nhiên.
Lỗi chuyển đổi giọng nói đa người nói cho kịch bản dài: Như đã lưu ý, có thể chỉ sử dụng một giọng nói cho toàn bộ đầu ra trong một số trường hợp.
Tình trạng Xem trước (Preview Status): Các tính năng và hiệu suất có thể thay đổi khi model được cập nhật.
Allowlisting: Có thể được yêu cầu cho một số tính năng đa người nói nâng cao hoặc các giọng nói studio cụ thể.
Số lượng người nói đồng thời: Hiện tại, MultiSpeakerVoiceConfig của Gemini API TTS hỗ trợ tối đa 2 người nói. Người dùng cần nhiều hơn hai giọng nói riêng biệt đồng thời có thể cần tạo các phân đoạn riêng biệt và kết hợp chúng trong quá trình hậu kỳ.

Thực tiễn tốt nhất để có kết quả tối ưu

Prompt rõ ràng và cụ thể: Đây là điều cần thiết để hướng dẫn chính xác phong cách, giọng điệu và tốc độ mong muốn.
Lặp lại và thử nghiệm: Kiểm tra các prompt, giọng nói và sự kết hợp model khác nhau để tìm ra cấu hình tốt nhất cho nhu cầu cụ thể.
Chọn giọng nói phù hợp: Đối chiếu đặc điểm của giọng nói với nội dung và cảm xúc mong muốn truyền tải.
Lưu ý giới hạn token: Chia nhỏ các văn bản rất dài nếu cần, đặc biệt khi sử dụng model Flash TTS.
Đối với đa người nói: Đảm bảo đặt tên người nói nhất quán giữa cấu hình và prompt.
Kiểm tra cập nhật: Do tính chất xem trước của các model, hãy thường xuyên tham khảo tài liệu chính thức từ Google để biết các thay đổi và cải tiến.

Sự thay đổi trong cơ chế kiểm soát (từ SSML/tham số tường minh sang ngôn ngữ tự nhiên) và những khác biệt tinh tế giữa các model đòi hỏi tài liệu rõ ràng và hướng dẫn cụ thể để người dùng có thể khai thác hiệu quả. Những người dùng quen thuộc với TTS truyền thống có thể có những kỳ vọng khác, và việc sử dụng hiệu quả phụ thuộc vào việc hiểu cách tạo prompt cho model để đạt được phong cách mong muốn cũng như biết được khả năng/hạn chế của Flash so với Pro.

Bối cảnh phát triển của giọng nói tổng hợp

Lĩnh vực tổng hợp giọng nói dựa trên AI đang phát triển nhanh chóng, dẫn đến việc tạo ra giọng nói ngày càng tự nhiên, biểu cảm và dễ kiểm soát hơn. Nghiên cứu liên tục của Google về các mô hình giọng nói cho thấy những cải tiến và khả năng mới sẽ tiếp tục xuất hiện.

Xu hướng hướng tới đầu ra âm thanh gốc (native audio output) và tích hợp đa phương thức (multimodal integration) ngày càng rõ rệt. Điều này có nghĩa là các model AI không chỉ hiểu và tạo văn bản mà còn có thể xử lý và tạo ra âm thanh, hình ảnh và video một cách liền mạch.

Mặc dù việc kiểm soát giọng nói thông qua ngôn ngữ tự nhiên mang lại sự trực quan, đôi khi nó có thể cảm thấy kém dự đoán hơn so với các lệnh tường minh. Việc hiểu tại sao một model diễn giải một prompt phong cách theo một cách nhất định có thể là một thách thức. Điều này trái ngược với SSML, nơi các thẻ có hiệu ứng được xác định và có thể dự đoán được. Do đó, quá trình này có thể đòi hỏi nhiều thử nghiệm và sai sót hơn, và người dùng có thể phát triển một “cảm nhận” trực quan về cách tạo prompt hiệu quả theo thời gian.

Cuối cùng, mặc dù không phải là trọng tâm của truy vấn người dùng, một chuyên gia sẽ lưu ý rằng giọng nói tổng hợp ngày càng thực tế và dễ kiểm soát đặt ra các cân nhắc về đạo đức (ví dụ: lạm dụng để mạo danh). Google có đề cập đến các bộ lọc an toàn và đánh dấu bản quyền cho việc tạo nhạc, và AI có trách nhiệm là một nguyên tắc chung của Google. Đây là một hàm ý rộng hơn của công nghệ giọng nói tạo sinh mạnh mẽ.

Kết luận

Tính năng “Generate Speech” trong Google AI Studio, được hỗ trợ bởi các model Gemini TTS tiên tiến như gemini-2.5-flash-preview-tts và gemini-2.5-pro-preview-tts, mang đến một bước tiến đáng kể trong việc tạo ra giọng nói tổng hợp chất lượng cao, tự nhiên và có khả năng kiểm soát cao. Sự khác biệt giữa model ‘Flash’ (tối ưu cho tốc độ và chi phí) và ‘Pro’ (tối ưu cho chất lượng và khả năng xử lý phức tạp) cho phép người dùng lựa chọn giải pháp phù hợp nhất với nhu cầu cụ thể của dự án.

Điểm nổi bật của các model Gemini TTS là khả năng kiểm soát phong cách, giọng điệu, tốc độ và cảm xúc của giọng nói thông qua các prompt bằng ngôn ngữ tự nhiên, thay vì phụ thuộc chủ yếu vào SSML hay các tham số kỹ thuật tường minh như các hệ thống TTS truyền thống. Điều này mở ra một phương thức tương tác trực quan hơn, mặc dù đòi hỏi người dùng phải phát triển kỹ năng xây dựng prompt hiệu quả thông qua thử nghiệm và tinh chỉnh lặp đi lặp lại.

Bảng màu gồm 30 giọng nói dựng sẵn, mỗi giọng có đặc điểm riêng, cung cấp sự đa dạng cho nhiều loại nội dung khác nhau. Khả năng tạo giọng nói đa người nói (hiện tại hỗ trợ tối đa hai người) là một công cụ mạnh mẽ cho việc sản xuất podcast, hội thoại và các nội dung tương tác khác, với việc cấu hình được thực hiện thông qua MultiSpeakerVoiceConfig và kịch bản được cung cấp trong prompt.

Tuy nhiên, người dùng cần lưu ý đến các hạn chế hiện tại như giới hạn token, tình trạng “preview” của các model (có nghĩa là các tính năng và hiệu suất có thể thay đổi), và các vấn đề tiềm ẩn như lỗi chuyển đổi giọng nói trong các kịch bản đa người nói dài. Việc tham khảo tài liệu chính thức thường xuyên và áp dụng các thực tiễn tốt nhất trong việc xây dựng prompt và lựa chọn model/giọng nói là rất quan trọng để đạt được kết quả tối ưu.

Nhìn chung, Generate Speech với Gemini trong AI Studio là một công cụ mạnh mẽ và linh hoạt. Khi công nghệ tiếp tục phát triển, chúng ta có thể kỳ vọng vào những cải tiến hơn nữa về độ tự nhiên, khả năng kiểm soát và các tính năng mới, làm phong phú thêm khả năng sáng tạo nội dung âm thanh dựa trên AI.

Khai phá Tính năng Generate Speech trong Google AI Studio: Hướng dẫn Toàn diện về Text-to-Speech với Model Gemini

1. Giới thiệu về tính năng Generate Speech trong Google AI Studio