Google 在 ai studio发布了支持音频视频输入和原生音频输出对话的预览版模型它们是 Gemini 2.5 Flash Preview Native Audio Dialog 和 Gemini 2.5 Flash Exp Native Audio Thinking Dialog 它还允许用户控制其语气、口音和说话风格

10:33 · 2025年5月22日 · 周四

Google 在 ai studio发布了支持音频视频输入和原生音频输出对话的预览版模型

它们是 Gemini 2.5 Flash Preview Native Audio Dialog 和 Gemini 2.5 Flash Exp Native Audio Thinking Dialog

它还允许用户控制其语气、口音和说话风格。例如，您可以让模型在讲故事时使用戏剧性的声音。它还支持使用工具，以便能够代表您进行搜索。

您可以尝试一系列早期功能，包括：

情感对话，模型可以检测用户声音中的情感并做出适当的反应。
主动音频，其中模型将忽略背景对话并知道何时做出回应。
共享屏幕 , 其中模型将理解您的屏幕内容使用语音做出回应