Google 在 ai studio发布了支持音频视频输入和原生音频输出对话的预览版模型

它们是 Gemini 2.5 Flash Preview Native Audio Dialog 和 Gemini 2.5 Flash Exp Native Audio Thinking Dialog

它还允许用户控制其语气、口音和说话风格。例如,您可以让模型在讲故事时使用戏剧性的声音。它还支持使用工具,以便能够代表您进行搜索。

您可以尝试一系列早期功能,包括:

情感对话,模型可以检测用户声音中的情感并做出适当的反应。
主动音频,其中模型将忽略背景对话并知道何时做出回应。
共享屏幕 , 其中模型将理解您的屏幕内容使用语音做出回应
 
 
Back to Top