它们是 Gemini 2.5 Flash Preview Native Audio Dialog 和 Gemini 2.5 Flash Exp Native Audio Thinking Dialog
它还允许用户控制其语气、口音和说话风格。例如,您可以让模型在讲故事时使用戏剧性的声音。它还支持使用工具,以便能够代表您进行搜索。
您可以尝试一系列早期功能,包括:
情感对话,模型可以检测用户声音中的情感并做出适当的反应。
主动音频,其中模型将忽略背景对话并知道何时做出回应。
共享屏幕 , 其中模型将理解您的屏幕内容使用语音做出回应