昨天 Google 直接掀桌子,发布了 Gemini 2.0 ,其中提到了最新 Multimodal Live API ,它具有实时音频、视频流输入、以及使用多个组合工具的能力。目前在 Google AI Studio 中已经可以体验,但 Google AI Studio 中的体验并不是很好,我在官方的仓库里发现了一个类似于 Project Astra 原型的项目,该项目体验非常不错,基本上有了 Project Astra 的雏形,我对项目进行了微调,让每个人都可以在线体验 Multimodal Live API 。

在线体验:https://astra.u14.app/

项目文件:openAstra.zip

需要输入拥有 gemini-2.0-flash-exp 访问权限的 apiKey ,apiKey 保存在 localStorage 中,整个网站属于静态页面

apiKey 可以在 Google AI Studio 上免费申请。目前 Multimodal Live API 处于测试阶段,似乎还没有使用额度限制,可以一直对话。另外需要注意的是,Multimodal Live API 暂不支持中文语音输出,请尽可能地使用英文与其交流。

后续 GeminiNextChat 也会接入 Multimodal Live API ,获得实时语音和视频对话的能力。

举报· 103 次点击
登录 注册 站外分享
快来抢沙发
0 条回复  
返回顶部