昨天 Google 直接掀桌子,发布了 Gemini 2.0 ,其中提到了最新 Multimodal Live API ,它具有实时音频、视频流输入、以及使用多个组合工具的能力。目前在 Google AI Studio 中已经可以体验,但 Google AI Studio 中的体验并不是很好,我在官方的仓库里发现了一个类似于 Project Astra 原型的项目,该项目体验非常不错,基本上有了 Project Astra 的雏形,我对项目进行了微调,让每个人都可以在线体验 Multimodal Live API 。
在线体验:https://astra.u14.app/
项目文件:openAstra.zip
需要输入拥有 gemini-2.0-flash-exp 访问权限的 apiKey ,apiKey 保存在 localStorage 中,整个网站属于静态页面
apiKey 可以在 Google AI Studio 上免费申请。目前 Multimodal Live API 处于测试阶段,似乎还没有使用额度限制,可以一直对话。另外需要注意的是,Multimodal Live API 暂不支持中文语音输出,请尽可能地使用英文与其交流。
后续 GeminiNextChat 也会接入 Multimodal Live API ,获得实时语音和视频对话的能力。
|