我开发一个 AI Voice-to-Voice

tcper · 2024-11-29 10:29:50 · 737 次点击

最近开发了一个 Voice-to-Voice 的功能。

虽然这个功能 OpenAI 早实现了,但是他们价格巨高。

原理上并不难:人声->语音转文本->大模型回答->文本转为语音。(stt->LLM->tts)

但是具体实践中却有很多难点:

  1. microphone 声音如何压缩,如何传输到 server ,如何降低延迟?
  2. 语音流持续输入,如何判断用户的停顿?(因为语音流本质上持续有输入,就算静音也有数据)
  3. AI 返回的语音,如何让用户打断?

其实还有一个问题,就是如果 stt/LLM/tts 都调用外部服务,最后会价格失控

为此我们用自己的模型,成本全部拿捏👌。

欢迎体验: https://studio.metag-ai.com/podcasting/voice

举报· 737 次点击
登录 注册 站外分享
6 条回复  
anUglyDog 小成 2024-11-29 21:59:47
https://github.com/yimuc/Jarvis5 个月前我也做了个语音助手 demo ,
anUglyDog 小成 2024-11-29 22:01:25
https://github.com/yimuc/Jarvis 5 个月前我也做了个语音助手 demo ,录音、语音转文字、AI 发送文本获取回复文本、语音播放文本。
swim2sun 小成 2024-11-30 14:36:42
原理根本不是你说的那样,openai 的语音模型是端到端的,直接把语音编码发给大模型,不需要 stt
tcper 楼主 小成 2024-11-30 16:57:48
@swim2sun 你能看到中文吗?
tcper 楼主 小成 2024-11-30 17:02:59
@anUglyDog 很神奇,你用 nodejs 进行录音?那这样的话你的服务只能跑在单台电脑上了?
swim2sun 小成 2024-11-30 17:41:52
@tcper ? 你能把话讲明白吗
返回顶部