我开发一个 AI Voice-to-Voice

最近开发了一个 Voice-to-Voice 的功能。

虽然这个功能 OpenAI 早实现了，但是他们价格巨高。

原理上并不难：人声->语音转文本->大模型回答->文本转为语音。(stt->LLM->tts)

但是具体实践中却有很多难点：

其实还有一个问题，就是如果 stt/LLM/tts 都调用外部服务，最后会价格失控

为此我们用自己的模型，成本全部拿捏👌。

anUglyDog · 2024-11-29 21:59:47

https://github.com/yimuc/Jarvis5 个月前我也做了个语音助手 demo ，

anUglyDog · 2024-11-29 22:01:25

https://github.com/yimuc/Jarvis 5 个月前我也做了个语音助手 demo ，录音、语音转文字、AI 发送文本获取回复文本、语音播放文本。

swim2sun · 2024-11-30 14:36:42

原理根本不是你说的那样，openai 的语音模型是端到端的，直接把语音编码发给大模型，不需要 stt

tcper · 2024-11-30 16:57:48

@swim2sun 你能看到中文吗？

tcper · 2024-11-30 17:02:59

@anUglyDog 很神奇，你用 nodejs 进行录音？那这样的话你的服务只能跑在单台电脑上了？

swim2sun · 2024-11-30 17:41:52

@tcper ? 你能把话讲明白吗