最近开发了一个 Voice-to-Voice 的功能。
虽然这个功能 OpenAI 早实现了,但是他们价格巨高。
原理上并不难:人声->语音转文本->大模型回答->文本转为语音。(stt->LLM->tts)
但是具体实践中却有很多难点:
- microphone 声音如何压缩,如何传输到 server ,如何降低延迟?
- 语音流持续输入,如何判断用户的停顿?(因为语音流本质上持续有输入,就算静音也有数据)
- AI 返回的语音,如何让用户打断?
其实还有一个问题,就是如果 stt/LLM/tts 都调用外部服务,最后会价格失控
为此我们用自己的模型,成本全部拿捏👌。
欢迎体验: https://studio.metag-ai.com/podcasting/voice
|