飞社-令人惊奇的创意工作者社区-奇思妙想我有这个需求,请教老师们如何实现较好

javalaw2010

需求太复杂，只能自己做，房间只放简单的录音设备，录音文件放云端对象存储，再买台服务器定时 ASR 并根据声纹提取讲话人，然后对接火山引擎大模型，配合 RAG ，自己做硬件或魔改个音响。

Peiiii

你东西付费的话能接受每个月多少钱

seven777

@Peiiii 我随便说下啊，每年千元内，能接受

adgfr32

语音输入，拿到语音的文件或者流->分离说话人->说话人身份判断->语音转文字(这一步可能会丢失一些信息比如:情绪，或者豆包支持语音多模态么，没调研过)->预处理做成 prompt ，送进豆包->拿结果->转语音输出语音 asr ，tts 这一套已经很成熟了，也可以用云服务，感觉做个 demo 不麻烦，主要是细节的打磨。