设为首页
收藏本站
开启辅助访问
全部
问与答
创意
技术
酷工作
生活
交易
节点
飞墙
Follow
明白贴
工算小助手
登录
注册
飞社-令人惊奇的创意工作者社区-
›
首页
›
奇思妙想
›
我有这个需求,请教老师们如何实现较好
FSHEX=FIND+SHARE+EXPRESS
飞社-令人惊奇的创意工作者社区- 是一个关于发现分享表达的地方
现在登录
没有账号?
立即注册
推荐主题
›
反对牢 A 的人到底在反对什么?
›
我不理解几乎所有 SSH 加固都提到配置公钥
›
混电车不省油也不省钱
›
微信疯起来六亲不认 元宝都给封杀
›
平时上班早餐吃什么
今日热议主题
[日本招聘] 显示画质(PQ)算法方向的技术
给妹妹买了个 switch,求f友推荐点适合的游
2026 年现在有什么好的投资策略吗?
AI 都那么强了,传统的学校教育价值是不是
请问美国手机卡激活如 red pocket 是否与 i
拍了一张很奇怪但很想细看两眼的照片
同事用了 cc 直接一把梭,现在让我改 bug,
看到很多起名贴,想到名字是否要和外貌搭配
有没有好用的梯子?最近用的 99/年, us 节
自己做了个红包封面, 1000 个限时领取
显示全部
|
最新评论
13 条回复
·
1508 次点击
11#
javalaw2010
小成
2026-1-16 12:13:23
需求太复杂, 只能自己做,房间只放简单的录音设备,录音文件放云端对象存储,再买台服务器定时 ASR 并根据声纹提取讲话人,然后对接火山引擎大模型,配合 RAG ,自己做硬件或魔改个音响。
12#
Peiiii
初学
2026-1-16 12:39:13
你东西付费的话能接受每个月多少钱
13#
seven777
楼主
初学
2026-1-16 13:03:41
@Peiiii 我随便说下啊,每年千元内,能接受
14#
adgfr32
初学
2026-1-16 13:30:54
语音输入,拿到语音的文件或者流->分离说话人->说话人身份判断->语音转文字(这一步可能会丢失一些信息比如:情绪,或者豆包支持语音多模态么,没调研过)->预处理做成 prompt ,送进豆包->拿结果->转语音输出 语音 asr ,tts 这一套已经很成熟了,也可以用云服务,感觉做个 demo 不麻烦,主要是细节的打磨。
1
2
/ 2 页
返回顶部