23 条回复  ·  2554 次点击
bluesenzhu 小成 2025-3-19 10:01:34
另外一个角度是:类似开源和闭源软件
Nosub 小成 2025-3-19 10:09:18
知乎上有一句,我觉得是对的,先问是不是,再问为什么。 抛开成本,使用接入的便利性不谈, 首先在线语音识别 API 比开源大模型早,这个答案就是回答了你的问题, 七八年前讯飞语音识别 API 就有了,七八年前有 funasr 和 whisper 吗。 你这个逻辑就是剪映这么好,为什么还需要什么其他字幕软件一个逻辑。
showonder 初学 2025-3-19 10:10:29
方便 你要喝牛奶,自己养一头牛每公斤牛奶成本不到 3 块钱,还新鲜,但是你为啥在超市买 10 块钱一公斤的牛奶呢?
KIRAYOMATO 小成 2025-3-19 10:24:45
我目前用下来识别最准确的还是剪映,whisper 和 paraformer 准确性都差很多
Nosub 小成 2025-3-19 10:24:45
多说一句,我最近一直在实现 funasr 的本地化移植工作( Windows/Linux/Macos ),也算支持下国产大模型,毕竟支持 whisper 的客户端太多了,支持 funasr 的几乎没有,我之前一直不愿意接入本地模型就是因为使用成本太高,一个模型动辄几个 GB ,ct-punc mode ,asr-model ,vad-mode 加起来差不多有 3 个 GB ,连放在哪儿储存给用户下载使用都是个问题,当然这是开发者应该解决的事情,储存成本和使用成本,哪个不是成本。
JackMaMa 小成 2025-3-19 10:46:07
@xiaoqidev 讯飞有吗?想要
bushnerd 楼主 初学 2025-3-19 10:55:56
好像是我问的问题不对,我的意思是讯飞的智能语音的护城河在哪里?如果一些小企业把这模型拿去,也去部署一个对外服务,可以说研发成本几乎为 0 啊。
coefuqin 初学 2025-3-19 11:00:13
@bushnerd whisper 在带地方乡音不标准的普通话下,识别率很低。你知道的,大家大部分能把普通话说到二级甲等的都很少了。
coefuqin 初学 2025-3-19 11:01:41
@bushnerd 大厂的模型都是针对性优化的,你看王者荣耀的语音识别,就是纯地方方言乡音的识别率都很高的。开源的没有经过任何微调的 whisper 比得过?
mingtdlb 小成 2025-3-19 11:13:41
你这问题就像都有私有云了,还有公有云干嘛
返回顶部