飞社-令人惊奇的创意工作者社区-问与答语音识别都有开源的模型了，商业化的 API 意义在哪里？

bluesenzhu

另外一个角度是：类似开源和闭源软件

Nosub

知乎上有一句，我觉得是对的，先问是不是，再问为什么。抛开成本，使用接入的便利性不谈，首先在线语音识别 API 比开源大模型早，这个答案就是回答了你的问题，七八年前讯飞语音识别 API 就有了，七八年前有 funasr 和 whisper 吗。你这个逻辑就是剪映这么好，为什么还需要什么其他字幕软件一个逻辑。

showonder

方便你要喝牛奶，自己养一头牛每公斤牛奶成本不到 3 块钱，还新鲜，但是你为啥在超市买 10 块钱一公斤的牛奶呢？

KIRAYOMATO

我目前用下来识别最准确的还是剪映，whisper 和 paraformer 准确性都差很多

Nosub

多说一句，我最近一直在实现 funasr 的本地化移植工作（ Windows/Linux/Macos ），也算支持下国产大模型，毕竟支持 whisper 的客户端太多了，支持 funasr 的几乎没有，我之前一直不愿意接入本地模型就是因为使用成本太高，一个模型动辄几个 GB ，ct-punc mode ，asr-model ，vad-mode 加起来差不多有 3 个 GB ，连放在哪儿储存给用户下载使用都是个问题，当然这是开发者应该解决的事情，储存成本和使用成本，哪个不是成本。

JackMaMa

@xiaoqidev 讯飞有吗？想要

bushnerd

好像是我问的问题不对，我的意思是讯飞的智能语音的护城河在哪里？如果一些小企业把这模型拿去，也去部署一个对外服务，可以说研发成本几乎为 0 啊。

coefuqin

@bushnerd whisper 在带地方乡音不标准的普通话下，识别率很低。你知道的，大家大部分能把普通话说到二级甲等的都很少了。

coefuqin

@bushnerd 大厂的模型都是针对性优化的，你看王者荣耀的语音识别，就是纯地方方言乡音的识别率都很高的。开源的没有经过任何微调的 whisper 比得过？

mingtdlb

你这问题就像都有私有云了，还有公有云干嘛