语音识别都有开源的模型了，商业化的 API 意义在哪里？

之前一直使用讯飞的 PC 语音输入法，最近发现一些模型比如 https://www.modelscope.cn/models/damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary 还有 whisper 的效果也很不错。还有使用豆包用的多，大概用了半年，语音识别体感上几乎没有任何错误。

那么科大讯飞的语音识别好像没啥太大意义啊？这么快就被超越了？

evill

有部分需要这个功能的人，他们不具有部署模型的能力。成本问题，部署模型是固定的高成本，接 API 按量付费。接 API 省心，不用运维模型不关心模型升级(顶多换个 API)

xiaoqidev

API 有返点，甚至 50% 以上

zero47

这不就是 saas 的意义吗，个人使用频率低，性价比不高。企业要考虑扩容，维护成本大。

AndrewCotton

目前的模式看，有点类似云服务刚刚开始假设，所有公司跑马圈地的时候。不论是 chatgpt 或者 deepseek ，都是从 llm 发展出来的模型。确实有开源模型。但是： 1. 不论是不是开源，维护这种模型的效果都需要人力物力成本。 2. 现在免费的 API 不代表永远免费。 3. 公司的商业业务不能因为免费 API 收费了就破产。 4. 商业化 API 融资嘎嘎快。以上。

Stevenv

开源是为了更好的做商业。

dzdh

100 并发部署 whisper-large-v3-turbo 。粗算一下假设 4u 服务器 4 ～ 5 块高性能起码 6GB 显存的 GPU 、CPU 、足够内存 SSD 。最低最低离谱到没边的价格，15 万，稍微好点的大几十。一年托管费电信百兆单线 2 万。现在阿里/腾讯/华为/火山一个接口。语音识别 0.00015 元/秒 / 0.00008 元/秒 https://help.aliyun.com/zh/model-studio/getting-started/models#9e21336740rk2 你自己说你做个产品用哪个方案（除了军政央医）。3 天能出产品快速试错，新账号还送几小时的额度。

ala2008

有资源当然可以私有部署，但和云服务器一样，运维什么的是一个问题。不得不说，开源真棒

yplam

降低边缘设备成本，这样几十元的玩具都可以接入大模型，然后每年收你几十元会员费，非常好的商业模式。

Goooooos

个人用户偶尔用用，还得花几万买社保自己部署吗？

语音识别都有开源的模型了，商业化的 API 意义在哪里？

浏览过的版块