之前一直使用讯飞的 PC 语音输入法,最近发现一些模型比如 https://www.modelscope.cn/models/damo/speech_paraformer-large-vad-punc_asr_nat-zh-cn-16k-common-vocab8404-pytorch/summary 还有 whisper 的效果也很不错。 还有使用豆包用的多,大概用了半年,语音识别体感上几乎没有任何错误。

那么科大讯飞的语音识别好像没啥太大意义啊?这么快就被超越了?

举报· 2472 次点击
登录 注册 站外分享
23 条回复  
evill 小成 昨天 08:51
有部分需要这个功能的人,他们不具有部署模型的能力。 成本问题,部署模型是固定的高成本,接 API 按量付费。 接 API 省心,不用运维模型 不关心模型升级(顶多换个 API)
xiaoqidev 小成 昨天 08:54
API 有返点,甚至 50% 以上
zero47 小成 昨天 09:15
这不就是 saas 的意义吗,个人使用频率低,性价比不高。企业要考虑扩容,维护成本大。
AndrewCotton 初学 昨天 09:21
目前的模式看,有点类似云服务刚刚开始假设,所有公司跑马圈地的时候。不论是 chatgpt 或者 deepseek ,都是从 llm 发展出来的模型。确实有开源模型。但是: 1. 不论是不是开源,维护这种模型的效果都需要人力物力成本。 2. 现在免费的 API 不代表永远免费。 3. 公司的商业业务不能因为免费 API 收费了就破产。 4. 商业化 API 融资嘎嘎快。 以上。
Stevenv 小成 昨天 09:28
开源是为了更好的做商业。
dzdh 小成 昨天 09:29
100 并发部署 whisper-large-v3-turbo 。 粗算一下 假设 4u 服务器 4 ~ 5 块高性能起码 6GB 显存的 GPU 、CPU 、足够内存 SSD 。最低最低离谱到没边的价格,15 万,稍微好点的大几十。 一年托管费电信百兆单线 2 万。 现在阿里/腾讯/华为/火山一个接口。语音识别 0.00015 元/秒 / 0.00008 元/秒 https://help.aliyun.com/zh/model-studio/getting-started/models#9e21336740rk2 你自己说你做个产品用哪个方案(除了军政央医)。3 天能出产品快速试错,新账号还送几小时的额度。
ala2008 小成 昨天 09:32
有资源当然可以私有部署,但和云服务器一样,运维什么的是一个问题。不得不说,开源真棒
yplam 小成 昨天 09:51
降低边缘设备成本,这样几十元的玩具都可以接入大模型,然后每年收你几十元会员费,非常好的商业模式。
Goooooos 初学 昨天 09:54
个人用户偶尔用用,还得花几万买社保自己部署吗?
123下一页
返回顶部