科普贴，让大家了解一下中外公司语音技术的差异，就可以看出来为何国内那俩语音技术公司炒不动了，根本不是一个东西，差得有点远...

2025-07-06 09:08:33

来源：雪球App，作者：稻田舞者，（https://xueqiu.com/1853950772/318016149）

科普贴，让大家了解一下中外公司语音技术的差异，就可以看出来为何国内那俩语音技术公司炒不动了，根本不是一个东西，差得有点远：1. 科大讯飞：• 目前方式：科大讯飞的主流技术路径是先将语音信号转化为文字（通过语音识别，即 ASR），然后再基于文字数据训练其自然语言处理（NLP）模型。• 语音识别（ASR）：从语音中提取文本内容。• 自然语言理解（NLU）：使用深度学习模型对文本进行训练和理解。• 是否直接训练语音数据：科大讯飞的现有技术主要采用“分步模式”（语音转文字后再处理），而不是直接基于语音数据训练语义理解模型。不过，科大讯飞也在探索直接从语音到语义的技术，但这仍处于开发阶段，尚未成为其主流方法。2. 海天瑞声：• 目前方式：海天瑞声的核心业务是提供高质量的语音数据采集和标注服务，专注于数据质量控制，而非模型研发和训练。• 海天瑞声的客户（如科大讯飞、百度等）通常使用海天瑞声提供的数据来训练自己的模型。• 是否直接训练语音数据：海天瑞声本身并不进行模型训练，无论是语音转文字还是直接语音到语义。3. SoundHound：SoundHound 的 Speech-to-Meaning® 技术直接从语音信号中提取语义信息，而无需经过语音转文字的步骤。这是一种独特的技术架构，专注于语音到语义的高效处理，避免了传统流程中的信息丢失和误差累积。总结对比：科大讯飞目前并不像 SoundHound 那样直接训练语音数据，而是采用“语音转文字再训练”的分步方式。其技术特点集中在语音识别（ASR）和自然语言理解（NLU），不过科大讯飞也在探索语音直接到语义的技术，但这还未成为主流。海天瑞声本身并不进行模型训练，无论是基于语音数据直接训练还是通过文本训练。它的核心业务是为其他公司提供高质量的语音数据服务，不直接参与语音到语义的模型开发。SoundHound则通过 Speech-to-Meaning® 技术实现了语音数据的直接训练，跳过了语音转文字这一步，直接从语音中提取语义，是当前市场上较为独特的一种技术路径。因此，SoundHound 的技术架构与科大讯飞和海天瑞声的现有方法存在明显区别。$科大讯飞(SZ002230)$ $海天瑞声(SH688787)$

干捞猪尿泡的做法
汽车之家