科普贴,让大家了解一下中外公司语音技术的差异,就可以看出来为何国内那俩语音技术公司炒不动了,根本不是一个东西,差得有点远...

2025-07-06 09:08:33

来源:雪球App,作者: 稻田舞者,(https://xueqiu.com/1853950772/318016149)

科普贴,让大家了解一下中外公司语音技术的差异,就可以看出来为何国内那俩语音技术公司炒不动了,根本不是一个东西,差得有点远:1. 科大讯飞:• 目前方式:科大讯飞的主流技术路径是先将语音信号转化为文字(通过语音识别,即 ASR),然后再基于文字数据训练其自然语言处理(NLP)模型。• 语音识别(ASR):从语音中提取文本内容。• 自然语言理解(NLU):使用深度学习模型对文本进行训练和理解。• 是否直接训练语音数据:科大讯飞的现有技术主要采用“分步模式”(语音转文字后再处理),而不是直接基于语音数据训练语义理解模型。不过,科大讯飞也在探索直接从语音到语义的技术,但这仍处于开发阶段,尚未成为其主流方法。2. 海天瑞声:• 目前方式:海天瑞声的核心业务是提供高质量的语音数据采集和标注服务,专注于数据质量控制,而非模型研发和训练。• 海天瑞声的客户(如科大讯飞、百度等)通常使用海天瑞声提供的数据来训练自己的模型。• 是否直接训练语音数据:海天瑞声本身并不进行模型训练,无论是语音转文字还是直接语音到语义。3. SoundHound:SoundHound 的 Speech-to-Meaning® 技术直接从语音信号中提取语义信息,而无需经过语音转文字的步骤。这是一种独特的技术架构,专注于语音到语义的高效处理,避免了传统流程中的信息丢失和误差累积。总结对比:科大讯飞目前并不像 SoundHound 那样直接训练语音数据,而是采用“语音转文字再训练”的分步方式。其技术特点集中在语音识别(ASR)和自然语言理解(NLU),不过科大讯飞也在探索语音直接到语义的技术,但这还未成为主流。海天瑞声本身并不进行模型训练,无论是基于语音数据直接训练还是通过文本训练。它的核心业务是为其他公司提供高质量的语音数据服务,不直接参与语音到语义的模型开发。SoundHound则通过 Speech-to-Meaning® 技术实现了语音数据的直接训练,跳过了语音转文字这一步,直接从语音中提取语义,是当前市场上较为独特的一种技术路径。因此,SoundHound 的技术架构与科大讯飞和海天瑞声的现有方法存在明显区别。$科大讯飞(SZ002230)$ $海天瑞声(SH688787)$

干捞猪尿泡的做法
汽车之家