最新新闻:

唤醒语音识别「语音识别芯片哪个最好」

时间:2022-11-25 16:35:34来源:搜狐

今天带来唤醒语音识别「语音识别芯片哪个最好」,关于唤醒语音识别「语音识别芯片哪个最好」很多人还不知道,现在让我们一起来看看吧!

在1976年的电影《出租车司机》中有一个著名的场景, Al Pacino饰演的Travis看着镜子假装在说话,并反复说:“你在跟我说话吗?”每次我使用语音主动装置时,我都会想起这个场景——嘿,你在跟我说话吗?是的,但你在听吗?

几年前还只是幻想的语音指令,现在已经成为智能产品和系统的主要功能。尽管这些系统中有许多使用类似于大脑中用于语音识别的计算过程,但电子系统必须在一系列严格的约束下运行,才能使其可行。其中最主要的是电力限制和维护隐私,主要是当对话不是为语音操作的智能设备准备的时候。因此,设计人员在设计这些系统时必须格外小心,以确保满足这些需求。

消费者不太希望语音系统将他们所有的对话通过互联网发送到云上进行分析和记录。此外,传输那么多的音频信息成本太高。这将需要太多的带宽和电力消耗。理想情况下,语音激活系统将大部分处于睡眠模式,具有绝对最小的主动电路——倾听潜在的语音命令。

实现传统语音控制的硬件原理是将声控分为两个步骤:

1.检测到关键词来唤醒设备

2.将声音转换为文字识别——命令

当用数字麦克风时,我们需要抽取滤波器以及DSP,是DSP运行关键词识别算法。传统模式下,总体功耗很高达到了1毫安,这就需要大容量电池支撑。而WhisperTrigger可以减低在无语音情况下的功耗,从而延长电池的寿命。

其实这是在传统方案里添加了一步:只有声音被检测到,缓冲器和DSP才会被激活,从而大大节省了功耗。而且它是一个独立的功能,也就是说在SOC关闭的情况下,仍然可以检测语音活动。

考虑到这一点,Dolphin Design已经开发了几个ip,帮助系统在本地检测有效的语音输入,从而开始解释语音命令。语音活动检测(VAD)从检测触发整个系统激活的关键字开始。只有检测到语音和正确的关键字后,整个语音识别链才会打开。在Dolphin题为《为什么VAD和选择什么解决方案》的白皮书中讨论了基于VAD的系统的不同架构及其相对优点。

最重要的度量标准之一是对命令短语开头的各种音素的检测延迟。VAD系统需要过滤掉环境噪声,同时对有效的语音输入作出快速响应。Dolphin开发了MiWok基准测试平台,允许设计师比较关键指标。

一些系统使用模拟麦克风,这意味着大部分系统可以处于睡眠模式,只有一个小的IP,如Dolphin WhisperTrigger,它可以主动检测有效的语音输入。其他系统使用数字麦克风,这必然需要更多的支持电路,除了WhisperTrigger IP之外,数字麦克风必须需要更多的支持电路,以保持唤醒模式,从而麦克风输入可以被转换为可用信号。

那么功耗又能降低多少?据了解,WhisperTrigger功耗仅为25μA,加上其他通路都是关闭状态,仅有麦克风和WhisperTrigger在工作,所以其功耗仅为传统方式的三分之一。

无论如何,他们的分析表明,与将DSP保持在ON状态以分析传入的音频数据相比,将WhisperTrigger IP添加到语音激活系统可以显著降低功耗。Dolphin WhisperTrigger IP提供了广泛的可配置性,让设计师为特定应用程序微调灵敏度和性能。

该白皮书提供了基准比较,帮助说明可用的替代方案及其总体能耗数据。如果你不希望系统的用户感到他们是在对着镜子自言自语,那么这本白皮书可以让你了解高效节能和可靠的VAD系统设计的可用选项。

延伸阅读——什么是语音交互?

语音交互(VUI)指的是人类与设备通过自然语音进行信息的传递。一次完整的语音交互需要经历ASR→NLP→Skill→TTS的流程:

(1)ASR

用于将声学语音进行分析,并得到对应的文字或拼音信息。语音识别系统一般分训练和解码两阶段:

训练即通过大量标注的语音数据训练数学模型,通过大量标注的文本数据训练语言模型;

解码,即通过声学和语言模型将语音数据识别成文字。

声学模型可以理解为是对发生的建模,它能够把语音输入转换成声学表示的输入,更准确的说是给出语音属于某个声学符号的概率。语言模型的作用可以简单理解为消解多音字问题,在声学模型给出发音序列之后,从候选的文字序列中找出概率最大的字符串序列。

(2)NLP

用于将用户的指令转换为结构化的、机器可以理解的语言。NLP的工作逻辑是:将用户的指令进行Domain(领域)→Intent(意图)→Slot(词槽)三级拆分。

以“帮我设置一个明天早上8点的闹钟”为例:该指令命中的领域是“闹钟”,意图是“新建闹钟”,词槽是“明天8点”。这样,就将用户的意图拆分成机器可以处理的语言。

(3)Skill

也即AI时代的APP。Skill的作用就是:处理NLP界定的用户意图,做出符合用户预期的反馈。

(4)TTS

即语音合成,从文本转换成语音,让机器说话。TTS业内普遍使用两种做法:一种是拼接法,一种是参数法。

拼接法即从事先录制的大量语音中,选择所需的基本发音单位拼接而成。优点是语音的自然度很好,缺点是成本太高,费用成本要上百万。参

数法指使用统计模型来产生语音参数并转化成波形。优点是成本低,一般价格在20万~60万不等,缺点是发音的自然度没有拼接法好。但是随着模型的不断优化,现在参数法的效果已经非常好了,因此业内使用参数法的越来越多。

声明:文章仅代表原作者观点,不代表本站立场;如有侵权、违规,可直接反馈本站,我们将会作修改或删除处理。

图文推荐

热点排行

精彩文章

热门推荐