唤醒语音识别「语音识别芯片哪个最好」

时间：2022-11-25 16:35:34来源：搜狐

今天带来唤醒语音识别「语音识别芯片哪个最好」，关于唤醒语音识别「语音识别芯片哪个最好」很多人还不知道，现在让我们一起来看看吧！

在1976年的电影《出租车司机》中有一个著名的场景， Al Pacino饰演的Travis看着镜子假装在说话，并反复说:“你在跟我说话吗?”每次我使用语音主动装置时，我都会想起这个场景——嘿，你在跟我说话吗?是的，但你在听吗?

几年前还只是幻想的语音指令，现在已经成为智能产品和系统的主要功能。尽管这些系统中有许多使用类似于大脑中用于语音识别的计算过程，但电子系统必须在一系列严格的约束下运行，才能使其可行。其中最主要的是电力限制和维护隐私，主要是当对话不是为语音操作的智能设备准备的时候。因此，设计人员在设计这些系统时必须格外小心，以确保满足这些需求。

消费者不太希望语音系统将他们所有的对话通过互联网发送到云上进行分析和记录。此外，传输那么多的音频信息成本太高。这将需要太多的带宽和电力消耗。理想情况下，语音激活系统将大部分处于睡眠模式，具有绝对最小的主动电路——倾听潜在的语音命令。

实现传统语音控制的硬件原理是将声控分为两个步骤：

1.检测到关键词来唤醒设备

2.将声音转换为文字识别——命令

当用数字麦克风时，我们需要抽取滤波器以及DSP，是DSP运行关键词识别算法。传统模式下，总体功耗很高达到了1毫安，这就需要大容量电池支撑。而WhisperTrigger可以减低在无语音情况下的功耗，从而延长电池的寿命。

其实这是在传统方案里添加了一步：只有声音被检测到，缓冲器和DSP才会被激活，从而大大节省了功耗。而且它是一个独立的功能，也就是说在SOC关闭的情况下，仍然可以检测语音活动。

考虑到这一点，Dolphin Design已经开发了几个ip，帮助系统在本地检测有效的语音输入，从而开始解释语音命令。语音活动检测(VAD)从检测触发整个系统激活的关键字开始。只有检测到语音和正确的关键字后，整个语音识别链才会打开。在Dolphin题为《为什么VAD和选择什么解决方案》的白皮书中讨论了基于VAD的系统的不同架构及其相对优点。

最重要的度量标准之一是对命令短语开头的各种音素的检测延迟。VAD系统需要过滤掉环境噪声，同时对有效的语音输入作出快速响应。Dolphin开发了MiWok基准测试平台，允许设计师比较关键指标。

一些系统使用模拟麦克风，这意味着大部分系统可以处于睡眠模式，只有一个小的IP，如Dolphin WhisperTrigger，它可以主动检测有效的语音输入。其他系统使用数字麦克风，这必然需要更多的支持电路，除了WhisperTrigger IP之外，数字麦克风必须需要更多的支持电路，以保持唤醒模式，从而麦克风输入可以被转换为可用信号。

那么功耗又能降低多少？据了解，WhisperTrigger功耗仅为25μA，加上其他通路都是关闭状态，仅有麦克风和WhisperTrigger在工作，所以其功耗仅为传统方式的三分之一。

无论如何，他们的分析表明，与将DSP保持在ON状态以分析传入的音频数据相比，将WhisperTrigger IP添加到语音激活系统可以显著降低功耗。Dolphin WhisperTrigger IP提供了广泛的可配置性，让设计师为特定应用程序微调灵敏度和性能。

该白皮书提供了基准比较，帮助说明可用的替代方案及其总体能耗数据。如果你不希望系统的用户感到他们是在对着镜子自言自语，那么这本白皮书可以让你了解高效节能和可靠的VAD系统设计的可用选项。

延伸阅读——什么是语音交互？

语音交互（VUI）指的是人类与设备通过自然语音进行信息的传递。一次完整的语音交互需要经历ASR→NLP→Skill→TTS的流程：