听觉与视觉是相通的，人机融合必将成为康复新趋势！-三二一睡眠科技有限公司

听觉与视觉是相通的，人机融合必将成为康复新趋势！

发布作者：超级管理员发布时间：2023-02-06 阅读次数：1573

　我们已经有了很多种基于神经网络的机器学习方法，所能做的远不只是“深度”学习。神经网络被越来越多地应用于高端的语音处理技术和AI，但有趣的是现有大部分神经网络的开发却是基于图像或视频处理的。—— 三二一睡眠工程

　　其中一种被称为CNN（卷积神经网络）的神经网络，可以简单地让我们看到基于图像处理的神经网络与我们大脑处理声音信号的机制之间，存在惊人的相似性。因为CNN可以很好地向我们说明，我们的听觉和视觉处理过程存在多种关联。

　　关于CNN你需要知道的事

　　作为人类，我们可以识别出视域中（或一幅图像中）任何位置出现的人脸或物体。如果你要在机器中再现这一种能力，教会它如何搜寻一些视觉特征（如低层级的边缘和曲线检测和高层级的眼睛和耳朵识别，在人脸识别的例子中），你需要关注局部来完成这一任务，因为与任务有关的像素都紧挨在一起。在人类的视觉感知中，这个机制体现在大脑相关的神经元会聚焦在整个视觉感知区域中称为敏感区域（receptive field）的一小部分。

　　由于你无法预知有关的视觉特征会出现在哪个位置，你必须首先扫描整个视域，可以把敏感区域按一定顺序（从上到下或从左到右）扫过整个视域，或者从视域中提取出几个小的敏感区域（各分配一组神经元）分别地进行关注，并把各组敏感区域得到的信号层叠在整个视域中。

　　CNN采用的是后一种方式，这些敏感区域覆盖了整个视觉输入，这被成为“卷积”（convolutions）。CNN中更高级的神经元从低等级神经元“卷积”传递的信息中提炼并抽取出某个位置的信息，

CNN可以被用来处理原始的语音信号，以终端对终端的方式（不需要人为地为之设定功能特性）。CNN观察语音信号的方式是，以时间轴、声音的频率分布以及各频段音量大小为维度对声音信号进行二维展开，同样用“卷积”的方式对展开的结果进行扫描，自动学习哪些频段的信号特征与语音的内容最具有相关性。然后更高层级的神经元网络会据此执行语言识别的核心任务：找出音频信号中的语素和单词。

　　这些词语被识别出来后，接下来就是要对自然语言进行“意图分类”（intent classification），也就是理解根据用户发出的指令需要完成什么类型的任务。例如，在“从我的活期账户给John Smith转账”这条命令中，用户的意图是“转账”。意图可以由某些特定的词语或词组的信号中识别出来，但这些特定的信号可能会出现在音频序列中的任何位置。

　　因此与图像识别的过程类似，我们需要在音频信号中找出某个局部的特征，这需要以敏感区域对时间轴进行扫描（对语音来说，需要同时关注词语本身和它的上下文），而不是空间上的扫描。这个扫描可以达到很好的效果：我们在这类任务中引进了CNN后，识别的准确率比先前的技术提高了超过10%。

上一页：饥饿感会让人情绪变差下一页：没有了！

" /> 了悟自己本質，尋回內在力量，活出生命意義，心靈自由平安，身心靈更覺醒！技术支持：吉祥网络推广网站备案号：粤ICP备2022020875号

新闻动态

听觉与视觉是相通的，人机融合必将成为康复新趋势！