目前,在许多场所,音频监控的使用已经普及开来。
公共场所
音频监控在公共场所(公园、校园、高速公路等)中使用已经非常广泛。一套完整的音频监控系统包括声音采集部分、语音降噪处理部分、网络录音部分、语音对讲部分、声音智能分析部分。通过音频监控的场景分析来判断公共场景下的异常行为,这种技术是基于各类异常声音在时域、频域的特征,结合模式识别的分类方法可以对异常事件报警。
特殊场所
国家在对一些特殊的场地,场合,要求有视频必须有音频同步。例如检察院审讯同步录音录像系统、公安局预审系统、看守所监狱监管系统等。北京地铁、首都机场等公共交通枢纽也要有音频监控。在监狱里,音频监控除了取证功能外,还可以起到预警作用,如发现“狱霸打架”。一般人说话的声音强度大都在50分贝以内,传播的距离在30米左右,当音量高过一定分贝就可以起到报警作用,为避免造成更大的伤害起到一定的作用。
民用领域
近年来,随着视频监控的普及,家庭、个人商铺等的安防使用监控系统越来越多,而对于家庭来说,监控承担了防盗,更成为家庭沟通交流的平台,因此兼具音视频功能的音频监控设备是当前家庭监控的主流。具有音频采集功能的家庭监控,在小偷进入家门时,还可以进行远程喊话,起到预警作用。
视频+音频,推动行业发展
音频与视频的有效结合能有效提升监控质量,满足更多现实的需求,对于提升安全系数、提高破案能力等都有很大帮助。而事实上,音视频结合监控也给安防行业带来新的发展方向。随着数字网络高清监控的发展和普及,尤其是近两年来价格战和行业洗牌,安防行业的高清视频已经严重同质化了,而音频领域,厂家没有那么多,在技术与质量也还有很大的提升空间,是值得关注的方向。
那么音频监控如何融入到视频监控中来呢?其实,和视频监控一样,音频监控同样面临数字化智能化的变革。目前,在视频监控领域智能分析是大家看好的方向,而海量的音频数据同样需要通过智能分析和判别才能更有意义,所以视频监控厂商在发展音频方向的同时, 同样需要加强智能分析方面的能力,而不是停留在存储和监听的基本功能上。
语音识别
语音识别是大家比较熟悉的技术,目前在很多设备中都有应有。比如大家日常用的手机,语音识别技术使用已经较成熟。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别技术经过几十年的发展,基于深度学习的人工智能语音将得到大范围的应用。
声纹识别
声纹识别属于生物识别技术的一种,是一项根据语音波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。与语音识别不同的是,声纹识别利用的是语音信号中的说话人信息,而不考虑语音中的字词意思,它强调说话人的个性,而语音识别的目的是识别出语音信号中的言语内容,并不考虑说话人是谁,它强调共性。
音频监控经过多年的发展,已经可以做到通过声音的识别来判断说话人的情绪、所处的环境等问题。而在音频监控环节中,声纹识别提供了重要的技术支撑。目前,声纹识别的世界市场占有率15.8%,仅次于指纹和掌纹的生物特征识别,并有不断上升的趋势。
声音定位
人们经常借助听觉来判断发音物体的位置。例如,当你独自行走时,突然听到一个响声,你会立刻判断出这个声音是什么声音、对你有无威胁、它来自何方等等。确定声音的方向和距离需要比较来自两耳信息,虽然你会很快做判断和反应,但声音定位过程是听觉系统复杂综合的功能。而监控系统中的声音定位则是通过强度差、时间差、因色差、相位差等来实现的。
音频场景分析
作为人们感知外界环境的一个重要通道,听觉在视线障碍、不利光照条件等情况中可起到视觉无法替代的作用,是视觉的重要补充。相比于图像数据,音频信号往往可使用相对简单的设备进行采集并且占用更少的存储空间和处理时间。随着当前移动平台计算能力的不断提高,出现了越来越多基于音频的各类应用,所涉及的音频处理算法一直是相关研究领域的重点。其中,提取、分析和有效利用音频数据所携带的语义信息,对基于内容的多媒体检索、摘要以及开发上下文自适应的应用等具有重要意义。音频场景分析主要是为了分析、决策、预警所监听环境下发生的异常行为。其核心技术是基于各类异常声音在时域、频域的特征,结合模式识别的分类方法对异常事件报警。