摘 要随着多媒体和互联网技术的不断进步与发展,音频信号作为多媒体信号的重要组成成分,对其进行信息处理与挖掘受到越来越多的研究者所青睐,而张量作为一种近年来被广泛使用的多线性分析工具,可以处理高维以及多模态的信号
如今网络上进行海量音频信息的查询时,那些混在其中的不良信息和危害性的信息就可以凭借音频分类技术完成审核,这样不仅可以降低人力成本,还能更加便捷的将有害的信息进行屏蔽
因此对于当今社会而言,音频分类技术的应用层面是非常广泛的
而随着人工智能的发展,研究人员对音频场景的分析展现出极大的兴趣,其中音频场景分类逐渐成为焦点
音频场景分类,是基于音频识别的一种具体的应用
给出音频场景,其中包含各种各样的音频信号,传统的摄像头进行的视频监测,极易受到大雾、暴雨等天气状况以及视野盲区的影响,这些外因都不可避免的会使视频监控的效率降低
而利用音频分类时就能解决这些问题带来的弊端,音频分类只需要一个采集声音的设备和一个接受的设备,视频监控结合音频分类使得我们在今后的生产生活有一定的积极影响,对于单一的监控有很好的效果
本课题是将音频分类技术进行深入研讨,利用张量分析挖掘出音频信号的高维特征和内部结构信息来提高分类的准确率
本课题研究过程中利用梅尔频谱倒谱系数作为音频特征,在音频进行张量建模和 Tucker 分解之后生成特征,最后用支持向量机作为分类器完成声学场景的分类
在包含汽车喇叭、发动机空转声、枪击声、儿童游戏声、狗叫、街头音乐等 10 种类型的共计 8732 个声音片段进行分类
最终获得分类的正确率为 92
4%,单类场景分类的正确率都达到了 90%以上,从而为音频场景的分类和音频件检测打下了良好的基础
关键词:音频分类;特征提取;张量分析;梅尔频谱倒谱系数;支持向量机AbstractWith the progress and development of multimedia