你好,游客 登录
背景:
阅读新闻

【学习笔记】计算听觉场景分析简介

[日期:2018-03-12] 来源:  作者: [字体: ]

今天看完了一篇年代比较久远的科普性文章《计算听觉场景分析介绍》,虽然很多地方很抽象还是不怎么理解吧,不过不管怎么说对这个研究课题也是有了一点初步的印象,还是应该跑来写下一点总结的。

 

这篇文章介绍了CASA(计算听觉场景分析)的概念,理论依据,声音的归类线索,以及CASA系统所依赖的两种主要结构:数据驱动和图式驱动,将两者做了比较并提出了观点:信息双向互流是未来CASA研究的主要模式。

 

简单说来,CASA 就是声源分离。Cherry提出的“鸡尾酒效应”,我在吴恩达的Coursera上的《机器学习》课程中听过,就是人能从复杂的混合声音中有选择的跟踪某一特定的声音。To be formally,CASA就是利用计算机技术,让计算机模仿人类对听觉信号的处理过程进行建模,从而具备和人类一样从复杂混合声源中感知声音、处理声音、解释声音的能力。注意到这里是要求计算机在处理过程上和人类是相同或相似的,而不是像已有的计算机语音识别系统那样,片面的利用数字信号处理的方式,基于HMM模型的主要框架进行处理。

 

声源有两大性质,作为CASA分析的理论依据。一个是独立性,即各个不同的声源间,他们的物理特性是互相独立的,一个声源的某些特性变化不影响其他声源的特性。这个很好理解,其实就是物理中的波的独立性原理嘛,光也是一样,所以才会有干涉现象,同相加强,反相抵消。另外一个是连续性,若一个声源的某个特性发生突变,那么它的至少一个其他特性仍然保持一定连续性,即不发生突变,若所有特性同时突变,必然是两个声源。

 

 

 

目前CASA系统有两种主要的模型,一个是数据驱动型,指的是信息从低级到高级的单向流动,符合声音从进入我们的耳朵到被大脑处理的整个过程;另外一种是图式驱动模型,这个是信息双向流动的,有点类似于前者只能是被动接受信息然后处理,而后者不是机械的接受,可以进行反馈,并且参与预测未来的声音,是一个可以上下交互的系统这个意思。而研究表明,图式模型将是未来的趋势。

 

另外再提一点声音的归类线索,到底依据什么区分声音呢?盗一张图~

 

蛮细致而复杂的,跟头盖骨和耳廓什么的都有关系。个人认为,利用HMM模型做声音识别显然不需要考虑这么多复杂的因素,但凭声音再怎么戏精,差别可以体现在再多的方面,HMM面临的处理对象都是现成的声音,是隐藏了这些“戏”的一个结果,而我们的目的,是建立一个智能的、能够和声音“彪戏”的系统,你怎么演,我能看懂,并且能配合你演,时不时的我还能预测一下你接下来怎么演,这样就高级了对不对。当然,我现在的水平只能理解到这了,“演技”方面的东西,我暂时还不懂,有待继续学习。欢迎来讨论,或者指出我理解不对的地方,共同进步!

推荐 打印 | 录入:Cstor | 阅读:
相关新闻      
本文评论   
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款