说话分为哪些类型

该段落摘自：基于ＢＩＣ和Ｇ＿ＰＬＤＡ的说话人分离技术研究
原作者：李　锐，卓　著，李　辉

引言部分：

随着音频处理技术的不断提高，从海量的数据中（如电话录音、新闻广播、会议录音等）获取感兴趣的特定人声已成为研究热点［１］．另外，如何对这类音频文档进行合理有效的管理，也是目前存在的一个挑战．美国国家标准局（ＮＩＳＴ）从２００２的丰富转写评测（richtranscription，RT）中正式加入了说话人分离任务［２］（ Speaker diarization，ＳＤ），该任务是指从多人对话中自动地将语音依据说话人进行划分，并加以标记的过程．
与传统“鸡尾酒会”形式的复杂背景下混合语音分离不同，说话人分离主要面向的是多个话者不同时发声的场景，它解决的是“什么时候由谁说”这样一个问题，而前者大多是通过盲源分离（BSS）［３］和计算听觉场景分析（CASA）
［４］等方式处理．目前的说话人分离技术主要包含两个过程：说话人分割（speaker segmentation ）和说话人聚类（Speaker clustering）．

分割的过程是指从多人对话的音频中找寻不同说话人身份转变的时间点，然后根据这些变化点可以将语音分割成若干短语音段，理想情况下，经分割后的每个短语音段只会包含一个说话人的信息．聚类的过程则是将分割后的所有属于同一个说话人的小片段通过一些聚类的方法，再重新组合在一起．说话人分离技术有着广泛的实际应用意义，如可以利用该技术实现电话和会议数据的自动分离及转写，将分离后的不同说话人声解码后，按敏感词检测和目标人进行抽取；为构建和检索说话人音频档案提供有效的信息．获得的信息既可以用于音频检索；也可以用来对语音库进行自动标注和自动跟踪等；同时它也是语音识别的基础，直接影响到语音识别的精度．

可能存在的错误分析如下：

说话人分类系统需要选出不同说话人的语音片段，因此说话人聚类的纯度和覆盖区域是当前的主要目标。可能存在的错误如下：

两个不同的聚类对应于同一个说话人
把两个不同说话人的片段合并到一个聚类中

这两种错误在NIST基于时间的二分化度量中，比边界划分错误更为严重

该系统由声学BIC分段和BIC分层聚类组成，使用维特比解码以调整分段边界。

知秋君

相关推荐