该段落摘自:基于BIC和G_PLDA的说话人分离技术研究
原作者:李 锐,卓 著,李 辉
引言 部分:
- 随着音频处理技术的不断提高,从海量的数据 中(如电话录音、新闻广播、会议录音等)获取感兴趣 的特定人声已成为研究热点[ 1].另外,如何对这类音 频文档进行合理有效的管理,也是目前存在的一个 挑战.美国国家标准局(NIST)从2002的丰富转写评测(richtranscription,RT)中正式加入了说话人 分离任务[ 2]( Speaker diarization,SD),该任务是指 从多人对话中自动地将语音依据说话人进行划分, 并加以标记的过程.
- 与传统“鸡尾酒会”形式的复杂背景下混合语音 分离不同,说话人分离主要面向的是多个话者不同 时发声的场景,它解决的是“什么时候由谁说”这样 一个问题,而前者大多是通过盲源分离(BSS) [ 3]和 计算听觉场景分析(CASA)
[ 4]等方式处理.目前的说话人分离技术主要包含两个过程:说话人分割 (speaker segmentation )和 说话人 聚 类 (Speaker clustering).
分割的过程是指从多人对话的音频中 找寻不同说话人身份转变的时间点,然后根据这些 变化点可以将语音分割成若干短语音段,理想情况 下,经分割后的每个短语音段只会包含一个说话人 的信息.聚类的过程则是将分割后的所有属于同一 个说话人的小片段通过一些聚类的方法,再重新组 合在一起. 说话人分离技术有着广泛的实际应用意义,如 可以利用该技术实现电话和会议数据的自动分离及 转写,将分离后的不同说话人声解码后,按敏感词检 测和目标人进行抽取;为构建和检索说话人音频档 案提供有效的信息.获得的信息既可以用于音频检 索;也可以用来对语音库进行自动标注和自动跟踪 等;同时它也是语音识别的基础,直接影响到语音识 别的精度.
- 可能存在的错误分析如下:
说话人分类系统需要选出不同说话人的语音片段,因此说话人聚类的纯度和覆盖区域是当前的主要目标。可能存在的错误如下:
- 两个不同的聚类对应于同一个说话人
- 把两个不同说话人的片段合并到一个聚类中
这两种错误在NIST基于时间的二分化度量中,比边界划分错误更为严重
该系统由声学BIC分段和BIC分层聚类组成,使用维特比解码以调整分段边界。