语音句子边界检测的模型及评价标准-2019年精选文档
2019年声音评价标准.doc

声音评价标准收集了一些关于声音评价标准的文章怎样来评价一个声音的好与坏呢?我想这个问题很值得大家来值得的讨论的。
也就是主要靠两个方面来评价。
一是主观评价,就是靠人耳的听觉器官来感受声音给人的感觉;二是客观评价,就是声音实实在在的质量。
主观评价是靠听,客观评价是靠测,或者是以测的标准来衡量。
如果用这两种方法同时来评价音色的好与差那就比较全面了。
如果完全采用主观评价来估量音质的好与差,则存在着一些不完善之处。
影响主观评价的有诸多方面的因素。
1,人耳的灵敏度;由于每一个人的生理结构上,健康和发育上的差异,造成每一个人听觉灵敏度的不同,而且左右耳的听觉灵敏度也不同。
这样就造成每一个人的听觉灵敏度有所不同,就如同人体的视力一样,有人视力为左 1.5,右1.2,而有人为左0.5,右1各有所不同一样。
所以这对音色的评价是有很大影响的。
2,年龄对听觉的影响。
由于生理上的原因,随着年龄的增加,听觉器官如耳膜,耳蜗对不同频率感受点的组织弹性减弱,所以对高频声音的辨别能力逐渐会下降,这样,就影响了对音质评价的准确性。
3,受教育层次的影响;一个人文化程度的高低影响主观评价。
因为声学领域是一个多学科的,复杂的物理现象,它和物理,数学,建筑,音乐等学科有着十分密切的联系。
要想对音色有一个全面的,准确的认识,是需要有相当层次和各方面的素质水平的。
所以一个人接受教育的全面性以及层次深浅影响对音色的评价。
4,艺术的鉴赏能力;每一个人的艺术素养和艺术观念不同,造成对音色的艺术表现力的认识也有所不同。
这方面也是影响对音色的评价因素之一。
5,人在心理上的影响;每一个人在不同时期,不同心境,不同生活环境,不同心理状态(心态)下对音色都有不同的感受。
这也影响对音色的主观评价。
(呵呵,给你吃一个*,然后给你随便放一首嗨曲,那怕是音箱出来是破锣式的声音,你都会嗨的飘起来,如果把你从睡梦中搞醒来,在给你放一首你平时最喜欢的音乐,哪怕是发烧级的音响出来的声音,你都会认为那是你最讨厌的噪音)。
智能语音助手语音识别模型识别速度评估说明

智能语音助手语音识别模型识别速度评估说明智能语音助手的语音识别模型是实现人机语音交互的关键技术之一。
在评估一个语音识别模型的好坏时,除了考虑其准确率外,识别速度也是一个非常重要的考虑因素。
本文将对智能语音助手的语音识别模型的识别速度进行评估说明。
首先,我们需要明确什么是识别速度。
语音识别模型的识别速度通常指的是从语音输入到识别结果出现所需要的时间。
换句话说,识别速度就是模型从接收到音频输入到产生相应文本输出所花费的时间。
为了评估智能语音助手的语音识别模型的识别速度,我们需要进行一系列的测试。
首先,我们可以采用常见的语音识别速度测试方法,即给定一段音频,记录模型识别出结果所需要的时间。
通过多次测试,我们可以得出模型的平均识别速度。
在进行速度测试时,我们需要注意以下几个因素。
首先,要选择具有代表性的音频输入进行测试,包括各种长短、语速快慢和背景噪音复杂度不同的音频。
这样可以更好地反映模型在实际使用场景中的识别速度。
其次,要考虑到模型的实时性要求。
在实际使用中,语音识别模型通常要求能够在实时或近实时的速度下完成识别。
因此,在测试中,我们需要根据实际需求来评估模型的识别速度是否满足要求。
例如,对于实时对话应答场景,识别速度要求较高;而对于离线语音转写场景,识别速度要求相对较低。
此外,还需要考虑模型的扩展性。
智能语音助手通常需要同时处理多个用户的语音输入,因此模型的识别速度也需要考虑到并发处理的能力。
在测试中,可以选择同时传递多个音频给模型,并记录模型处理这些音频的耗时。
最后,值得注意的是,模型的识别速度与其准确率之间通常存在着一定的折中关系。
在开发智能语音助手时,我们需要权衡速度和准确率之间的关系,找到一个平衡点,以确保在满足速度要求的前提下,尽量提高模型的准确率。
总结起来,智能语音助手的语音识别模型的识别速度评估是一个综合考虑多个因素的过程。
通过选择代表性的音频输入,并根据实际需求来评估模型的识别速度是否满足要求,最终能得出一个准确、可靠的速度评估结果。
语音评定参照细则框架

语音评定参照细则框架语音评定贯穿于普通话水平测试的始终,在量化评分上占有重要的地位。
对这个问题已经在《普通话水平测度评分中的几个问题》一文中做了简要的说明,但并未列出具体的参照细则。
本文就是笔者在国家组测试员资格考核培训班授课的基础上,经过把复修改增补,列举出130条参照细则,作为语音评定的基本类型举例,供测试员在语音评定中参考。
测试员在语音评定中会碰到三类“语音错误”,一是误读产生的读音错误,包括读错字.别字.白字以及异读词读单错误等,例如把“涮”读作“shuā”;把“拔”读作“bō”;把“闩”读作“guān”或“chā”;把“葡”读作“táo”;把“呆”读作“ái”等。
这类读音错误,测度员容易判定,不列入本文。
二是完全按汉语方言读音,即指声.韵甚到声、韵、调都按方言读音的情况。
列如把“鞋”读作“hai”;把“街”读作“gai”;把“全” 读作“chuan”。
这同前面一类相近,测试员不难判定,一般不列入本文。
三是受汉语中方言主意系统的影响,在说普通话时字音遗留某类声母、或某类韵母、或某类声调调值的读音。
本文所列的“语音错误”主要指这类情况。
“语音缺陷”(在研讨时,有的专家提出,“缺陷”可能和生理缺陷混淆,建议改为“欠缺”)是测试员语音判定的难点,也是本文要着重解决的问题之一。
语音缺陷也可分为三类情况:一是遗留汉语方言语音系统的某类声母或某类韵母或某类声调的读法.例如:遗留齿间;用舌叶音代替舌面前音;遗留喉塞音入声韵尾;阴平调(在重读音节)调值偏低,读作半高平调44的。
二是在学习普通话语音系统过程当中,纠正发音不彻底,没有完全达到标准的程度。
例如:舌尖后音发音部位靠前,实际舌尖是接触或接近上齿龈(上牙床);卷舌韵母虽有卷舌色彩,但相当不自然。
三是由于语音教学训练不当,形成语音缺陷。
例如:训练舌尖后音时,没有要求舌头整体后缩,面是过分要求舌尖后卷,造成“大舌头”色彩;当读音节时,强高声母发音部位“抵住”的时候,实际使舌尖韵母丢失;过分强调发好鼻音韵尾和,使韵尾延长,音节结构发生变化;又如,强调上声曲折,但没有注意突出上声(实际忠实描写调值应为2114)中低调段11的特点,稍延长则在214后带降尾等。
语音的质量评价方法

语音的质量评价方法1.信噪比(Signal-to-Noise Ratio,SNR)SNR一直是衡量针对宽带噪声失真的语音增强算的常规方法。
但要计算信噪比必需知道纯净语音信号,但在实际应用中这是不可能的。
因此,SNR主要用于纯净语音信号和噪声信号都是己知的算法的仿真中。
信噪比计算整个时间轴上的语音信号与噪声信号的平均功率之比。
2.分段信噪比(Segment Signal-to-Noise Ratio,SegSNR)由于语音信号是一种缓慢变化的短时平稳信号,因而在不同时间段上的信噪比也应不一样。
为了改善上面的问题,可以采用分段信噪比。
3.PESQ(Perceptual Evaluation of Speech Quality)2001年2月,ITU-T推出了P.862 标准《窄带电话网络端到端语音质量和话音编解码器质量的客观评价方法》,推荐使用语音质量感知评价PESQ算法,该建议是基于输入-输出方式的典型算法,效果良好。
PESQ算法需要带噪的衰减信号和一个原始的参考信号。
开始时将两个待比较的语音信号经过电平调整、输入滤波器滤波、时间对准和补偿、听觉变换之后, 分别提取两路信号的参数, 综合其时频特性, 得到PESQ分数, 最终将这个分数映射到主观平均意见分(MOS)。
PESQ得分范围在-0.5--4.5之间。
得分越高表示语音质量越好。
4.对数似然比测度(Log Likelihood Ratio Measure,LLR)坂仓距离测度是通过语音信号的线性预测分析来实现的。
ISD基于两组线性预测参数(分别从原纯净语音和处理过的语音的同步帧得到)之间的差异。
LLR可以看成一种坂仓距离(Itakura Distance,IS),但IS距离需要考虑模型增益。
而LLR不考虑模型增益引起的幅度位移,更重视整体谱包络的相似度。
5.对数谱距离(log spectral distance,LSD)对数谱距离的定义6.可短时客观可懂(Short-Time Objective Intelligibility,STOI)0-1范围,值越大,可懂度越高7.加权谱倾斜测度(Weighted Spectral Slope,WSS)WSS值越小说明扭曲越少,越小越好,范围。
语音识别模型识别速度评估说明

语音识别模型识别速度评估说明语音识别模型的识别速度是评估模型性能的一个重要指标,它关系到模型的实时性和应用场景的适用性。
在这篇文章中,我们将介绍如何进行语音识别模型的识别速度评估,并对一些常用的评估方法进行讨论。
首先,要评估语音识别模型的识别速度,我们需要明确评估的目标和方法。
识别速度可以从不同的角度进行评估,比如识别一段固定长度的语音所需的时间,或者单位时间内可识别的语音长度。
在实际应用中,常常采用单位时间内可识别的语音长度作为评估指标,比如每秒钟可以识别多少秒的语音。
评估语音识别模型的识别速度时,我们可以使用不同的测试数据集进行评估。
这些数据集可以包括不同长度和语速的语音片段,以模拟实际应用场景中的多样化语音输入。
同时,我们还可以根据不同的运行环境和硬件配置,测试不同的工作负载。
在评估语音识别模型的识别速度时,可以采用多种方法来进行测量。
一种常见的方法是使用基准测试集,在相同的环境和硬件配置下,对不同的语音识别模型进行测试,然后比较它们的识别速度。
这种方法可以提供对不同模型之间性能差异的直观认识。
另一种评估方法是使用真实场景的语音数据进行测试。
这种方法更接近实际应用的情境,可以更准确地反映模型的识别速度。
我们可以使用多个语音片段作为输入,记录模型对每个片段的识别时间,并计算平均识别速度。
这种方法可以更好地反映模型在实际应用中的表现。
除了基准测试和真实场景测试,我们还可以通过调整模型的参数和结构来提高识别速度。
例如,可以通过减少模型的层数、减少参数量或者使用更高效的特征提取方法来提高模型的计算速度。
这些调整可以在不降低识别准确率的前提下,加快模型的识别速度。
最后,需要注意的是,在进行语音识别模型的识别速度评估时,还应考虑到模型的准确率。
有时候,为了提高识别速度,可能需要牺牲一定的准确率。
因此,在进行评估时,要综合考虑识别速度和准确率之间的权衡,并选择最适合实际应用需求的模型。
总结起来,语音识别模型的识别速度评估是一个综合考量模型性能和实际应用需求的过程。
语音质量评估

语⾳质量评估语⾳质量评估,就是通过⼈类或⾃动化的⽅法评价语⾳质量。
在实践中,有很多主观和客观的⽅法评价语⾳质量。
主观⽅法就是通过⼈类对语⾳进⾏打分,⽐如MOS、CMOS和ABX Test。
客观⽅法即是通过算法评测语⾳质量,在实时语⾳通话领域,这⼀问题研究较多,出现了诸如如PESQ和P.563这样的有参考和⽆参考的语⾳质量评价标准。
在语⾳合成领域,研究的⽐较少,论⽂中常常通过展⽰频谱细节,计算MCD(mel cepstral distortion)等⽅法作为客观评价。
所谓有参考和⽆参考质量评估,取决于该⽅法是否需要标准信号。
有参考除了待评测信号,还需要⼀个⾳质优异的,没有损伤的参考信号;⽽⽆参考则不需要,直接根据待评估信号,给出质量评分。
近些年也出现了MOSNet等基于深度⽹络的⾃动语⾳质量评估⽅法。
语⾳质量评测⽅法以下简单总结常⽤的语⾳质量评测⽅法。
主观评价:MOS[1], CMOS, ABX Test客观评价有参考质量评估(intrusive method):ITU-T P.861(MNB), ITU-T P.862(PESQ)[2], ITU-T P.863(POLQA)[3], STOI[4], BSSEval[5]⽆参考质量评估(non-intrusive method)传统⽅法基于信号:ITU-T P.563[6], ANIQUE+[7]基于参数:ITU-T G.107(E-Model)[8]基于深度学习的⽅法:AutoMOS[9], QualityNet[10], NISQA[11], MOSNet[12]此外,有部分的⽅法,其代码已开源::该仓库包括MOSNet, SRMR, BSSEval, PESQ, STOI的开源实现和对应的源仓库地址。
ITU组织已公布⾃⼰实现的P.563: 。
GitHub上⾯的微⼩修改版使其能够在Mac上编译。
在语⾳合成中会⽤到的计算MCD:此外,有⼀本书⽤来具体叙述评价语⾳质量:Quality of Synthetic Speech: Perceptual Dimensions, Influencing Factors, and Instrumental Assessment (T-Labs Series in Telecommunication Services)[13]。
期末语音检测总结
期末语音检测总结引言语音检测是在语音信号处理领域中的一个重要任务,其主要目标是确定语音信号中的语音活动部分和非语音活动部分。
在实际应用中,语音检测广泛应用于音频处理、语音识别、语音合成、语音增强等领域,对于提高语音处理系统的性能至关重要。
本篇文章将对语音检测的主要内容进行总结和归纳。
一、语音检测的定义和目标语音检测,即语音活动检测(Voice Activity Detection,VAD),是指从混合语音信号(包含语音活动和非语音活动)中准确地检测出语音活动的部分,同时过滤掉非语音活动的部分。
语音检测的主要目标是提高语音处理系统的性能,包括准确性、鲁棒性和计算效率等。
在实际应用中,语音检测常常用于音频信号的前处理,以提高语音识别和语音合成的性能。
在语音识别中,准确地检测出语音活动的部分可以有效地提高识别准确度;在语音合成中,排除非语音活动的部分可以提高合成语音的质量。
此外,在语音增强和噪声抑制等领域中,语音检测也具有重要的作用。
二、语音检测的方法和技术语音检测的核心问题是如何区分语音活动和非语音活动,即如何确定一个语音帧或语音段是否为语音活动。
根据语音信号的特点和不同的应用需求,通常可以采用以下几种方法和技术进行语音检测。
1. 基于能量的方法基于能量的方法是最简单和常用的语音检测方法之一。
该方法主要利用语音信号在频域上的能量分布特点,通过设定一个能量阈值来判断语音活动和非语音活动。
当语音信号的能量大于阈值时,判断为语音活动;当能量小于阈值时,判断为非语音活动。
基于能量的方法简单有效,计算速度快,但对于噪声和非语音活动较多的情况下,会产生误判。
为了提高基于能量的方法的鲁棒性,可以采用自适应能量阈值等方法进行改进。
2. 基于过零率的方法基于过零率的方法是另一种常用的语音检测方法,其主要利用语音信号在时域上的过零率特点。
过零率表示语音信号过零点的频率,即语音信号从正向变为负向或从负向变为正向的次数。
基于过零率的方法通过设定一个过零率阈值来判断语音活动和非语音活动。
语音的质量评价方法
语音质量包括两方面内容:可懂度和自然度。
前者对应语音的辨识水平。
而后者则是是衡量语音中字、单词和句的自然流畅程度。
总体上看可以将语音质量评价可分为两大类:主观评价和客观评价。
1、主观评价主观评价以人为主体来评价语音的质量。
主观评价方法的优点是符合人类听话时对语音质量的感觉,目前得到了广泛的应用。
常用的方法有平均意见得分(Mean Opinion Score,MOS得分),诊断韵字测试(Diagnostic Rhyme Test,DRT得分),诊断满意度测量(Diagnostic Acceptability Measure,DAM得分)等。
语音质量的主观评价要求大量的人、大量次数的测听实验,以便能得到普遍接受的结果。
但是由于主观评价耗费大、经历时间长,因此语音质量的主观评价不容易实现。
为了克服主观评价缺点,人们寻求一种能够方便,快捷地给出语音质量评价的客观评价方法。
不过值得注意的是,研究语音客观评价的目的不是要用客观评价来完全替代主观评价,而是使客观评价成为一种既方便快捷并能够准确预测出主观评价价值的语音质量评价手段。
尽管客观评价具有省时省力等优点,但它还不能反映人对语音质量的全部感觉,而且当前的大多客观评价方法都是以语音信号的时域、频域及变换域等特征参量作为评价依据,没有涉及到语义、语法、语调等影响语音质量主观评价的重要因素。
MOS评分:MOS得分方法是由CCITT推荐的主观评价方法,现已广泛作为不同系统之间的比较标准。
它采用五级评分制。
MOS评分五级标准:MOS判分质量级别失真级别5 优不觉察4 良刚有觉察3 一般有觉察且稍觉可厌2 差明显觉察,可厌仍可忍受1 极差不可忍受MOS评分中质量优表示重建语音和原始语音只有很少的细节差异,且若不进行对照听比就觉察不出这种差异;质量良表示重建语音的畸变或失真不明显,不注意听感觉不到;质量一般表示重建语音有比较明显可感知的畸变成失真,但语音自然度和清晰度仍很好,且听起来没有疲劳感;质量差表示重建语音有较强的畸变或失真,听起来已有疲劳感;质量极差表示重建语音的质量极差,听觉无法忍受。
小学低年级语音评价标准
小学低年级语音评价标准
1. 语音准确度
- 发音准确:学生能够正确地发出音节、单词和句子中的音素,不出现发音错误。
- 音调正确:学生能够准确使用适当的音调,使句子的语调流
畅自然。
- 语音连贯:学生能够将单词和句子正确地连贯起来,不出现
停顿或断裂。
2. 语音流利度
- 流畅自然:学生能够以流利自然的方式讲话,不出现结巴、
卡壳等问题。
- 语速适宜:学生能够以适当的语速进行表达,不过快或过慢。
- 音节连贯:学生能够将单词和音节正确地连贯起来,不出现
分拆或模糊的现象。
3. 语音表达能力
- 语调感情:学生能够根据语境正确把握语调,表达相应的感情。
- 语音调节:学生能够控制声音的音量、音高等参数,使表达
更加生动有力。
- 发音修饰:学生能够根据发音规则对不规则单词进行正确的
发音修饰。
4. 语音清晰度
- 发声清晰:学生能够清晰地发出每个音节,不出现含糊不清
的现象。
- 辅音发音:学生能够正确地发出各种辅音,并区分发音点的
差异。
- 元音发音:学生能够正确地发出各种元音,并区分发音位的
差异。
5. 语音修正能力
- 听后发现:学生能够在听到他人错误发音时及时辨别并指正。
- 自我纠错:学生能够在发现自己发音错误时主动进行纠正。
- 进一步改进:学生能够持续改进发音,不断提高语音准确度和流利度。
以上是小学低年级语音评价标准的内容,希望对您有所帮助。
语音识别模型抗干扰性评估说明
语音识别模型抗干扰性评估说明语音识别模型通常在理想的环境中进行训练和评估,但实际应用中会面临各种噪声和干扰。
为了确保语音识别模型的鲁棒性和抗干扰性,我们需要对其进行评估。
本文将探讨语音识别模型抗干扰性评估的重要性以及评估方法和指标。
首先,我们要了解为什么需要对语音识别模型进行抗干扰性评估。
在实际环境中,语音识别系统会面临各种干扰,如背景噪声、回声、语音重叠等。
这些干扰会影响语音信号的清晰度和可理解性,使得语音识别模型难以正确地识别和转录这些被干扰的语音信号。
因此,评估模型在真实环境中的抗干扰性能是非常重要的,可以帮助我们了解模型在实际应用中的可靠性和健壮性。
接下来,我们将讨论语音识别模型抗干扰性评估的方法和指标。
评估语音识别模型的抗干扰性可以通过添加人工合成的噪声或真实环境中的噪声来模拟实际情况。
常用的方法有噪声注入和多通道输入。
在噪声注入方法中,我们可以通过添加不同类型和程度的噪声到原始语音信号中来模拟实际环境。
而在多通道输入方法中,我们可以使用多个话筒或麦克风来捕捉不同位置和方向的语音信号,然后将它们输入到语音识别模型中。
这样可以提供更多的信息来帮助模型正确地识别语音信号。
评估语音识别模型的抗干扰性时,我们可以使用多种指标来衡量其性能。
常用的指标包括识别准确率、识别速度和误报率。
识别准确率可以衡量模型在干扰情况下正确识别语音信号的能力。
识别速度可以衡量模型在实时应用中的运行效率。
误报率可以衡量模型在干扰情况下产生错误结果的频率。
这些指标可以帮助我们评估模型的鲁棒性和实用性,并指导进一步的改进和优化。
最后,我们需要注意的是,语音识别模型的抗干扰性评估应该是一个系统性的过程,需要考虑多个方面。
除了评估模型在不同类型和程度的噪声下的性能外,还应考虑模型对其他干扰因素的鲁棒性,如方言、口音和语速等。
此外,评估过程应该包括大量的测试样本和多样化的测试场景,以充分验证模型的抗干扰性能。
总而言之,语音识别模型的抗干扰性评估对于确保模型在真实环境中的可靠性和健壮性非常重要。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
语音句子边界检测的模型及评价标准
Models and Evaluation Metrics for Sentence Boundary Detection in Speech
Hu Gaodie,Ma Jianfen
(Taiyuan Technology University,Computer and Software College030024,China)
:Speech,as a interdiscipline subject has very profound value of research and application.Sentence boundary detection in speech is an important step in speech recognition,it can make speech recognition more readable and enable us to understand language processing modules.This paper introduce common models and evaluation metrics for sentence boundary detection in speech.
Keywords:Boundary detection;Speech
recognition;Models;Evaluation metrics
一、简介
近几年来,人们对语音识别技术产生了广泛兴趣。
然而目前的语音识别系统主要以字或词为单位。
在这些语音识别系统中,很少提到句子边界检测。
但是句子边界检测确实可以使语音识别更具有可读性。
语音边界检测是一个分类问题,我们可以根据每个词间的边界来决定它是否是语音句子边界。
二、常用的模型
(一)隐尔马可夫模型(Hidden Markov model,HMM)
最早的句子切分中就已经用到了HMM。
设模型的状态对应词wi,结果标志ei。
与状态相关的是词以及韵律特征fi。
下图给出了SU检测问题的图式模型。
HMM中的观察似然度由决策树分类器来实现的,得到产生韵律特征的概率P(fi|ei,wi);用N元语言模型来计算转换概
率:P(wiei|w1e1…wi-1ei-1)=
P(wi|w1e1…wi-1ei-1)×P(ei|w1e1…wi-1ei-1ei)。
在HMM中,前向-后向算法用来决定每个词间边界的最大后验概率: 。
HMM也是一个生成模型方法,这是因为它描述一个隐藏变量(句子边界)的随机过程,而这个过程产生观察数据[5]。
HMM方法有两缺陷:一是HMM的训练不能取正确标记后验概率的最大值。
二是基于N元序列模型不能处理词序列的多重特征表示。
(二)最大熵后验概率模型
最大熵后验概率模型可以解决以上提到HMM的两大缺陷。
设边界位置为i,最大熵模型可表示为以下形式:
(1)
其中是一个标准化术语,ti表示文本信息,gk(ei,ti,fi)对应所定义的词、韵律的特征。
最大熵的模型是由所找到的参数来估计的,在训练数据中,不同的特征功能的期望值
EP[gk(e’,w,f)]匹配经验平均值。
同时,在训练集中的参数所选择的最大条件似然度∏iP(ei|w,f)很容易受到(1)式中所给的指数的制约。
(三)语言模型(The language model,LM)
对于SU边界检测而言,语言模型的目的是模访包含在词序列中的结构信息,我们用一个隐语言模型(Stolcke and Shriberg,1996)去模仿边界类型和词之间的联合分布。
W表示一连串口语w1,w2,…wn,E表示词间事件的序列e1,e2,…en。
隐藏语言模型描述词与事件之间的联合分布
P(W,E)=P(w1,e1,w2,e2,…wn,en)[1]。
三、评价标准
句子边界检测有许多评价标准,以下描述了一些常用的评价标准。
(一)分类错误率(CER)
如果决策问题是一个基于词间边界点的分类任务,则分类错误率:
其中:fn(false negative)为错误的否定;
fp(false positive)为错误的肯定;
tp(true positive)为正确的肯定;
tn(true negative)为正确的否定。
后两种都为正确的分类结果。
(二)F-测量(F-measure)
F-测量主要用于信息检索[3]。
其中 ; 。
(三)ROC曲线
受试者工作特征曲线(Receive Operating Characteristic Curve,ROC),一方面用于通信方面,是一种用于信号探测的术语,用来体现噪声信道击中率与错误报警之间的平衡。
它体现了正确的肯定( )与错误的肯定( )之间的平衡关系。
(四)PR曲线
精确率与反馈率(precision-recall)曲线,一般用于信息检索方面,体现了精确率与反馈率之间的关系,曲线成双曲形状。
(五)DET曲线
检测错误曲线(Detection error tradeoff Curve),此曲线划分错误率(=1-正确的肯定)与错误警告(例如错误的肯定),用于常规的偏差范围。
它广泛的应用于口语识别的任务中[3]。
(六)AUC曲线
ROC曲线下方的面积曲线(The Area Under the ROC Curve,AUC),一般的讲,面积越大,模型越好。
这里的面积可以理解为分类器将随意抽取的肯定类实例排在随意抽取的否定类实例之前的概率。
ROC曲线在不同的决策点为系统提供一个好的观察度。
(七)NIST错误率
美国国家标准技术局(NIST)错误率是一些边界检测的插入
与删除错误的总和。
NIST错误率=[3]。
(八)SU(sentence-like unit)错误率
在DARPA EARS项目中,SU检测是不同于以上几种标准的。
SU错误是每个SU中的一些分类错误的点(失败或错误的检测点),当用SU检测识别脚本(transcription)时,计分工具首先将会议与假设词排成一行,绘制假设的SU事件和会议SU事件,然后计算错误率。
当识别输出词不能很好的排成一行时,队列将词错误率(WER)最小化[1]。
四、结束语
本文介绍了语音句子边界检测中常用的检测模型,以及常用的评价标准。
目前,互联网迅猛发展,每天都有大量的广播与新闻等出现在网络上,这就迫使人们对语音句子边界检测的相关方面进行研究与应用。