语音数据标注规范V2.1.5【电话录音_3项】_20141016(定稿)
CASIA语音合成语料库存储及标注规范

CASIA语音合成语料库存储及标注规范1、本数据库包括的内容,分为陈述语句、疑问语句和短消息风格;每种语料都包含语音和文本两种数据。
其中陈述语句、短消息为一个女声播音员,疑问语句为四个播音员(两男两女)。
语料覆盖汉语的所有音节、diphone信息。
2、文件命名方式(1)文本文件所有陈述句的文本都放在“陈述句.txt”中;所有疑问句的文本都放在“疑问句.txt”中;所有短消息的文本都放在“短消息.txt”中;示例:1. 只好求别人替他介绍一个最轻松的工作.2. 我母亲和我都是耽于梦想的人.(2)语音文件语音数据的存储格式皆为16K采样16位的无压缩wav格式。
命名方式为:陈述句:c_序号.wav。
其中序号用数字表示,例如第一个语句就是c_00001.wav,对应着“陈述句.txt”文本中的一个句子。
疑问句:q_序号.wav。
其中序号用数字表示,例如第一个语句就是q_00001.wav,对应着“疑问句.txt”文本中的一个句子。
短消息:s_序号.wav。
其中序号用数字表示,例如第一个语句就是s_00001.wav,对应着“短消息.txt”文本中的一个句子。
(3)标注文件语料的标注分为声学层、韵律层和文本层共三层标注。
声学层标注包括语音的音素、音节边界、基频曲线、音强参数等。
声学层标注文件的命名方式为:c_序号.laa;q_序号.laa;s_序号.laa韵律层标注包括语音的韵律节奏边界等信息,文本层标注包括语句的读音、语法词边界、词性标注等信息。
韵律层标注和文本层标注共用一个文件,命名方式为:c_序号.lap;q_序号.lap;s_序号.lap3、语料标注内容及方式(1)声学层标注示例:SIL 28089 13590000到 d:aod 13590000 14730000ao 14730000 20370000 (14732000,…, )处 ch:uch 20370000 21500000u 21500000 23310000 (21532000,…, )找 zh:aozh 23310000 27770000ao 27770000 30570000 (27773200,…, )寻 x:vnx 30570000 34340000vn 34340000 36470000 (34360200,…, )SIL 37470000 47190000这里SIL表示静音,汉字字符后面紧跟的是其读音,如果读音中间有“:”,表示这是一个多音素字节,紧接在SIL以及音素后面的两个数字是其在语音中的起始和结束边界,单位为10-7毫秒。
录音录像档案数字化规范

录音录相档案数字化技术规本标准规定了录音档案和录相档案数字化的技术和管理要求。
本标准合用于以摹拟信号形成的录音录相档案进行数字化转换及数字化成果的管理。
下列文件对于本文件的应用是必不可少的。
凡是注日期的引用文件,仅注日期的版本合用于本文件。
凡是不注日期的引用文件,其最新版本 (包括所有的修改单)合用于本文件。
GB/T 2887 计算机场地通用规GB/T 2900.75-2022 电工术语数字录音和录相GB/T 12628 硬磁盘驱动器通用规GB/T 20530-2022 文献档案资料数字化工作导则GB/T 26163.1-2022 信息与文献文件管理过程文件元数据第 1 部份原则GB/T 26225 信息技术挪移存储闪存盘通用规DA/T 1 档案工作基本术语DA/T 15 磁性载体档案管理与保护规DA/T 18 档案著录规则DA/T 38 电子文件归档光盘技术要求和应用规DA/T XX 档案信息系统运行维护规ISO/TR 13028:2022(E) 信息与文献档案数字化实施指南 ( Information and documentation —Implementation guidelines for digitization of records)GB/T 2900.75-2022、GB/T 20530-2022 、DA/T 1 、DA/T 18 界定的以及下列术语和定义合用于本文件。
3.1数字化 digitize经采样、量化、编码将摹拟信息变换成数字信息的信息处理。
[GB/T 2900.75-2022,定义 A.01.70]3.2采集 capture将视频或者音频容数字化并形成数据文件的过程。
3.3对录音档案和录相档案进行数字化加工处理,使其在保持档案在联系的基础上,转化为存储在磁带、磁盘、光盘等载体上的数字副本,并按照档案的在联系,建立起与目录数据和元数据的可靠关联的处理过程。
4.1 录音录相档案数字化工作的开展应遵循 ISO/TR 13028 和 GB/T 20530 提出的要求和建议。
音频数字对象制作规范

音频数字对象制作规范目录1.概述(或前言、引言) (1)2.术语定义 (2)3.标准规范内容.............................................. 错误!未定义书签。
4.参考文献 (8)5.附录 (8)1概述随着计算机技术、多媒体和网络通信技术的飞速发展,数字图书馆建设步伐正在加快,为适应时代的发展,各大图书馆先后启动了馆藏资源的数字化工作。
由于音频介质保存条件、寿命、介质本身个体质量等多方面的因素,导致部分音频介质的开裂、断带、有霉点、被磁化等问题的出现,有些资料无法读取和使用,造成不可弥补的损失。
因此,为了使这些珍贵资源能持续的为读者提供服务,更是为了保存和传播人类知识和文明,馆藏音频资源的数字化工作便成了图书馆资源建设的重要任务之一。
数字化音频资源是由数字化的声音信息构成的数字图书馆数字馆藏资源的重要组成部分,它包括经过数字化处理的音乐、语音、自然声响等各类具有保存和使用价值的声音资源。
本规范适用于盒式录音磁带、开盘式录音磁带、数字录音带(DAT)、密纹唱片(LP)、激光唱片(CD)、MP3等模拟音频原生资源、数字音频原生资源、数字音频文件格式资源,以及各种揭示音频资源的文本、图片等资源的采集、编码转换、保存与编辑发布。
本规范规定了图书馆音频数字化制作工作流程、内容标记元数据标准、音频数字对象的命名规则。
本规范给出了数字音频文件长期保存级和发布服务级的推荐标准。
2术语定义2.1数字音频 Digital Audio对模拟信号的音频信号,根据一定的采样率、比特率、压缩率和量化级参数,对模拟信号进行采样,最终以“0”、“1”表示的二进制数据保存的数字文件称为数字音频技术,播放的时候可以把这些数据转换为模拟的电平信号进行广播。
数字音频资源是以音频激光唱片、光盘和网络为主要传播方式,以计算机及其相关外设为主要播放手段的音频信息资源。
它的主要信息来源是磁带、广播、电影、电视等音频信息,它的主要服务方式和功能包括网络音乐、新闻广播、远程教学和数字图书馆等。
音频数据标注规范_离线标注(1)

腾讯音频标注规范一、标注内容本次针对语音标注以下内容:有效性判定:有效,无效。
有效则进行后续标注。
无效的判别标准:1)无法听清音频中的内容(不论部分还是全部)2)音频为与普通话差异较大的方言,如:粤语、上海话、闽南语等3)音频中出现了除了中文、英文之外的语言4)音频中无人声5)音频中全部都是歌曲、电视声等6)背景人声音量大于主说话人1/4的7)音频中内容仅有一个汉字或一个英文单词8)音频中内容仅有一些语气词,例如:嗯,啊,哈对于有效的音频:进行分段标注:分段的标准:两个语音段中间无发音时长大于等于1秒PS:分片后,某个分片内仅有一个汉字或一个英文单词,此分片不进行标注。
每个分段标注内容:1)标注文本:语音对应的文本2)性别、儿童:发音人的性别,发音人是否为儿童3)语言:中文、英文、中英4)是否有口音:发音人发音是否有口音5)是否有变音:发音人是正常人声,还是娱乐性质的变音6)发音边界:按照规定标记处发音的起点和终点(毫秒)二、标注内容具体说明1、标注文本A)正常标注中,1)文本中不能出现除规定使用的标点符号(”_”(英文短下划线)、“ ”(英文空格)、“’”(英文单引号))之外的符号(如换行,逗号等),可以出现空格2)标注文本以发音人实际发音为准a)缺字或者多字时,不用进行人工纠正(即加字或者去除字)b)儿童发音有变音、走音的情况下,请按照正确发音标注文字(例如:音调上有变化)3)文本中出现英文时,字母全部大写,在英文停顿处,使用符号”_”(英文中的下划线,不需要引号)来进行标注。
如:NBA,标注为N_B_AI love you 标注为I_LOVE_YOU我爱China 标注为我爱CHINA我要听ABC 标注为我要听A_B_C4)出现语气词,尽量选用带“口”字部首的字5)阿拉伯数据标注为中文,如1998年:标注为:一九九八年数字24标注为:二十四6)出现无法辨别的词汇,如“你”“您”的时候,取符合语境的字即可7)出现能确定发音,无法确定字的情况,如果是歌名、专有名词、地名等,可以百度一下,只要真实出现过即可;如果还是无法确定具体字,可以使用同音字代替(要是同音字发音和音调都完全相同的)8)儿化音,不标注“儿”,例如,发音为“听歌儿”,标注为“听歌”9)如果音频开始、结尾处部分发音出现截断的情况,若可以听出截断发音,则进行标注,若听不出截断发音(需要靠猜测或者推测)则发音边界标注时,将截断的音刨除,文本标注也只标注发音边界内的内容。
电话信道音乐搜索数据标注规范

电话信道音乐搜索数据标注规范
一、内容栏
1.内容栏里面文字需要修改准确,
2.发音人说话只说了一个汉字(是音乐)的需要转写出来
3.歌手名/歌曲名/歌手名或歌曲名/歌手名或歌曲名前后加了前后缀的都需要转写出来
4.专辑名称,电视剧的主题曲,音乐种类(DJ音乐)需要转写出来
5.歌曲名与歌手名不一致也需要转写出来
6.发音人只说了电视剧名称且该剧不是歌曲名需要转写出来。
7.发音人说完话后,低噪音持续达到1.5秒的,在标签栏加标低噪音标签
8.模棱两可的语音按照正确语意来标注,(如张杰和张姐,标注张杰)
9.英文字母大写不要空格,单词小写,单词与单词之间空一格,字母与单词之间需要空一格,汉字与字母(单词)不用空格
PS:做音乐数据一定要上网搜索,最好在百度音乐上搜索
二、拼音栏不用管
三、标签栏不用标注
四、坏数据
1)✧左右截断/发音人的声音中途被截/信号差的声音/与音乐无关;
2)✧整句纯环境噪音,纯方言,纯人声噪音;唱出来的或拼读或歌词内容;
3)✧说话只说一个字母;说英文听不清或听不懂的;
4)✧整条音频声音异常、回音、喷麦严重、说话不清楚、结巴严重,虚着嗓子说话的;5)✧发音人声音小无法听清内容、发音人语速极快听不清内容、;发音跑偏厉害
✧音频整句是系统播报音即机器人的声音,例:公交车报站音、银行叫号音,语点6)
声音等;
7)✧歌手名或歌曲名不完整(如:刘德德华、新娘不是不是我)
✧人声噪音/环境噪音/设备噪音/人声非语音(笑、哭、咳嗽、清嗓子等)/背景音8)
乐等声音过大
9)✧除英语以外的其他外语(如日语、韩语、泰语等),口音严重。
数据标注 项目二 语音数据标注教案

项目2 语音数据标注实训教案小结与作业时间控制(分钟)一【课堂小结】(1)回顾上课前的学习目标,对本节课知识点进行总结。
(2)布置随堂练习,检测学生掌握情况。
5二【课后作业】(1)什么是语音数据标注。
(2)语音数据标注的基本规范。
(3)语音数据标注的流程。
教学后记项目2 语音数据标注实训教案(7)点击【保存】按钮,保存当前编辑完成的音频标注模板。
在操作中可以进行模板预览。
三【学生实训】布置随堂练习,检查学生掌握情况,并对学生出现的问题进行解决。
15四【新建音频标注任务,导入数据】(1)点击AILAB数据标注平台左侧的【任务管理】按钮,进入任务管理页面,点击【添加新任务】按钮。
(2)进入任务信息窗口,填写标注工具为“智能家居语音数据标注”,任务名称为“智能家居语音数据标注”,数据描述内容自定,最后导入文件,要求上传格式为zip,最大不超过500M。
(3)点击【下一步】按钮,进入配置任务信息页面,填写配置任务的相关信息,点击【完成任务创建】按钮。
(4)点击【完成任务创建】按钮后,显示任务创建成功提示信息。
(5)点击【开始分配】按钮,将标注任务分配给标注员,点击【导入成员】按钮,导入标注员信息后,点击【分配】按钮分配任务,也可以批量分配任务量或批量移出,如下图所示。
10五【学生实训】布置“导入数据”随堂练习,检测学生掌握情况。
10项目2 语音数据标注实训教案如图所示。
(3)在音频容器中标注员选择要标注的控件和内容,在本例中,单选框“是否有噪音”标注为“有”,复选框“语言”标注为“中文”,在音频容器中可以选择需要标注的音频部分,完成后在音频分段标注控件中可以显示截取开始和结束的时间,标注员标注出音频选择部分的文字内容,该任务标注完毕,点击【保存】,即可看到标注结果,最后按【提交】按钮。
如图所示。
三【学生实训】布置“数据标注”随堂练习,检查学生掌握情况,并对学生出现的问题进行解决。
20二【检查数据】(1)数据标注任务结束后,使用“应用管理员”账号登录AILAB数据标注平台,点击任务管理模块,分配检查员任务。
呼叫中心质检标准

叫中心质检标准评分细则:一、信息内容准确(20分)1、信息内容准确无误(8分)——为用户提供的信息内容及回答用户问题准确2、信息内容全面(5分)——为用户提供的业务活动及其它的信息内容全面完整3、是否与用户核实(4分)——与用户进行沟通过程中,互动的内容和用户核实4、有无夸张(3分)——为用户提供信息与事实不符或偏差过大说明:此类项满分20分,达到1、2、3项目规定,得其小项相应分值。
如出现解释错误,后又及时纠正,不影响用户理解,且达到用户满意,1项为4分业务解释不严谨,1项为4分出现当中第4项错误者,其小项分为0。
二、语音语调语速(10分)1、吐字清晰(2分)——语句清晰明了2、语调适当起伏(2分)——音调要恰当的起伏,不得过高或过低3、声音修饰(1分)——语音语调要适当修饰,听起来自然专业4、是否拖音(2分)——接电过程中不能出现声音拉长及拖音现象5、语速适中(2分)——语言速度适当,不要过快或过慢6、停顿适当(1分)——不要一气讲完,当中恰当停顿说明:此类项满分10分,达到其项目规定,得其小项相应分值。
三、服务用语(10分)1、普通话(3分)——普通话标准,无方言现象2、礼貌用语恰当(2分)——恰当运用“您”“请”等礼貌用语3、致谢语(1分)——对用户所提意见及其他,及时感谢用户;当用户向致谢时,及时合理回应4、致歉语(1分)——出现问题,或是用户不满时,及时表示歉意5、开头语、结束语(3分)——开头语及结束语适时、完整、全面6、服务禁语(-2分)——出现直呼客户“喂”,“不清楚”“不明白”等服务禁语7、语言随意(-2分)——语言组织不好,过于白话,随意,不专业8、口语(-2分)——出现“啊”“呀”等其它口语说明:此类项满分10分,达到1、2、3、4、5项目规定,得其小项相应分值;开头语或结束语中,当中有一项不符合标准者扣2分;6、7、8三项当中出现任意一项在此类项1、2、3、4的总分中扣2分;四、服务态度(23分)1、服务热情(9分)——精神饱满,服务状态积极,服务热情亲切2、服务耐心(6分)——服务状态平稳,不急不躁,心态平和,不打断用户3、微笑服务(4分)——微笑服务,但不要笑出声4、是否推诿(4分)——正确理解用户询问内容,不得随意推脱说明:此类项满分20分,达到2、3、4项目规定,得其小项相应分值。
音视频库著录标引规则

音视频库著录标引规则
一、音视频库的字段设置
音视频库以收录关于徐州的各类音频视频资料为主要对象。
针对本库的资源内容特点,参照CALIS的相关标准,数据库字段设置覆盖15个DC元数据,共27个字段,具体字段设置如下表。
二、音视频库著录标引规则
参见“地图库”,个别字段著录细则说明如下:
1.名称
通常指音视频资料的正题名,包括对正题名的解释性题名。
根据在源文献中出现的形式著录;源文献中地图没有命名者,可根据内容自拟名称,不必加[];个别易引起混淆或表述不清题名可自拟标注性说明。
著录范例:题名为“文明养狗”的徐州方言音频资料,可著录为:
名称:方言:文明养狗
2.ISRC
指音视频资料出版发行的标准号。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2.1 是否为无效语音
无效:1、主体人声音的前面、或后面:有一段安静或噪声等非人声 ,长度在 2 秒以上(宽条是 0.3
北京华语广源信息技术有限公司
第3页共6页
秒)。 【注意整句无人声的不是无效】
有效:其它都是有效
无效语音,直接打勾,文本不用修改。
语音数据标注规范
2.2 性别
类别 性别
男 女 童声 其他
分段选中去听,写下文本,正确率会提高。 3) 确定#在哪儿出现。
其它注意: 1)整句音频无人声:写一个#.(注意不是无效) 2)听不懂的方言或除英语外的其它国语言,写为#。 3)不是正常人的说话,象机器人或语音合成的声音;或录的电视里的播音;声音被破坏的; 音量特别小,听几遍也听不清楚的;听得清楚的部分写成文本,听不清楚的部分写为#. 4)发音出现拼音而不是英文时,如:a1 bo1 ci1 de1,不能写成:a b c d,应写#。 5)笑着说的,能听清楚写文字,听不清楚写#。
分类
定义
童声指小孩非常稚嫩的声音,大概是在 5 岁以下的范围。大孩子的声音归到男女。 没有人声,或者男女混声的统一规为其他
2.2 修改文本
按钮显示:
类别
文本 校对
规范
一、文本书写规范 1) 如果标注员能听清,理解说话人的语意,要做到标注的字和音完全正确。不知道该怎么
写的字,要查字典,不能用同音字替换;如名,姓,必须写对。名字可以任意。
语音数据标注规范
(V2.1.5)
文档信息
文档名称: 适用范围: 版本号: 文档编号: 编写人: 批准人:
语音数据标注规范
自 2014 年 10 月 16 后的批次
2.1.5
密级:
日期: 日期:
更改记录
更改 序号
1 2 3
4
5
更改原因
更改前 更改后 更改人
版本号 版本号
新方法-新 3 项 1.X
新2项
个#。 人声前边或后面出现一片乱乱的小声说话,写#和不写#都可以。
注意:人声背后持续的背景噪声、安静的,不用写#
如不确认是哪个字不清楚或混音,请用蓝条和黄条选中进一步确认。 蓝条和黄条的功能有 3 个 1) 尺子,表示 0.3 秒,可以用于量取 2 秒判断无效。 2) 选中功能。选中的是播放蓝条最左端到黄条最右端的声音。当语速特别快时,建议
2.0
新 2 项的简化 2.1
版,内容无变化
2.0 2.1
2.1.1
新 2 项的简化 版,内容无变
2.1.2 化,#的定义加
2.1.2
上注意事项
新3项 增加性别
#个数放宽:1 2.1.3 个#或正确个数 的#都算对
2.1.2
批准人 生效日期
2014-1-7 2014-1-17 2014-1-18
2014-1-26
普通话与口音对照:
类别
定义
无口音 拼音、声调都正确
轻口音 拼音对,声调不对
北京华语广源信息技术有限公司
特例 n 和 l 不分;
举例说明
那个,发音:la4 ge5(标准 na4 ge5 )
第5页共6页
重口音
拼音不对 (n 和 l 不分;n 和 ng 不分;z/c/s 和 zh/ch/sh 不分)除外
例如:非主体人插入的话,由于音量过大相混在一起,听不清主体的话,混的 部分写#。
如果音乐声相混,不影响对主体人说话的理解,标注员可以听出主体人说话的字,则 要求写字。
如果音乐声相混,造成标注员已听不出主体人混音部分的字,则要求混音部分标#。
3:增加#的情况 人声中出现突然间的大噪音且与人声不相混,包括铃声、叮声、咳嗽、扑话筒等,写 1
湖南,发音是 fu2 nan2(标准 hu2 nan2) 歌曲,发音是 guo1 qu3(标准 ge1 qu3)
北京华语广源信息技术有限公司
第6页共6页
登陆后,先安装控件,请点击 vs2008 运行库。(注意安全卫士先退出)
(3) 点击“标注中”查看任务 含新任务和被打回任务
(4) 在任务列表中,点击 tagging,进入标注页面,下载安装控件进行标注 说明:
1) 做完一句,直接点击 “下一句”, 系统自动保存,做完最后一句,点击“保存” 按钮。
2) 临时有事,或系统突然中断,重新登录后,系统将自动跳转到上次标注的位置; 3) 当前账号标注完成后,可以点击“上一句”和“下一句”,对标注结果进行检查,
第2页共6页
1、标注平台使用说明
操作系统: 操作系统是 XP 以上系统都可以。 浏览器: 请使用 IE 浏览器和搜狗浏览器
语音数据标注规范
步骤:
(1) 登录网址: http://182.48.116.149:8088/index.php/root/assigntask.html (2) 输入用户名及密码
2014-3-5
备注
PICC 196 小时 中共
湖北电信 127 小 时
6
修改#规范
2.1.4 2.1.5
2014-10-16
语音数据标注规范
自 2014 年 10 月 16 后 所 有 标 注 的数据
语音数据标注规范 V2.1.5 【电话录音_3 项】2014-10-16
北京华语广源信息技术有限公司
确认没有问题后,点击提交验收;注意:提交验收后将不能再更改。 4) 每人有一次修改机会,共可提交 2 次。 (5) 在任务统计中,查看验收结果
快捷键: 键盘上的 键盘上的
,可播放选中部分的声音。
和
可实现上一句和下一句的切换。
2、标注规范
共标 3 项(无效、性别、文本)
文本正确率:95% 其它正确率:95%
n 和 ng 不分; z/c/s 和 zh/ch/sh 不分 属于轻口音
语音数据标注规范
电信,发音:dian4 xing4(标准 dian4 xin4) 平时,发音:pin2 shi2(标准 ping2 shi2) 政治,发音:zeng4 zi4(标准 zheng4 zhi4) 刚才,发音:gang1 chai2(标准 gang1 cai2)
地名,能查到的地名必须写对。 2) 文本写成简体字,不要繁体字。 3)阿拉伯数字要写成汉字的形式;注意:“一”和“幺” 4)带儿话音的,要写出“儿”字,并且加括号。 例如:我得了 5 分儿,文本要写成:我得了五分(儿), 注意:不是儿化的不用加,如女儿,婴儿等不是儿话,就不能加在“儿”字上加括号。 注意:如果自己不能准确判断发音是否有(儿),就自己发一下不带儿的音,对比看 wav 是否是不带儿的音。也可以只选中这一个音去判断。 5) 文本和声音一致,以声音为准改文本。不能出现多字、少字、错字。 6)注意口语的字;口语中,结结巴巴说出的,要写出对应接接巴巴声音的字。口语中,“嗯”、 “哦”、“啊””等,要准确对应文本。例:声音“呀”,不能写成:“啊” 7) 英文:说单词的写成单词,整个单词要小写。说字母的写成字母,要写成大写。英 文单词发的不标准,如能听出是哪个单词,就写单词。注意:QQ、MSN,是字母发音,要写 成大写。 8)不是重口音,而是发错音的,写成错的字。但注意不要将口音当成发错音。 9) 文本中标点符号不作要求。
北京华语广源信息技术有限公司
第4页共6页
语音数据标注规范
二、#在文本中的标注规范
混音包括 3 类: 1、当前电话通话的两个人同时说话,相混 2、当前人声与较亮或尖锐的音乐声(如铃声、汽车喇叭)相混
混音部分的标注方法: 如果非主体人插话不影响对主体人说话的理解,标注员可以听出主体人说话的字,则 要求写字。 例如:非主体人插入的话,音量小、字数少,可忽略当成没听见。 如果非主体人插话,造成标注员已听不出主体人混音部分的字,则要求混音部分标#。