音频数据标注规范_离线标注(1)

合集下载

输入法数据标注规范标准

输入法数据标注规范地址栏内输入标注系统地址:一定使用谷歌浏览，并将其设置为默认浏览器1.登陆界面：百度的账户一律实名认证不可修改个人信息及密码严格保证账号安全做到一人一号实名认证，不得修改密码信息如果导致账号丢失的账户内的时长及账户成本费用个人承担。

导致数据错乱造成损失的对其追究相应赔偿。

红框内显示为音频可点击播放暂停蓝色框框选的部分就是我们要标注的内容了标注信息，默认选择为第一个选项：第一项: 判断是否为无效语音例控制在15%左右，不要超过90%的有效数据，让公司一看就是刷F5出的数据。

质检判罚尺度在标注无效数据时，除非这条语音是明显有效的，你标成无效算错，如果这条语音可有效也可无效，你标记成无效，质检不能判错。

这些无效数据的共性是文本不清晰，有歧义，文本是死扣出来的。

不要为了文本标注有语义，硬猜去写文本。

标成有效可能会错；标成无效，质检不能判错。

第二项: 噪音：☆☆☆耳朵所能听到的文本【也就是当前说话人】以外的声音标注为有噪音。

说话以外的声音包括咳嗽声，打喷嚏，喷麦。

背景人说话，汽笛声、能听到我们就标注为噪音，反之安静。

第四项：语音内容；（文本）1.结巴，语气口语词诸如嗯啊呀这些照录。

【一律带口字边，嗯啊呀喂哦。

】2.”写成井号键“*”写星号键。

没有阿拉伯数字，数字以汉字形式，如“一二三”，而不是“123”。

注意区分“一”和“幺”。

“二”和“两”。

3地名，古诗词，名人名字这些不能用同音字代替。

没有正常的逻辑思维能力也要有常识，没有常识的问度娘。

不行就F5刷新！全角ｗｉｆｉ半角 wifi第五项：性别能听出是儿童的标为“儿童”。

男就是男，女就是女，分不清性别的标男或女都行。

第六项:口音☆☆☆发音不标准的普通话，跟标的这个字的字典发音不同，就标记口音。

因为地域不同而造成的普通话的差异不算口音，如同儿化音不算口音只因北方人说话都是差不多调调。

标注结束后，点击“标注提交”即可工作量查询➢点击右上角查询，将会出现工作量查询页面查询起始时间是2015年5月1号至表单日期止为了方便区分检查，把“有效语音”和“无效语音”显示成黑色和红色。

CASIA语音合成语料库存储及标注规范

CASIA语音合成语料库存储及标注规范1、本数据库包括的内容，分为陈述语句、疑问语句和短消息风格；每种语料都包含语音和文本两种数据。

其中陈述语句、短消息为一个女声播音员，疑问语句为四个播音员（两男两女）。

语料覆盖汉语的所有音节、diphone信息。

2、文件命名方式（1）文本文件所有陈述句的文本都放在“陈述句.txt”中；所有疑问句的文本都放在“疑问句.txt”中；所有短消息的文本都放在“短消息.txt”中；示例：1. 只好求别人替他介绍一个最轻松的工作.2. 我母亲和我都是耽于梦想的人.（2）语音文件语音数据的存储格式皆为16K采样16位的无压缩wav格式。

命名方式为：陈述句：c_序号.wav。

其中序号用数字表示，例如第一个语句就是c_00001.wav，对应着“陈述句.txt”文本中的一个句子。

疑问句：q_序号.wav。

其中序号用数字表示，例如第一个语句就是q_00001.wav，对应着“疑问句.txt”文本中的一个句子。

短消息：s_序号.wav。

其中序号用数字表示，例如第一个语句就是s_00001.wav，对应着“短消息.txt”文本中的一个句子。

（3）标注文件语料的标注分为声学层、韵律层和文本层共三层标注。

声学层标注包括语音的音素、音节边界、基频曲线、音强参数等。

声学层标注文件的命名方式为：c_序号.laa；q_序号.laa；s_序号.laa韵律层标注包括语音的韵律节奏边界等信息，文本层标注包括语句的读音、语法词边界、词性标注等信息。

韵律层标注和文本层标注共用一个文件，命名方式为：c_序号.lap；q_序号.lap；s_序号.lap3、语料标注内容及方式（1）声学层标注示例：SIL 28089 13590000到 d:aod 13590000 14730000ao 14730000 20370000 (14732000,…, )处 ch:uch 20370000 21500000u 21500000 23310000 (21532000,…, )找 zh:aozh 23310000 27770000ao 27770000 30570000 (27773200,…, )寻 x:vnx 30570000 34340000vn 34340000 36470000 (34360200,…, )SIL 37470000 47190000这里SIL表示静音，汉字字符后面紧跟的是其读音，如果读音中间有“:”，表示这是一个多音素字节，紧接在SIL以及音素后面的两个数字是其在语音中的起始和结束边界，单位为10-7毫秒。

客服录音数据标注规范(完整版)

客服录音数据标注规范（完整版）用谷歌浏览器（至少32.0以上版本）来标注。

其他浏览器或低版本谷歌浏览器可能出现部分文件播放不了的问题。

质量要求：●文字错误率：3%以内⏹注：文字错误率指语音内容标注错误，只要有一个字错，该条语音就算错。

●其他错误率：5%以内⏹注：综合错误率指：除了语音内容以外的其他标注项错误，只要有一项错，该条语音就算错。

客服语音内容说明：都是鲜百味公司和客户的电话语音，公司主营业务是卖海鲜，所以大部分内容都是关于海鲜（如大闸蟹）的购买、礼品券、配送等方面。

1. 当前语音是否包含有效语音无效语音（即不包含有效语音）的类型：●文件播放不了；●音频全部是静音或噪音；●许多地方听不清或者听不懂，例如，方言太重、噪音太大、音量过低等。

●两个人同时说话超过3个字（包括3个字）并且听内容不清楚的或者噪音声音盖住说话人声大于3个字（包括3个字）导致内容听不清楚的2.当前语音的噪声情况如果能听到明显的噪音（噪音指说话人正常说话外的其他声音），则选择“含噪音”，否则选“安静”。

常见噪音举例（但不限以下）：●其他人说话声●背景音乐声●动物叫声●汽车滴滴声●咳嗽声●明显的电流声3.说话人数量（即标注的语音内容是几个人说的）●一人说话（主体说话人）：只有一个人说话●多人说话：有多个人说话（因为是客服语音，一般是两个人）4.说话人性别如果有多个人说话，则标第一个说话人的性别。

标注项：●男●女5.是否包含口音如果有多个人说话，则标第一个说话人是否有口音。

标注项：●否：无口音●是：有口音⏹有口音是指说话人发音的拼音或声调和正确发音的不一致。

常见情形包括：l和n不分，h和f不分，n和ng不分，e和uo不分，前后鼻音，平翘舌，以及其他情况。

6.语音内容如果两个人同时说话，以主体说话人声音大的为准来转写文字。

如果一条语音中，低于3个字有两个人同时说话，并听不清楚的，将听不清的部分用“[d]”表示。

如果一条语音中，低于3个字部分噪音太大，盖住说话人声音导致听不清的，将听不清的部分用“[n]”表示。

音频信号标注文档

音频信号标注规范文档(v1.3)一、用Transcriber软件标注音频信号的基本流程：▪步骤1：准备a)使用命令[文件]\[新建标注] (Ctrl+n)开始一个新的标注，该命令同时会再要求使用者打开要标注的音频文件。

打开的音频信号的波形会显示在窗口的下方。

窗口的上方为标注的位置。

b)如果要更换音频文件，使用命令[文件]\[打开音频文件…] (Ctrl+a)，重新选择音频文件。

c)如果此音频文件有对应的同步脚本，在Transcriber软件外部，使用其他文本编辑器打开此脚本，方便标注过程。

▪步骤2：标注，标记时间点信息及背景信息d)播放音频信号文件，标记片断信息(section)、说话人切换信息(turn)和间隔点信息(breakpoint)，标注音频内容文本：a)点击工具按钮上的播放（Tab）和暂停（Tab）按钮来播放或暂停。

◆间隔点（breakpoint）b)用光标在信号波形图上选择下一个需要标记的时间点，回车（Enter）产生新的间隔点。

◆片断信息（section）c)如果此间隔点处是新的片断的开始，使用命令[片断]\[创建片断…] (Ctrl+e)来产生一个新的片断，并编辑此片断的属性：i.类别：记录(report)、垃圾(filler)、无标注(nontrans)；ii.主题(topic)。

d)点击片断标记的按钮可以修改此片断的属性，或者用[去除]命令删除该片断。

◆说话人切换（turn）e)一个新的片断产生时会自动在当前时间标记点增加新的说话人切换。

f)使用命令[片断]\[创建说话人切换…] (Ctrl+t)产生一个新的说话人切换，同时编辑其属性：i.是否两个说话人的语音交叠；ii.说话人信息：▪名字；▪类别：男(male)、女(female)、未知(unknown)；▪口音：无口音(native)、有口音(nonnative)；iii.说话方式：自发式(spontaneous)、朗读式(planned)；iv.保真度：高(high)、中(medium)、低(low)；v.信道：宽带(studio)、窄带(telephone)。

客服录音数据标注规范(完整版)

客服录音数据标注规范（完整版）用谷歌浏览器（至少32.0以上版本）来标注。

其他浏览器或低版本谷歌浏览器可能出现部分文件播放不了的问题。

质量要求：●文字错误率：3%以内⏹注：文字错误率指语音内容标注错误，只要有一个字错，该条语音就算错。

●其他错误率：5%以内⏹注：综合错误率指：除了语音内容以外的其他标注项错误，只要有一项错，该条语音就算错。

标注项：●男●女5.是否包含口音如果有多个人说话，则标第一个说话人是否有口音。

标注项：●否：无口音●是：有口音⏹有口音是指说话人发音的拼音或声调和正确发音的不一致。

常见情形包括：l和n不分，h和f不分，n和ng不分，e和uo不分，前后鼻音，平翘舌，以及其他情况。

6.语音内容如果两个人同时说话，以主体说话人声音大的为准来转写文字。

如果一条语音中，低于3个字有两个人同时说话，并听不清楚的，将听不清的部分用“[d]”表示。

如果一条语音中，低于3个字部分噪音太大，盖住说话人声音导致听不清的，将听不清的部分用“[n]”表示。

中文标注任务规范

好数据
内容与音频一致
无需操作完成本条标注，点击“下一句”
内容与音频不一致
内容栏文本根据声音文件修改一致，点击“下一句”
坏数据
无
点击“标记不可用”或“配置的快捷键”，继续标注
3.
3.1内容文本要与真实音频发音完全一致，不可增减字、错字；人名、小区名、道路名无法确定用字时，录入准确发音的常用字；
3.2真实发音为“我去哪哪里呀”，“哪”字有重复，就要忠实地录成“我去哪哪里呀”。另由于口音或个人习惯导致的音变，按普通话标注音录入；
4.1音频无主发音人类型：
纯环境噪音；两个人对话、纯人声噪音；纯音乐、说唱；纯人声非语音，例如笑，打喷嚏，咳嗽等；纯机器人的声音；
4.2音频有主发音人类型：
1)语音波形不完整现象指语句首字音或尾字音被截，打开音频前后无静音段，从听感上首字音或尾字音不完整，此为截断数据；
2)发音人语音不清晰类型：例如方言、口音严重，除英语以外其他外语；
3.3多音字或生活中有不同发音的字，也按普通话标注音录入。例如，“办公室”的“室”，有人说成shǐ，有人说成shì，都录成“办公室”；
3.4对于儿化音，也要忠实于发音录入。例如，发音是“哪儿”，就录成“哪儿”，没有发出儿化音的，就录成“哪”；
3.5发音停顿录入文本连续，不需要空格或添加符号,英文缩写除外；例如，“what’s your name”中的撇号必须是英文状态下录入，特殊符号读法“#”录入“井号键”；“*”录入“星号键”；
数据分类子分类标注方式群音信息服务有限公司2014日星期日好数据内容不音频一致无需操作完成本条标注点击下一句内容不音频丌一致内容栏文本根据声音文件修改一致点击下一句坏数据好数据文本录入标准31内容文本要不真实音频发音完全一致丌可增减字错字

电话信道音乐搜索数据标注规范

电话信道音乐搜索数据标注规范
一、内容栏
1.内容栏里面文字需要修改准确，
2.发音人说话只说了一个汉字（是音乐）的需要转写出来
3.歌手名/歌曲名/歌手名或歌曲名/歌手名或歌曲名前后加了前后缀的都需要转写出来
4.专辑名称，电视剧的主题曲，音乐种类（DJ音乐）需要转写出来
5.歌曲名与歌手名不一致也需要转写出来
6.发音人只说了电视剧名称且该剧不是歌曲名需要转写出来。

7.发音人说完话后，低噪音持续达到1.5秒的，在标签栏加标低噪音标签
8.模棱两可的语音按照正确语意来标注，（如张杰和张姐，标注张杰）
9.英文字母大写不要空格，单词小写，单词与单词之间空一格，字母与单词之间需要空一格，汉字与字母（单词）不用空格
PS:做音乐数据一定要上网搜索，最好在百度音乐上搜索
二、拼音栏不用管
三、标签栏不用标注
四、坏数据
1）✧左右截断/发音人的声音中途被截/信号差的声音/与音乐无关；
2）✧整句纯环境噪音，纯方言，纯人声噪音；唱出来的或拼读或歌词内容；
3）✧说话只说一个字母；说英文听不清或听不懂的；
4）✧整条音频声音异常、回音、喷麦严重、说话不清楚、结巴严重，虚着嗓子说话的；5）✧发音人声音小无法听清内容、发音人语速极快听不清内容、；发音跑偏厉害
✧音频整句是系统播报音即机器人的声音，例：公交车报站音、银行叫号音，语点6）
声音等；
7）✧歌手名或歌曲名不完整（如：刘德德华、新娘不是不是我）
✧人声噪音/环境噪音/设备噪音/人声非语音（笑、哭、咳嗽、清嗓子等）/背景音8）
乐等声音过大
9）✧除英语以外的其他外语（如日语、韩语、泰语等），口音严重。

数据标注项目二语音数据标注教案

项目2 语音数据标注实训教案小结与作业时间控制（分钟）一【课堂小结】（1）回顾上课前的学习目标，对本节课知识点进行总结。

（2）布置随堂练习，检测学生掌握情况。

5二【课后作业】（1）什么是语音数据标注。

（2）语音数据标注的基本规范。

（3）语音数据标注的流程。

教学后记项目2 语音数据标注实训教案（7）点击【保存】按钮，保存当前编辑完成的音频标注模板。

在操作中可以进行模板预览。

三【学生实训】布置随堂练习，检查学生掌握情况，并对学生出现的问题进行解决。

15四【新建音频标注任务，导入数据】（1）点击AILAB数据标注平台左侧的【任务管理】按钮，进入任务管理页面，点击【添加新任务】按钮。

（2）进入任务信息窗口，填写标注工具为“智能家居语音数据标注”，任务名称为“智能家居语音数据标注”，数据描述内容自定，最后导入文件，要求上传格式为zip，最大不超过500M。

（3）点击【下一步】按钮，进入配置任务信息页面，填写配置任务的相关信息，点击【完成任务创建】按钮。

（4）点击【完成任务创建】按钮后，显示任务创建成功提示信息。

（5）点击【开始分配】按钮，将标注任务分配给标注员，点击【导入成员】按钮，导入标注员信息后，点击【分配】按钮分配任务，也可以批量分配任务量或批量移出，如下图所示。

10五【学生实训】布置“导入数据”随堂练习，检测学生掌握情况。

10项目2 语音数据标注实训教案如图所示。

（3）在音频容器中标注员选择要标注的控件和内容，在本例中，单选框“是否有噪音”标注为“有”，复选框“语言”标注为“中文”，在音频容器中可以选择需要标注的音频部分，完成后在音频分段标注控件中可以显示截取开始和结束的时间，标注员标注出音频选择部分的文字内容，该任务标注完毕，点击【保存】，即可看到标注结果，最后按【提交】按钮。

如图所示。

三【学生实训】布置“数据标注”随堂练习，检查学生掌握情况，并对学生出现的问题进行解决。

20二【检查数据】（1）数据标注任务结束后，使用“应用管理员”账号登录AILAB数据标注平台，点击任务管理模块，分配检查员任务。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

腾讯音频标注规范
一、标注内容
本次针对语音标注以下内容：
有效性判定：有效，无效。

有效则进行后续标注。

无效的判别标准：
1）无法听清音频中的内容（不论部分还是全部）
2）音频为与普通话差异较大的方言，如：粤语、上海话、闽南语等
3）音频中出现了除了中文、英文之外的语言
4）音频中无人声
5）音频中全部都是歌曲、电视声等
6）背景人声音量大于主说话人1/4的
7）音频中内容仅有一个汉字或一个英文单词
8）音频中内容仅有一些语气词，例如：嗯，啊，哈
对于有效的音频：
进行分段标注：分段的标准：两个语音段中间无发音时长大于等于1秒
PS：分片后，某个分片内仅有一个汉字或一个英文单词，此分片不进行标注。

每个分段标注内容：
1）标注文本：语音对应的文本
2）性别、儿童：发音人的性别，发音人是否为儿童
3）语言：中文、英文、中英
4）是否有口音：发音人发音是否有口音
5）是否有变音：发音人是正常人声，还是娱乐性质的变音
6）发音边界：按照规定标记处发音的起点和终点（毫秒）
二、标注内容具体说明
1、标注文本
A）正常标注中，
1）文本中不能出现除规定使用的标点符号（”_”（英文短下划线）、“ ”（英文空格）、“’”（英文单引号））之外的符号（如换行，逗号等），可以出现空格2）标注文本以发音人实际发音为准
a）缺字或者多字时，不用进行人工纠正（即加字或者去除字）
b）儿童发音有变音、走音的情况下，请按照正确发音标注文字（例如：
音调上有变化）
3）文本中出现英文时，字母全部大写，在英文停顿处，使用符号”_”（英文中的下划线，不需要引号）来进行标注。

如：
NBA，标注为N_B_A
I love you 标注为I_LOVE_YOU
我爱China 标注为我爱CHINA
我要听ABC 标注为我要听A_B_C
4）出现语气词，尽量选用带“口”字部首的字
5）阿拉伯数据标注为中文，
如1998年：标注为：一九九八年
数字24标注为：二十四
6）出现无法辨别的词汇，如“你”“您”的时候，取符合语境的字即可
7）出现能确定发音，无法确定字的情况，如果是歌名、专有名词、地名等，可以百度一下，只要真实出现过即可；如果还是无法确定具体字，可以使用
同音字代替（要是同音字发音和音调都完全相同的）
8）儿化音，不标注“儿”，例如，发音为“听歌儿”，标注为“听歌”
9）如果音频开始、结尾处部分发音出现截断的情况，若可以听出截断发音，则进行标注，若听不出截断发音（需要靠猜测或者推测）则发音边界标注时，
将截断的音刨除，文本标注也只标注发音边界内的内容。

10）出现多人说话的场景
a)当其他人说话声音小于主发音人音量1/4时，其他人发音视为背景噪
声，不进行标注。

2、性别、儿童
标注为“男”、“女”、“儿童”（如果出现无法辨别的中性声音，请标注为女）
多发音人以主发音人为准。

3、语言
标注为
中文：全部都是中文
英文：全部都是英文
中英：中英文混合
4、是否有口音
标注为“是”，“否”，无法确认时，请标注为“否”
5、是否有变音
标注为“是”，“否”，无法确认时，请标注为“否”
6、发音边界
标注句中发音部分的起点、终点，精度到毫秒，如[1.234][3.456]（使用英文的中括号，两个为一组），
三、交付具体说明
1、每批数据交付两个txt文本，一个为有效标注文本，一个为无效标注文本
样例如下（中间分隔符为“\t”，换行统一使用“\n”）：
PS：同一个音频多个片段，每个片段一行，名字不用单独处理，发音边界不同即可。

对于试标结果的格式，我这边要说面一下
1）所有文件、文件夹，只能出现英文和“_”，不要出现中文及
其他格式
2）标注内容按照标注规范中要求的顺序进行排版
2、文本编码要求为utf-8
3、要求句准确率大于95%
4、有效时长统计方法：
有效时间段：通过有效标注的发音边界来取时间段，
最后的有效时长：为全部有效发音段的时长和。

具体如下：
1）以人有意义发音的开始、结束点为计时起点和终点
2）起点和终点距离人发音，若无法精确判定，可以有100ms 左右的静音（最长不超过200ms），此处静音计入有效小时
3）人发音过程中，不能出现超过1s 的停顿，若有超过1s以上的停顿，则停顿的时间不算入有效时长
4）数据中小于等于2个字和全部是语气词的音频，总时长小于1小时，多出部分为无效数据
5）若背景要求为安静，出现明显噪声的总时长不能多余0.5小时，多出部分为无效数据。

音频数据标注规范_离线标注(1)

输入法数据标注规范标准

CASIA语音合成语料库存储及标注规范

客服录音数据标注规范(完整版)

音频信号标注文档

客服录音数据标注规范(完整版)

中文标注任务规范

电话信道音乐搜索数据标注规范

数据标注 项目二 语音数据标注教案

数据标注项目二语音数据标注教案