您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 其它文档 > 语音数据标注规范V2.1.7【3项】-20141210(定稿)
语音数据标注规范V2.1.7【3项标注】2014-12-111、标注平台使用说明操作系统:操作系统是XP以上系统都可以。浏览器:请使用IE浏览器和搜狗浏览器步骤:(1)登录网址:(2)输入用户名及密码登陆后,先安装控件,请点击vs2008运行库。(注意安全卫士先退出)(3)点击“标注中”查看任务含新任务和被打回任务(4)在任务列表中,点击tagging,进入标注页面,下载安装控件进行标注说明:1)做完一句,直接点击“下一句”,系统自动保存,做完最后一句,点击“保存”按钮。2)临时有事,或系统突然中断,重新登录后,系统将自动跳转到上次标注的位置;3)当前账号标注完成后,可以点击“上一句”和“下一句”,对标注结果进行检查,确认没有问题后,点击提交验收;注意:提交验收后将不能再更改。4)每人有一次修改机会,共可提交2次。(5)在任务统计中,查看验收结果快捷键:键盘上的,可播放选中部分的声音。键盘上的和可实现上一句和下一句的切换。语音数据标注规范北京华语广源信息技术有限公司第2页共5页2、标注规范共标3项(文本、无效、性别)文本正确率:95%其它(无效+性别)正确率:95%2.1是否为无效语音无效:1、主体人声音的前面、或后面、或中间:有一段安静或噪声等非人声,长度在2秒以上(宽条是0.3秒)。【注意整句无人声的不是无效】2、声音是转格式转错的。无效语音,直接打勾,文本不用修改。有效:其它都是有效2.2性别类别分类定义男性别女童声童声指小孩非常稚嫩的声音,大概是在5岁以下的范围。大孩子的声音归到男女。其他没有人声,或者男女混声的统一规为其他2.2修改文本按钮显示:标注文本,目的是用普通话的耳朵把听到的“普通话或带口音的普通话”标成普通话文本,普通话的耳朵听不懂“方言”时,不要将“方言”翻译成普通话文本。类别规范语音数据标注规范北京华语广源信息技术有限公司第3页共5页文本校对一、文本书写规范1)如果标注员能听清,理解说话人的语意,要做到标注的字和音完全正确(包括说的话,唱歌的歌词、电视录音等,能听得出来的)。不知道该怎么写的字,要查字典,不能用同音字替换;如本人讲话带有口音,则要写成对应普通话的字。注意:姓名,姓,必须写对。名字可以任意。地名,能查到的地名必须写对。2)文本写成简体字,不要繁体字。3)阿拉伯数字要写成汉字的形式;注意:“一”和“幺”4)带儿话音的,要写出“儿”字,并且加括号。例如:我得了5分儿,文本要写成:我得了五分(儿),注意:不是儿化的不用加,如女儿,婴儿等不是儿话,就不能加在“儿”字上加括号。注意:如果自己不能准确判断发音是否有(儿),就自己发一下不带儿的音,对比看wav是否是不带儿的音。也可以只选中这一个音去判断。5)文本和声音一致,以声音为准改文本。不能出现多字、少字、错字。6)注意口语的字;口语中,结结巴巴说出的,要写出对应接接巴巴声音的字。口语中,“嗯”、“哦”、“啊””等,要准确对应文本。例:声音“呀”,不能写成:“啊”7)英文:说单词的写成单词,整个单词要小写。说字母的写成字母,要写成大写。英文单词发的不标准,如能听出是哪个单词,就写单词。注意:QQ、MSN,是字母发音,要写成大写。整句都是英文句子的情况:一句话中发音不清楚的单词,标#,发音清楚的单词必须写出单词。整句英文都听不清楚时,标为无效,不要整句标为#。英文用中文谐音写出来的,算错。如:black写成布莱克算错一些地名,人名按英文读的,需要写英文,如:Iamgongingtoshanghai不能写成“上海”其他国语言,发音如“萨瓦迪卡”,“阿尼哈塞呦”等必须标#8)不是重口音,而是发错音的,写成错的字。但注意不要将口音当成发错音。9)文本中标点符号不作要求。语音数据标注规范北京华语广源信息技术有限公司第4页共5页二、#在文本中的标注规范混音包括3类:1、当前电话通话的两个人同时说话,相混2、当前人声与较亮或尖锐的音乐声(如铃声、汽车喇叭)相混混音部分的标注方法:如果非主体人插话不影响对主体人说话的理解,标注员可以听出主体人说话的字,则要求写字。(不要出现一个音对应两个字)例如:非主体人插入的话,音量小、字数少,可忽略当成没听见。如果非主体人插话,造成标注员已听不出主体人混音部分的字,则要求混音部分标#。例如:非主体人插入的话,由于音量过大相混在一起,听不清主体的话,混的部分写#。如果音乐声相混,不影响对主体人说话的理解,标注员可以听出主体人说话的字,则要求写字。如果音乐声相混,造成标注员已听不出主体人混音部分的字,则要求混音部分标#。3:增加#的情况人声中出现突然间的大噪音且与人声不相混,包括铃声、叮声、咳嗽、扑话筒、有大的音乐背景等,写1个#。人声前边或后面出现一片乱乱的小声说话、持续的背景噪音,写#和不写#都可以。注意:安静的静音处,不能写#。如不确认是哪个字不清楚或混音,请用蓝条和黄条选中进一步确认。蓝条和黄条的功能有3个1)尺子,表示0.3秒,可以用于量取2秒判断无效。2)选中功能。选中的是播放蓝条最左端到黄条最右端的声音。当语速特别快时,建议分段选中去听,写下文本,正确率会提高。3)确定#在哪儿出现。其它注意:1)整句音频无人声:写一个#.(注意不是无效)2)听不懂的方言或除英语外的其它国语言,写为#。3)不是正常人的说话,象机器人或语音合成的声音;或录的电视里的播音;声音被破坏的;音量特别小,听几遍也听不清楚的;听得清楚的部分写成文本,听不清楚的部分写为#.4)发音出现拼音而不是英文时,如:a1bo1ci1de1,不能写成:abcd,应写#。5)笑着说的,能听清楚写文字,听不清楚写#。标准普通话与带口音的普通话对照表:类别定义特例举例说明无口音拼音、声调都正确轻口音拼音对,声调不对n和l不分;n和ng不分;z/c/s和那个,发音:la4ge5(标准na4ge5)电信,发音:dian4xing4(标准dian4xin4)平时,发音:pin2shi2(标准ping2shi2)语音数据标注规范北京华语广源信息技术有限公司第5页共5页zh/ch/sh不分属于轻口音政治,发音:zeng4zi4(标准zheng4zhi4)刚才,发音:gang1chai2(标准gang1cai2)重口音拼音不对(n和l不分;n和ng不分;z/c/s和zh/ch/sh不分)除外湖南,发音是fu2nan2(标准hu2nan2)歌曲,发音是guo1qu3(标准ge1qu3)
本文标题:语音数据标注规范V2.1.7【3项】-20141210(定稿)
链接地址:https://www.777doc.com/doc-5972882 .html