您好,欢迎访问三七文档
当前位置:首页 > 机械/制造/汽车 > 机械/模具设计 > 语音标注规范_20150706
1语音转写规范一、语音转写总体目标针对给定的语音片段,人工判断其是否为有效语音,对于有效语音,给出其中语音的起止时间段、标准的文本标注以及语音本身的相关属性,对于无效语音直接抛弃。操作说明1.下载并安装chrome浏览器(必须条件);2.用给定的账号和密码登陆网址=login3.登陆成功后,点击菜单栏“申请任务”,如果有任务的话,便可以点击“项目名称下”给定的项目进入,如下图:4.同意保密协议开始工作后,工作界面如下所示:操作顺序分为五步:①首先判断声音的有效性,如果有效的话,再继续进行下面步骤;如果声音无效,则只需选择无效原因即可(选中“无效声音”后,自动下一句)。②在上图1所框波形中,通过鼠标拖拽的方式,标记出有效声音的起止时间点;③对有效声音进行“性别,底噪,口音、儿童音”四种属性的标记;2④两条红色竖线内的音频即为需要转写的音频段(我们把这一段称为有效声音,转写校对时只需要转写校对有效声音段内的内容)转写内容写到下面文本框内。⑤需要加标签的地方加上标签,单击即可加入;⑥标记完毕后,点击“保存继续下一句”⑦点击1of150处的箭头的话,本句的标注结果是不保存的,只是浏览⑧做到每个任务包的最后一句时,波形图的右上方会显示“提交“按钮,点击即可提交任务。注:账户中如果存在没有提交的任务,则无法领取新任务。先校对文字,再点生成拼音。二、有效语音判断标准单个发音人的清晰普通话语音是标注中需要处理的有效语音;对于带有一定口音,导致发音不标准的普通话以及由于发音习惯,导致个别发音改变的普通话,都属于有效语音;对于背景存在噪声,但不影响说话内容辨识的语音,也属于有效语音;其它情况的语音都属于无效语音,直接抛弃,无需进行任何标注,典型的无效语音有:1.音频中无人说话,只有背景噪声或音乐等。2.音频背景噪声过大,影响说话内容辨识。3.语音不是普通话发音,如广东话、唱歌、其它语言(普通话中夹杂少量英语情况除外)等。4.语音音量过小或发音模糊,无法确定语音内容。5.语音只有嗯啊呃的语气词,无意义的无效。例如,音频中只有1-2个字:对、是,这种无效。但是很明确的搜索的词语或者有意义的是有效。例如:新浪、你好。PS:一句中有一半以上听不懂算无效,不用截取听懂的部分。三、时间标注规范对每个有效的音频文件,都需要标注语音的起始和终止时间点,语音的文本标注内容需要与语音起止时间段内的数据完全对应。默认情况下,以整个音频文件的起止点作为有效语音的起止点,但遇到以下情况时,需要进行人工修改:1.有效语音的开头/结尾处出现了较长时间(超过0.5秒)的静音,则需要手工调整语音的起止时间,将时间标注点后移/前移,在有效语音开始前/结束后保留约500毫秒静音段即可。2.对于音频中有部分内容听不懂的情况,可以直接放弃,也可以人工选择一段可以听懂的部分,标记其起始和终止时间点,并在文本标注中给出对应的文本信息。(注:标注的时间段与标注的文本信息需要严格的一一对应,严禁文本中出现与标记时间段内语音信息不匹配的标注)3.对于音频中从始至终伴随有噪音的情况,需要人工确定有效语音的起止位置,并在音频属性中标注背景带噪,有效语音开始前和结束后的背景噪声需要被排除在语音起止时间之外。四、文本转写规范31.文本转写结果以汉字表示,对于常用词语要保证汉字正确,对于不确定的字(如人名中的汉字)可以采用常见的同音字表示,如李山/李珊。2.转写内容需要与实际发音内容完全一致,不允许出现修改与删减,即使发音中出现了重复或者明显的不通顺,也要根据发音内容给出准确的对应文本(如发音为:我我好饿;“我”出现了重复,转写为:我我好饿);但是对于因为口音或个人习惯造成的某些汉字发音改变,则需要按照原内容转写(如因为口音某些音发不清楚,音量读成了yin1niang4,则仍然标注为音量,不能标注为音酿;对于某些汉字会有人习惯性的读错,如教室读成jiao4shi3,则需要标注为教室,不能标注为教使)。3.遇到网络用语,如实际发音为“灰常”、“孩纸”、“童鞋”,则应该根据其发音标注为“灰常”、“孩纸”、“童鞋”,不能标注成“非常”、“孩子”、“同学”。4.转写时对于语音中正常的停顿可以标注常规的标点符号(如逗号),具体标注规则可以根据实际情况自行判断,不做强制要求。5.遇到数字,根据数字具体的读法标注为汉字形式,不能出现阿拉伯数字形式的标注(如123,允许的标注为一二三、幺二三、一百二十三等,禁止标注为123)。6.对于儿话音,根据音频中说话人实际的发音情况进行标注(如哪,读出了儿化音则标注为哪儿,没有读出儿化音则标注为哪)。7.对于说话人清楚讲出的语气词,如“哦,啊,嗯,呃,哎”等,需要根据其真实发音进行转写。8.对于语音中夹杂英文的情况,按照以下方式进行处理:a.如果英文的实际发音为每个字母的拼读形式,则以大写字母形式标注每一个拼出的字母,字母之间加空格,如QQ,CS。b.如果出现的是英文单词或短语,对于常用的专有词汇,在能够准确确定英文内容的情况下,可以以小写字母的形式标注每个单词,单词与单词之间以空格分隔(如gmaildotcom),其它情况下直接抛弃。(注:标注工作主要针对中文普通话,因此除了一些常见的专有词汇,如网址、品牌名称外,其它英文词汇直接抛弃即可)9.拼音根据文本内容结合发音,校对拼音行。例如:办公室,发音是shi3,但是拼音需要字的正确发音,虽然发音人说的shi3,但拼音行仍然为ban4gong1shi4强调:一、七、八、不,33变调不用管。例如:发音人读qi2ge4,那么“七”正确发音是qi1,所以正确的拼音应该是qi1ge4英文在文本和拼音的标注都直接保留。系统可自动生成拼音,只需要校对多音字即可,多音字系统会有“_”提示,重点关注即可。需要注意的拼音有:1)乐,le4和yue42)谁,shui2和shei23)会,kuai4和hui4(后续补充)4儿化音的拼音,例如“点儿”,dianr3dian3er2神马shen2ma3五、噪音标注规范语音中某些特定位置出现短暂清晰的噪声,如环境噪声、非发音人说话,发音人咳嗽、呼吸声等,需要在标注文本中的对应位置加入相应的代表噪声的符号,具体的噪声分类及对应的标注方式如下:[n]非人类产生的噪声,如:背景音乐、手机铃声、键盘敲击声、汽车鸣笛声、猫狗叫声等[nps]非说话人本人产生的人类噪声,如其他人的说话、咳嗽、笑声等[n:cough]说话人的咳嗽声[n:throat-clear]说话人的清嗓音声[n:sneeze]说话人的打喷嚏声[n:laughter]说话人的笑声[n:lipsmack]说话人的咂嘴声[n:breath]说话人强烈的呼吸声[~]发音人因重复或说错导致的重复音,有吞音或半音情况时,如果能确定半音所对应的字,则尽量标出汉字,否则标记[~]如:你今(只读出了j)今天去上班了么应该尽量标注为你今今天去上班了么,如果实在无法确定吞音现象对应的字,则标准为你[~]今天去上班了么对于半音现象超过2次的音频文件,做放弃处理除了代表吞音意外,还表示1-2个字听不懂。就是个别字听不懂[unk]代表句子中间有2个字以上听不懂的部分。比如:一句话,前面和后面能听懂,中间一部分听不懂,那么时间点是整句时间点,中间听不懂的语音用[unk]表示。[mute]音频中有大于1秒的静音[sp]音频中大于1秒停顿不安静就标[sp][sph]有效语音的起始点/结束点为非静音,即音频的起点或终点落在了说话人的声音上,则需要在对应位置进行额外标注(加入/sph符号)。主要用在标记切头、切尾。例如:爸爸去哪,前面切头,只有啊的音。那么标记“/sph爸爸去哪“切尾例子5补充说明:1.如果成语中或其他情况,因为不认识而读错字的情况。例如:酗酒,读成凶酒,那么文本行:酗(xu4)酒拼音行:(xiong1)jiu3注意:拼音行,酗的拼音需要手动删掉,保留(xiong1)jiu3备注:将要括起来的拼音选中,点一下标签,自动加在选中部分的首尾。2.数学符号:希腊字母,参考特殊符号.txt,直接粘贴即可。3.时间点截取取消选择半句截取的方式,改成截取全部有效语音,如中间个别字词听不懂,可用~或者【unk】标记;噪音符号标注由原来标注时间点内的,调整为整句音频均需标注。PS:红线外面的也需要标注噪音标签。特例:1)2个人说话,截取主要人的语音。文字写主要人,其他人说话【nps】2)ABA,也就是A说完,B说,然后A又说。应该是时间截取从A到A,文本行:A【nps】A4.对于打不出来的字,文本行和拼音行保持拼音即可。例如:duangpiubiupia
本文标题:语音标注规范_20150706
链接地址:https://www.777doc.com/doc-2030133 .html