您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > AI人工智能 > 人工智能数据标注需求确认
惊东众智文字转写需求文档一、注意事项•画框时贴字不压字(框线和文字中间不能有太大空隙,框线也不要压到字)。二、标注流程•Shift+z为不规则图形的标注•Ctri+s鼠标左键为矩形标注•Ctrl+鼠标右键为删除画错的框三、标注内容1、需要画框的情况1)所有人眼可以辨认的中文、英文、数字、符号(键盘可以打出来的)都框,一行一行框。(若汉字或字母被截断,只要可以辨认出,都框)2、不需要画框的情况•1)中英文之外的其他语言不框,日语中的日文汉字也不框。•2)带声调的拼音不框。•3)带声调的字母或单词不是英文,不需要框。•4)一行句子中,人眼无法辨认的文字或者字母不用画框,框出可辨认的部分。5)整张图片倒置或斜置,并且上面文字是旋转90度或倒的,可以不用框。四、转写要求1、一张图片内,有个别汉字、单词、字母、数字看不清,用ERR代替,其他看得清的正常转写。2、一行中有可辨认的部分,就画框,转写可辨认的文本,不可辨认的文字用ERR代替,有几个辨认不出的,就标几个ERR;如某行或某区域都无法辨认,忽略这部分,所以不画框。3、如果一行中,集中的某部分无法辨认,一行都框,或者只框可辨认的部分,两种标注方式均可。4、如果一行中有特殊的符号用ERR代替。5、标点要求1)、中文用中文标点,英文用英文标点,中英混合的用中文标点。英文标点规则:单词与单词之间空格,单词与标点之间不空格,标点与单词之间空格,例如:Hello,IamAmy.2)、I(mm)you.()前后如果有单词就括号前后加空格,括号里面是一个整体不需要空格。五、画框举例说明1.图片模糊,图中无法辨认,可以不标注,如下图:2、字体大小或位置有明显的差距,需要画在不同的框内;模棱两可的,两种标注方式都可以,如果间隔超过1.2个字符,则分开标注,如下图:3、键盘无法打出来的特殊符号不用框,不需要考虑特殊输入法能否打出符号。4、遮挡及截断部分不用框,如图,“电器设备制造有”被遮挡不需要框,“时”被截断不需要框,若遮挡或截断超过1/3则不需要框。5、艺术字体不需要凹凸抠图,直接拉矩形框5、文字出现重合需要标注,框的线可以重合,只要同一行字不出现多个框即可6、字体不同单独框六、转写举例说明1.对应转写为繁体字,不要转写为简体字(不会的可以百度查找)2、竖向文字拉竖框,但转写文字时需要转写为横向。3、属性问题1)如果文字上出现类似覆盖文字的线体,正常拉框,转写时需要加涂抹smear属性(线下工具添加自定义属性)2)如果单独几个文字上出现覆盖文字的,单独拉框,转写时需要加涂抹smear属性4、特殊符号转写,图中有特殊符号,所以用ERR代替,转写为:企业芝麻信用ERR:1365分3)如果文字下方出现线体,正常拉框,转写时不需要加涂抹smear属性6、横线在一行字的中间,两边文字分开框,中间的横线不予处理,前后如果有标点符号,标点符号单独框5、红圈中省略号键盘打出为……也是正确的8、乘号打不出X,就直接复制OCR识别出来的7、如果出现特殊的叹号、数字正常标注,转写为正常的符号和数字
本文标题:人工智能数据标注需求确认
链接地址:https://www.777doc.com/doc-5972644 .html