标注网站使用方法
一、网站使用方法
1、 网址 http://tag.fanhantech.cn:8088/login (请务必使用谷歌或火狐浏览器)
2、 每个团队需要将账号前缀申请为一致,必须为一致。
申请后请将所有账号用户名写到同一个Excel发给我们。我们将开通做正式任务的权限。
同时也将指定质检账户发给我们,我们也会开通对应任务的质检权限。
注册之后可以进入test001任务做测试,此测试任务只做测试使用。
3、 登录之后请点击对应的任务进入,单后点击“开始赚钱”进入正式任务界面。
4、 下图为任务界面的整体介绍。
二、标注小技巧
1. 标注时候不要随意删除音频截取框,因为一旦删除之后没法恢复,只能是调节其他的来补充。
2. 在最开始做任务的时候务必慢一些,务必对规则有详细全面的了解。
3. 如果有问题务必及时确认。
4. 同一条音频在接到之后务必在5个小时内一次性完成并提交。系统不支持缓存。
五个小时内没有提交当前的音频会造成当前任务回收,最后提交失败。
5. 同一条音频在编写的时候可以边听边写,尽量不要听完再写。
音频标注规范
每个团队要对自身的数据质量做监控和质检,保证提交的数据达到质量要求。
标注要求正确率为95%或以上。如提交的数据未达标,需优先返工问题数据。
标注员需要严格执行以下的标注员行为规范:
1. 严禁向外传播标注语音,如出现标注语音泄漏的情况,我们将追究相关人员的责任;
2. 杜绝一切不认真、不负责任的标注行为;
3. 标注中出现的问题应及时反映;
4. 所有标注人员需要与我们签订保密协议。
二、切割规则
1)所有音频已经进行过预切割处理,但是需要对预切割的音频进行检查,如有必要需要进行微调或新增。
2)每段音频中只能包含有一个说话人,但是同一个说话人的同一句话可以切割为连续的两段甚至多段音频。
符合以下情况的属于无效音频:
1) 不包含有效的可懂语音(听不懂的方言、其它国家语言等)。
2) 环境噪音较高(完全听不清音频中的内容或音频中的内容比较模糊)。
3) 全部属于多人同时说话(多人在同一个内容区域中的对话或聊天)。
4) 发音和语义都不确定的情况。
5) 空音频,没有人在说话。
无效音频不包含任何有效内容,不进行转写。
标注的基本原则是:文字与声音完全对应,不要试图修正发音过程中的语法错误,例如,“我走了”误读成了“我了走”,要按照实际发音书写。
当发言人出现多个对象时,客服人员标注为A,用户标注为B,如果一方不只一个人,则标注为A1、A2、B1、B2...对象与发言内容之间以空格隔开,不加标点。
1) 所有阿拉伯数字需要转写为对应语言的数字文字写法,如:一,四,其中,数字“1”根据实际发音写为“一”(音yi1)或者“幺”(音yao1);
2) 所有读出来的标点符号都要直接用对应字或词在相应位置写出。例如“领导:”如果“:”被读出,则写成“领导冒号”;
3) 句子断句不使用标点符号,除固定噪音类型外,不间隔。
4) 因口音问题造成的误读,不需要修改。例如因为口音问题使得“四十”听起来像“事十”,则不需修改;
5) 中文中出现英语单词按照单词习惯出现格式转写即可。例如:apple,Paris
6) 非单词的英文(包括缩写及无意义的字母组合)用大写英文字母标注,字母间加空格:如M A R C、工号D S Z三九五八【文本中不允许出现全部由大写字母组成的单词。】
7) 专有名词如是知名人士或地名机构按真实名称标注,普通人名或地名按常见文字标记。如果中文名和英文名的发音相近,请使用中文名称。例如,记录下阿里巴巴而不是Alibaba。
8) 发现听的比较清楚,但是语义不确定,但是发音可以确定,比如普通人名等,可以选择同音字代替,但需要保证标注读音正确,包括音调正确。
9) 商标、品牌、注册名等都应以其原有、专有的格式出现,
例如: Hotmail dot com 而不是 hot mail dot com
10) 儿化音、填充语气词需标出
11) 当音频中出现两人同时说话时,重叠部分用*时间点*表示。
例如:客服说的“你好上海”,“上海”是重叠部分,就标注
A你好 *0:48.261 0:48.661*(重叠、方言都是按此方法标注)
12) 当音频出现方言时,方言部分用**表示,并且加入时间段。当音频出现方言时,把方言的地方用**表示,当中标明时间点。(和听不清的要分开处理,听不清的不需要在其中加入时间点,参考下方标签表格)
例如:客户问对方你会不会说潮州话之后出现一句方言,标注为:B你会不会说潮州话 *0:47.204 0:48.661*(重叠、方言都是按此方法标注)
当方言属于接近普通话的发音,个别内容听不懂时,接近普通话的部分作为口音直接转写内容,听不懂的部分作为方言处理。
方言是否能听懂都按照无效音频处理。
13) 当电话未接通,出现语音提示如“您拨打的电话正在通话”时,对象标注为Y。
出现下表中的噪音情况时,将对应符号标在对应声音出现的位置,与前后单词之间有空格。
符号(标签)对照表:
序号 | 噪音名 | 符号 | 噪音概念及标注规范 |
1 | 背景持续噪音 | <STA/> | 用于标注非预期的背景持续噪音,即噪音持续整个语句。 使用时标在句首和后面文字之间有空格。 非预期背景噪音指除了录音要求环境的噪音(餐厅背景音乐及他人说话,街道风声及路上会出现的各种固有噪音,地铁站台中人流声及地铁驶过声音及广播声等) |
2 | 突发的非语音类噪音 | <NON/> | 突发的非语音类噪音,如关门声,敲击声,鸣笛声等等。 使用时标在对应声音出现的位置,与前后单词之间有空格。 如噪音发生在字的中央位置,则标注在此字之前。 如在句首标注则之前不需要空格。 |
3 | 无实际意义的语气词(本人发言状态) | <FIL/> | 发音人发出的无实际意义的语气词,如:嗯,哦,啊,呃等等。 使用时标在对应声音出现的位置,与前后单词之间有空格。 如在句首标注则之前不需要空格。 |
4 | 无实际意义的语气词(非本人发言状态) | <RSP/> | 一方在发言时,另一方处于附和等目的,发出的无实际意义的语气词,如:嗯,哦,啊,呃等等。 使用时标在对应声音出现的位置,与前后单词之间有空格。 如在句首标注则之前不需要空格。 |
5 | 语音噪音 | <SPK/> | 发音人发出的语音噪音,如大喘气,咳嗽,笑,叹气,喷话筒等。 使用时标在对应声音出现的位置,与前后单词之间有空格。 如噪音发生在字的中央位置,则标注在此字之前。 如在句首标注则之前不需要空格。 |
6 | 非发音人发出的语音噪音 | <NPS/> | 非发音人发出的语音噪音,本次标注由于选择噪音环境中会出现其他人噪音,则只用来标注突发的、能清楚听到内容的他人语音。使用时标在对应声音出现的位置,与前后单词之间有空格。如噪音发生在字的中央位置,则标注在此字之前。如在句首标注则之前不需要空格。 |
7 | 听不清 | ** | 无法听清或者不知道说的是什么的字或词。直接用此符号代替不知道是什么的单词或在听不清的地方用此符号代替。例,microsoft这个单词被读成microhaf,则用**代替文本中microsoft这个词。与前后单词之间有空格。如在句首标注则之前不需要空格。比如有人说“xi 星期一”是转写为‘** 星期一’。 |
8 | 无效 | W |
无效标准请参照前文(以这个写法为准,请忽略系统中的无效标签)
|
9 | 空白 | K |
被截取的整段短音频为完全空白则标注为空白,不需要刻意将空白音频单独截取。
|
10 | 系统语音提示 | X |
所有系统语音提示,如“您拨打的电话正在通话”时。
|