华语广源语音数据标注规范有视频教程

中文校对语音标注规范优化版

 

1、 登录平台使用说明

操作系统: 操作系统是 XP以上系统都可以。

浏览器:   请使用360浏览器IE浏览器搜狗浏览器

 

步骤:

(1)打开 文本,进行浏览器相关设置

(2) 登录网址:   http://182.48.116.149:8891

(3) 输入用户名及密码

登陆后,先安装控件,请点击vs2008运行库。(注意安全卫士先退出)

 

 

 

 (4) 点击“标注中”查看任务

     含新任务和被打回任务

(5) 在任务列表中,点击tagging,进入标注页面,下载安装控件进行标注

 

使用说明:

1) 做完一句,直接点击 “下一句 系统自动保存,做完最后一句,点击“保存”按钮。

2) 临时有事,或系统突然中断,重新登录后,系统将自动跳转到上次标注的位置

3) 当前账号标注完成后,可以点击“上一句“下一句,对标注结果进行检查,确认没有问题后,点击提交验收;注意:提交验收后将不能再更改。

4) 每人有一次修改机会,共可提交2次。

 (5) 在任务统计中,查看验收结果

 

快捷键:

键盘上的   ,可播放选中部分的声音。

键盘上的             可实现上一句和下一句的切换。

 

2、标注规范 ——3项(文本、无效、性别)

 

 注: 文本正确率:95%     其它(无效+性别)正确率:95%

 

注:一定不要多字、漏字!!

2.1性别

类别

分类

定义



性别



童声

童声指小孩非常稚嫩的声音,大概是在5岁以下的范围。大孩子的声音归到男女。


其他

没有人声,或者男女混声的统一规为其他

 

注:女生之间的对话性别是女,男生同理;只有男女相混的对话是其他

2.2判断是否为无效语音

无效:

1、主体人声音的前面、或后面、或中间:有一段安静或噪声等非人声 ,长度在2秒以上(宽条是0.3秒)。

【注意整句无人声的不是无效】

2、声音是转格式转错的。

无效语音,直接打勾,文本不用修改。

3.全英文的句子听不懂标无效

有效:其它都是有效

 

2.3修改文本

标注文本,目的是耳朵听到“普通话或带口音的普通话”标成普通话文本,严重听不懂“方言”,可标注#

2.3.1标注#的情况

(1)听不懂、听不清的词或方言标注#

(2)英语语句中,听懂的单词标注出来,听不懂的标注#

3)除英语外其他国语言#,发音如“萨瓦迪卡”,“阿尼哈塞呦”等必须标#

4)粤语标注#

5)噪音标注#

6)遇到拼音标注#,如“阿啵呲嘚”等拼音

7)整句无人声,只有噪音,不超过2S的标#,如一个人整句咳嗽声

 

注:

#可以代表一个字不清楚或者几个字不清楚;

一句话中可以出现最多两个#,但不能 同时  ##  这种形式出现;

最多可以 #文本# 这种形式出现;

2.3.2姓名问题

(1)姓:必须标注正确,确定是有这个姓

2)名字:名字可以打同音字

 

2.3.3地名问题

(1)省市等较大地名必须查清楚,不能出现错字:如浙江省无锡宜兴市

 

2)较小的地名,如村镇以及道路、小区等可标注同音字。

 

2.3.4数字问题

1)听到的阿拉伯数字写成汉字,如“一二三四五”或“幺二三四五”

 

2.3.5儿化音问题

(1)带儿话音的,可以写出“”字,并且加括号;或者直接不打儿化音,皆可
例如:我得了5分儿,文本要写成:我得了五分(儿)/我得了五分


注意:不是儿化的不用加,如女儿,婴儿等不是儿话,就不能加在“儿”字上加括号。

 

2.3.6语气词问题

(1)注意口语的字口语中,结结巴巴说出的,要写出对应接接巴巴声音的字。

 

(2)口语中,“嗯”、“哦”、“啊””等,要准确对应文本。例:声音“呀”,不能写成:“啊”

 

2.3.7英语相关问题

(1)单词:英语单词,整个单词要小写。如“happy

 

(2)字母:说字母的写成字母,要写成大写。如“A  B  C  ”。注意:QQ、MSN,是字母发音,要写成大写。

 

注:英文单词发的不标准,如能听出是哪个单词,就写单词。

整句都是英文句子的情况:

一句话中发音不清楚的单词,标#,发音清楚的单词必须写出单词

整句英文都听不清楚时,标为无效,不要整句标为#。

英文用中文谐音写出来的,算错。如:black 写成 布莱克 算错

一些地名,人名按英文读的,需要写英文,如:I am gonging to shanghai  不能写成“上海”

其他国语言,发音如“萨瓦迪卡”,“阿尼哈塞呦”等必须标#

 

 

2.3.8混音问题

混音包括3类:

1、当前电话通话的两个人同时说话,相混

2、当前人声与较亮或尖锐的音乐声(如铃声、汽车喇叭)相混

 

混音部分的标注方法:

1)如果非主体人插话不影响对主体人说话的理解,标注员可以听出主体人说话的字,则要求写字。(不要出现一个音对应两个字)

例如:非主体人插入的话,音量小、字数少,可忽略当成没听见。

 

2)如果非主体人插话,造成标注员已听不出主体人混音部分的字,则要求混音部分标#

 例如:非主体人插入的话,由于音量过大相混在一起,听不清主体的话,混的部分写#

 

3)如果音乐声相混,不影响对主体人说话的理解,标注员可以听出主体人说话的字,则要求写字。

如果音乐声相混,造成标注员已听不出主体人混音部分的字,则要求混音部分标#

3:增加#的情况

人声中出现突然间的大噪音且与人声不相混,包括铃声、叮声、咳嗽、扑话筒、有大的音乐背景等,写1个#。

人声前边或后面出现一片乱乱的小声说话、持续的背景噪音,写#和不写#都可以。

注意:安静的静音处,不能写#。

 

 

2.3.9 标注页面蓝条与黄条使用

 

蓝条和黄条的功能有3个

1尺子,表示0.3秒,可以用于量取2秒判断无效。

2选中功能。选中的是播放蓝条最左端到黄条最右端的声音。当语速特别快时,建议分段选中去听,写下文本,正确率会提高。

3确定#在哪儿出现。

 

 

 

标准普通话与带口音的普通话对照表:

类别

定义

特例

举例说明

无口音

拼音、声调都正确



轻口音

拼音对,声调不对

n和l不分;

n和ng不分;

z/c/s和zh/ch/sh不分

属于轻口音

那个,发音:la4 ge5(标准na4 ge5 )

电信,发音:dian4 xing4(标准dian4 xin4)

平时,发音:pin2 shi2(标准ping2 shi2)

政治,发音:zeng4 zi4(标准zheng4 zhi4)

刚才,发音:gang1 chai2(标准gang1 cai2)

重口音

拼音不对

(n和l不分;n和ng不分;z/c/s和zh/ch/sh不分)除外


湖南,发音是 fu2 nan2(标准hu2 nan2)

歌曲,发音是guo1 qu3(标准ge1 qu3)

 






推荐文章

标注网站使用方法  一、网站使用方法 1、 网址 http://tag.fanhantech.cn:8088/login  (请务必使用谷歌或火狐浏览器) 2、 每个团队需要将账号前缀申请为一致,必须为一致。申请后请将所有账号用户名写到同一个Excel发给我们。我们将开通做正式任务的权限。同时也将指定质检账户发给我们,我们也会开通对应任务的质检权限。 注册之后可以进入test001任务做测试,此测试任务只做测试使用。 3、 登录之后请点击对应的任务进入,单后点击“开始赚钱”进入正式任务界面。 4、 下图为任务界面的整体介绍。  二、标注小技巧 1. 标注时候不要随意删除音频截取框,因为一旦删除之后没法恢复,只能是调节其他的来补充。 2. 在最开始做任务的时候务必慢一些,务必对规则有详细全面的了解。 3. 如果有问题务必及时确认。 4. 同一条音频在接到之后务必在5个小时内一次性完成并提交。系统不支持缓存。五个小时内没有提交当前的音频会造成当前任务回收,最后提交失败。 5. 同一条音频在编写的时候可以边听边写,尽量不要听完再写。   音频标注规范  每个团队要对自身的数据质量做监控和质检,保证提交的数据达到质量要求。标注要求正确率为95%或以上。如提交的数据未达标,需优先返工问题数据。  一、标注员行为规范 标注员需要严格执行以下的标注员行为规范:1. 严禁向外传播标注语音,如出现标注语音泄漏的情况,我们将追究相关人员的责任;2. 杜绝一切不认真、不负责任的标注行为;3. 标注中出现的问题应及时反映;4. 所有标注人员需要与我们签订保密协议。 二、切割规则1)所有音频已经进行过预切割处理,但是需要对预切割的音频进行检查,如有必要需要进行微调或新增。2)每段音频中只能包含有一个说话人,但是同一个说话人的同一句话可以切割为连续的两段甚至多段音频。三、标注规则 符合以下情况的属于无效音频:1) 不包含有效的可懂语音(听不懂的方言、其它国家语言等)。2) 环境噪音较高(完全听不清音频中的内容或音频中的内容比较模糊)。3) 全部属于多人同时说话(多人在同一个内容区域中的对话或聊天)。4) 发音和语义都不确定的情况。5) 空音频,没有人在说话。无效音频不包含任何有效内容,不进行转写。 标注的基本原则是:文字与声音完全对应,不要试图修正发音过程中的语法错误,例如,“我走了”误读成了“我了走”,要按照实际发音书写。当发言人出现多个对象时,客服人员标注为A,用户标注为B,如果一方不只一个人,则标注为A1、A2、B1、B2...对象与发言内容之间以空格隔开,不加标点。1) 所有阿拉伯数字需要转写为对应语言的数字文字写法,如:一,四,其中,数字“1”根据实际发音写为“一”(音yi1)或者“幺”(音yao1);2) 所有读出来的标点符号都要直接用对应字或词在相应位置写出。例如“领导:”如果“:”被读出,则写成“领导冒号”;3) 句子断句不使用标点符号,除固定噪音类型外,不间隔。4) 因口音问题造成的误读,不需要修改。例如因为口音问题使得“四十”听起来像“事十”,则不需修改;5) 中文中出现英语单词按照单词习惯出现格式转写即可。例如:apple,Paris6) 非单词的英文(包括缩写及无意义的字母组合)用大写英文字母标注,字母间加空格:如M A R C、工号D S Z三九五八【文本中不允许出现全部由大写字母组成的单词。】7) 专有名词如是知名人士或地名机构按真实名称标注,普通人名或地名按常见文字标记。如果中文名和英文名的发音相近,请使用中文名称。例如,记录下阿里巴巴而不是Alibaba。 8) 发现听的比较清楚,但是语义不确定,但是发音可以确定,比如普通人名等,可以选择同音字代替,但需要保证标注读音正确,包括音调正确。9) 商标、品牌、注册名等都应以其原有、专有的格式出现,    例如: Hotmail dot com    而不是     hot mail dot com10) 儿化音、填充语气词需标出11) 当音频中出现两人同时说话时,重叠部分用*时间点*表示。例如:客服说的“你好上海”,“上海”是重叠部分,就标注A你好 *0:48.261 0:48.661*(重叠、方言都是按此方法标注)12) 当音频出现方言时,方言部分用**表示,并且加入时间段。当音频出现方言时,把方言的地方用**表示,当中标明时间点。(和听不清的要分开处理,听不清的不需要在其中加入时间点,参考下方标签表格)例如:客户问对方你会不会说潮州话之后出现一句方言,标注为:B你会不会说潮州话 *0:47.204 0:48.661*(重叠、方言都是按此方法标注)当方言属于接近普通话的发音,个别内容听不懂时,接近普通话的部分作为口音直接转写内容,听不懂的部分作为方言处理。方言是否能听懂都按照无效音频处理。13) 当电话未接通,出现语音提示如“您拨打的电话正在通话”时,对象标注为Y。 出现下表中的噪音情况时,将对应符号标在对应声音出现的位置,与前后单词之间有空格。  符号(标签)对照表:  序号噪音名符号噪音概念及标注规范1背景持续噪音<STA/>用于标注非预期的背景持续噪音,即噪音持续整个语句。使用时标在句首和后面文字之间有空格。非预期背景噪音指除了录音要求环境的噪音(餐厅背景音乐及他人说话,街道风声及路上会出现的各种固有噪音,地铁站台中人流声及地铁驶过声音及广播声等)2突发的非语音类噪音<NON/>突发的非语音类噪音,如关门声,敲击声,鸣笛声等等。使用时标在对应声音出现的位置,与前后单词之间有空格。如噪音发生在字的中央位置,则标注在此字之前。如在句首标注则之前不需要空格。3无实际意义的语气词(本人发言状态)<FIL/>发音人发出的无实际意义的语气词,如:嗯,哦,啊,呃等等。使用时标在对应声音出现的位置,与前后单词之间有空格。如在句首标注则之前不需要空格。4无实际意义的语气词(非本人发言状态)<RSP/>一方在发言时,另一方处于附和等目的,发出的无实际意义的语气词,如:嗯,哦,啊,呃等等。使用时标在对应声音出现的位置,与前后单词之间有空格。如在句首标注则之前不需要空格。5语音噪音<SPK/>发音人发出的语音噪音,如大喘气,咳嗽,笑,叹气,喷话筒等。使用时标在对应声音出现的位置,与前后单词之间有空格。如噪音发生在字的中央位置,则标注在此字之前。如在句首标注则之前不需要空格。 6非发音人发出的语音噪音<NPS/>非发音人发出的语音噪音,本次标注由于选择噪音环境中会出现其他人噪音,则只用来标注突发的、能清楚听到内容的他人语音。使用时标在对应声音出现的位置,与前后单词之间有空格。如噪音发生在字的中央位置,则标注在此字之前。如在句首标注则之前不需要空格。7听不清**无法听清或者不知道说的是什么的字或词。直接用此符号代替不知道是什么的单词或在听不清的地方用此符号代替。例,microsoft这个单词被读成microhaf,则用**代替文本中microsoft这个词。与前后单词之间有空格。如在句首标注则之前不需要空格。比如有人说“xi 星期一”是转写为‘** 星期一’。8无效W 无效标准请参照前文(以这个写法为准,请忽略系统中的无效标签) 9空白K 被截取的整段短音频为完全空白则标注为空白,不需要刻意将空白音频单独截取。 10系统语音提示X 所有系统语音提示,如“您拨打的电话正在通话”时。  

热门文章

滴滴语音标注规则要求及视频教程
一、标注环境1. 请使用谷歌浏览器进行标注。2.标注平台地址:http://label.xiaojukeji.com/labelerTaskList二、标注内容1. 语音有效性标注无效语音请在有效性一项选择“无效”,并在标注文本一项标注大写字母“NULL”。有效语音请在有效性一项选择“有效”。当语音出现下列任意一种情况,即可标注为无效语音:1) 说话人声音极小,小到几乎听不到。2) 整段语音均为静音。3) 整段语音均为噪声、音乐声、导航音、广播等。4) 整段语音只有一个字,或是同一个字重复出现。如:“嗯”、“对”、“对对对对”、“啊”、“喂”、“拜拜”、“谢谢”、“好好好”、“OKOK”等。(注意:“哇噻”属于特例,单独出现时也是无效的。)5) 背景噪声大于说话人声音,或噪声与说话人声音几乎一样大。6) 整句都是方言、外语。方言是指发音与普通话区别较大的地方话,如:粤语、上海话等。7) 语音中出现地点、地名、街道名等方位词,但是地图中搜索不到。8) 语音中有大于等于两个人说话,除主说话人以外,其余人的声音清晰可辨。9) 语音中有大于等于3个字听不清楚。 2. 语音文本标注1) 语音文本内容将说话内容写成文字。要求转写的文本内容必须和听到的语音完全一致,不能多字、少字。a) 除空格、占位符号、以外,标注文本不允许使用标点符号,不允许换行。b) 说话人犹豫、口吃导致出现重复的字也要标注出来,重复了几次就标记几个。如发音为:我是北北京人;“北”字有重复现象。转写文本应为:我是北北京人c) 儿化音不需要标注出“儿”字。如发音为:我在/zher4/。转写文本应为:我在这d) 语音中提及地名、街道名、车牌号等内容,转写时需符合日常习惯。选用“路”、“街道”、“门”、“座”、“桥”等地名常用字以及“京”、“津”、“冀”等车牌号常用字。e) 语音中提及地名、街道名、店铺名、专有名词,需要准确转写。可根据读音在地图中查找,确实存在该地点则进行准确标注,搜不到则无效;f) 语音中确实听不清楚的个别单字,用占位符号【~】标记。一组【~】符号代表一个字。在整段语音中,最多只能有两组【~】符号。若有三个字或更多听不清楚,则标注为无效。(见“语音有效性标注”第8条)g) 语音中不涉及地名、专名的部分,若发音清晰但文字不确定,可以用同音字标注,要求标注用字的声韵调与实际发音完全一致。如发音为:我姓/zhang1/。标注成“我姓张”或“我姓章”都算正确。h) 数字要写成汉字形式,注意区分“一”和“幺”、“二”和“两”,按实际读音写。i) 英文字母要转写成大写字母。j) 音频中说话人清楚说出的语气词,如“呃、啊、嗯、哦、唉、呐、呢”等,要按照正确发音进行转写。语气词除了“了、不”没有口字旁,其他基本上都有口字旁。注意:语气词“唉”、“诶”不分的,统一用“唉”。 3.语言情况标注1)语音中全部内容均为中文,请选择“中文”。2)只要语音中含有英文,不论是单个字母还是单词、不论出现的数量有多少,都需要选择“英文”并且字母全部大写。1、遇到英文单词和英文字母都需要用英文大写形式表现。例如:SORRY SORRY我现在在阜成路麻烦你掉个头2、单词与单词之间加空格 。例如:我把我的APPLE SEVEN PLUS落在了车上麻烦师傅还给我一下3、字母与字母之间加空格。例如:我下了好几回这个A P P了但是怎么安装都是失败的请问客服我该怎么办4、英文单词或者英文字母与汉字之间不需要空格。例如:我的车牌号的京A三六七八5、特殊字:对于OK这一类常用词,默认为一个单词,尽管是拼读成字母发音的。对于无从适配上述规则的及时与我们沟通 4. 说话人性别标注按说话人的音色实际情况进行标注。若无法明确区分男女,不论是成人还是儿童,都标注为“女”。三、标注常见问题总结1. 短句如何判断有效性?答:短句只要有大于或等于两个不重复的音节,即为有效。例如“嗯好的”、“明白”、“可以”等。 2. 有明显口音,但能听懂,需要标注吗?答:口音但不影响理解的,音频中个别几个字的方言可以使用同音字标注。听不清音节的方言也无法使用同音字标注的,可以使用【~】,大于或等于三个字需使用【~】符号的情况下。参照“语音有效性标注”第8条规则,标记为无效。 3. 标注时有的口音能听懂,是按听的音来标注还是按普通话来标注,标注需要符合现实逻辑吗?答:一般情况下口音按实际发音来标注。以下情况请特别处理:常用词语和专有名词需按现实逻辑标注(如:发音是“现/xian4/生”标为“先生”,“滴滴专/ce1/”标为“滴滴专车”等等) 5. 音频中一串数字如【12531】转写为一二五三一还是吆二五三吆?答:转写的文本要和语音实际读法完全一致。若读为yi1,则写一;读为yao1,则写幺。同理,“二”、“两”、“俩”;“三”、“仨”也需要区别使用。 6. 一段很短的音频中语速过快,有时候听起来像三个字又像两个,是不是都能判断合格?答:短音频且内容无法听清的情况下,标记为无效。长音频中很小的一部分,无法确定内容时,参照“语音文本内容”下f项、【~】符号使用规则进行。 7. 一段音频中语速过快,能听清某些音节但大多部分不能做出准确判断写不出是否可以判断无效?答:判断为无效 8. 一段音频中出现导航仪发出的声音或者只有导航仪的声音算噪音吗?答:整段只有导航音,标记为无效。只有一部分出现导航音的时候,看声音大小,如果与说话人音量接近或者大于说话人声音,标记为无效。 注意:如果一句话里面只说了几个字方言,其他都是带口音的普通话,不要直接标无效,那全方言的字按听到的音来标,比如:说的是上海话gege,就标成“葛个”,而不是标成“那个”。语气词无法转写的可以找同音字或相近音字转写;全方言无效 关于地点、地名、街道名等方位词,这些词我们需要使用地图搜索引擎搜索如果地点、地名、街道名等词语很长且词发音很清晰,但使用地图搜索引擎搜索不到这个地点。即使这句话其他部分可以完整的转写出来,但依旧视为无效。二、关于英文转写原规范为:英文字母要转写成大写字母。        细化:1、遇到英文单词和英文字母都需要用英文大写形式表现。例如:SORRY SORRY我现在在阜成路麻烦你掉个头2、单词与单词之间加空格 。例如:我把我的APPLE SEVEN PLUS落在了车上麻烦师傅还给我一下3、字母与字母之间加空格。例如:我下了好几回这个A P P了但是怎么安装都是失败的请问客服我该怎么办4、英文单词或者英文字母与汉字之间不需要空格。例如:我的车牌号的京A三六七八5、特殊字:对于 OK 这一类常用词,默认为一个单词,尽管是拼读成字母发音的。对于无从适配上述规则的,我们及时向海瑞提出。三、噪音符号这部分,这部分依旧不用添加。 四、关于标普、方普、方言如何转写    1、标普:就是普通话,我们是一定要转写的。    2、方普:就是方言普通话,例如广州人说普通话,上海人说普通话,天津人说普通话等等,这些是需要转写的。只是他们在说普通话的时候会有一些口音。例如发音说:我现在湖南(fu2声 lan2声)长沙市中心你来接我一下     他说的是“fu lan”我们正常书写成“湖南”即可。    3、方言:直接视为无效即可,例如:粤语、上海话、江苏话等等。