爱数智慧客服对话标注规则范本及要求



登陆网址babel.magicdatatech.com/processmore/index.php

用谷歌浏览器,鼠标拖动截取分段,内容右键,选择噪音符号

 

 

注意事项:

1最开始可能有用户说的口令,“爱数智慧采集”,如果说口令的时候有其他说话内容叠加,那么直接标注口令。

2不要断句太散,如果句子中有一个字听不懂的,请联系前后语境,推测出最可能的字,尽量整句标注

3如果数据本身有文字,那么文字之间的空格,不用删除,忽略。

4系统提示音,类似“欢迎致电中国移动”,应该根据规范在文本前面加¥,正确的标注格式是:“¥欢迎致电中国移动”,因为这部分是机器音,所以忽略说话人编号。客服和用户分别用1,2标注。

、开始标注语音文件

时间边界定位:

• 用鼠标选中波形,即为要标注的一段时间边界,此时会自动跳出对应的编辑框

 

如果需要左右调动时间边界,则用鼠标放置在时间边界上,出现左右箭头后,按住鼠标拖动时间线,进行左右调动。

图中的红蓝方框即为选中一段需要标注的时间边界。

• 听音,在整段电话语音的基础上,根据语义和停顿时间等因素,在音频信号中每一句话的句首和句尾分别添加时间边界。即,一段标注框内,即为一段标注的话。

• 不能有任何的说话人说话声、噪音没有被时间边界框住,即有声音的地方,都需要用时间边界框起来,然后标注相应的说话文本或符号,只有相对静音可以不做截取处理。

 

图示的地方,红框框住的地方有明显波形,有明显声音,却没有用时间边界框起来,这是不允许出现的错误。

文件标注:

• 

• 此处主要标注语音文件的一些全局信息,包括说话人性别信息和语种信息(方言区)。标注时请按照实际情况选择。

• 关于说话人的选择,客服标注奇数,用户标注偶数;

• 如果第三个人的情况:

点击+”号,即可添加。

• 编辑框内需要标注的是该句对应的文字[文本层,需要根据语意打中文标点(逗号,问号,句号,顿号,感叹号)],如果是汉语交谈,则只能用简体汉字。对于语音中的数字部分需根据发音情况转换为对应的汉字,例如27”→“二十七”;“我的电话是2381832→“我的电话是二三八幺八三二(与发音相同)”。

 

• 编辑框内正常语音的标注

• 如果此语段为某一个人的汉语对话语音,请在标注时间边界选择对应的1或者2编辑框内输入相应的文本。

• 如果此语段为两个人交叉语音,关于重叠(交叉)的语音,即对于某个人的一句话未完,另一个人的一句话已经开始的情况:请在波形上标注时间边界,编辑框内标注+(在编辑框内点击右键即可出现)

对于叠加,必须是真实的。不能大段的听不清语音和叠加混在一起。叠加段内的非叠加部分,前后最多不得超过1个字

• 在整个语音中,需根据说话人的变换来增加时间边界不同说话人分段标注

• 如果同一说话人说话时间较长,则应根据其语义来增加时间边界,每个时间段的长度最多不能超过8s,但断句也不要太散太短。根据标注经验,每个自然语言段平均在5-6秒左右即可。

• 单字或者两个字的叠加如:好,嗯,行,好的),声音较小,不影响主要说话人内容,那么可以不标叠加,直接写主要说话人的内容就行了。

 

 

• 英文:(英文都是小写)

单词】对于语音中简单的英文单词,在能听懂的情况下,直接标出即可。

例如:“网址是三wsinacom”;

“二三八幺八三二at qq点com”(不要写这个@)

“请以井号键结束”;(不要写这个#)

 

字母】每个字母中间用空格隔开。

例如:单词读音,g o o d则表示字母读音

例如:我的编号是f m s幺三二

• 语气词

除了其他的语气词都是带口字旁的汉字标注。如果发音是表示应答的“嗯”,统一都用“嗯”,不要用“恩”或者“厄”。比如哦,啊.

编辑框内噪音的标注

噪音是指非说话人的突发的声音,所有此类标注都是中括号与语音内容的组合,¥是放在句首,其他的噪音符号都需要单独截取标注

1   听不懂的字,标注[*]

• 听不清的长句

• 方言

• 大段的英文句子

• 拿着话筒和其他人说话             

 

              2    笑声:[LAUGH]

              3    由说话人发出的干扰浊音:[SONANT]

• 咳嗽声

• 

• 打喷嚏

• 清嗓子

              4    系统提示音,即系统播出的语音提示:系统自动播放的语音内容,而非说话人的语音内容(不用说话人)

例如:欢迎致电我公司现在由一号客服代表为您服务

 

  5 明显的静音段(大于500ms(一句话中没有超过0.5秒的不要断开,尽量完整完整,不要把已经完整的话段的太散!

 

6  各种垃圾声音(大于500ms[ENS]

           1  连续的拍桌子

           2)     连续的敲击声

        3)    持续的各种环境噪音  

 

 7  持续的音乐声:[MUSIC]

• 唱歌声(有歌词和旋律)

• 哼唱(没有歌词,但有旋律)

• 口哨声

• 可能是别人唱歌、演奏,也可能是背景的电视、收音机发出的音乐和歌声

• 口哨声

• 包括持续时间较长的彩铃声

  8   录音及电信系统引起的噪声:[SYSTEM]

包括电话按键音dtmf、电话忙音 beap、录音系统的其他噪音等,都是通信系统主动发出的声音,而不是摘机、挂机或干扰带来的咔啦或呲呲杂音。

一般会用的噪音符号:+[*][ENS][SONANT][LAUGH][MUSIC] [SYSTEM]

所有的噪音符号,在编辑框内右键即可出现哦

 

标注10分钟请点击一次临时保存,并刷新网页!

 

 

 

 

 

易错归纳:

1 爱数语音智慧采集,这个是用户说的,说话人是偶数;

2 “¥为保证通话质量有录音,尽情谅解”等的系统播报音,因为是机器音,所以不用管说话人(只要是系统播报音都不用管说话人,平台默认是说话人1

3 客服标注奇数,用户标注偶数系统提示音不用管,(1说话人标注反的很多;2 同一个客服,一会儿是1,一会儿又是3的问题);

4 过于短暂的截取(像这种处理方式:把16段和17段合并,然后标注“嗯”即可!);

 

5 听错的情况,多前后联系,根据语音标注,而不是标注同音字;

6 叠加:叠加的没有单独截取出来处理;

7 不同说话人截取在一起标注内容的错误;

8 规范里面颜色特别说明的标点符号,没有标注(标点符号基本没有看到有人标注的);

9 数据没有标注完毕提交上来了;

10A文字中可以加适当的标点符号,句尾不需要加标点符号。

10 B标注的数据,A质检,验收发现,质检只是过了一个形式,没有实际作用,没有质量把关;

11 返修的数据都有反馈意见,请全部检查修改!

12 此项目含有标注信息,请在此基础上修改。

 

问题

1:在客服与客户音频中,爱数智慧语音采集这句口令,如果出现在句首那么录音人应该标注1 还是 2

客服标1客户标2

 

问题2:爱数智慧语音采集这句口令如果与别的语音叠加了,怎么办?

直接标:爱数智慧语音采集

 

问题3:接近直线或者接近静音的噪音要不要标注?

不需要

 

问题4:叠加是否需要单独操作???

如果:客服说, 你好有什么需要帮助。客户说了一句,你好,这个你好与客服的帮助叠加了,声音大小差不多,具体应该怎么办?

单独截取,标+

 

问题5:系统的智能语音怎么标注,请详细说明?

句首标把系统音转写成文字

 

问题6:客服应该标注录音人几,客户标注录音人几,系统声音标注几。

客服1客户标2,系统音标1

问题7:如果客服说 爱数智慧,后面是5秒的系统声音,第六秒客户说语音采集正好与第六秒的系统声音叠加,应该怎么处理?

先转写客服说的爱数智慧,再把系统音截取出来前面加把文字转写出来,叠加单独截取出来标语音采集,如果是其它内容叠加标+





推荐文章

华语广源语音数据标注规范有视频教程
中文校对语音标注规范优化版 1、 登录平台使用说明操作系统: 操作系统是 XP以上系统都可以。浏览器:   请使用360浏览器IE浏览器、搜狗浏览器 步骤:(1)打开 文本,进行浏览器相关设置(2) 登录网址:   http://182.48.116.149:8891(3) 输入用户名及密码登陆后,先安装控件,请点击vs2008运行库。(注意安全卫士先退出)    (4) 点击“标注中”查看任务     含新任务和被打回任务(5) 在任务列表中,点击tagging,进入标注页面,下载安装控件进行标注 使用说明:1) 做完一句,直接点击 “下一句”, 系统自动保存,做完最后一句,点击“保存”按钮。2) 临时有事,或系统突然中断,重新登录后,系统将自动跳转到上次标注的位置;3) 当前账号标注完成后,可以点击“上一句”和“下一句”,对标注结果进行检查,确认没有问题后,点击提交验收;注意:提交验收后将不能再更改。4) 每人有一次修改机会,共可提交2次。 (5) 在任务统计中,查看验收结果 快捷键:键盘上的   ,可播放选中部分的声音。键盘上的      和       可实现上一句和下一句的切换。 2、标注规范 ——共3项(文本、无效、性别)  注: 文本正确率:95%     其它(无效+性别)正确率:95% 注:一定不要多字、漏字!!2.1性别类别分类定义男性别女童声童声指小孩非常稚嫩的声音,大概是在5岁以下的范围。大孩子的声音归到男女。其他没有人声,或者男女混声的统一规为其他 注:女生之间的对话性别是女,男生同理;只有男女相混的对话是其他2.2判断是否为无效语音无效:1、主体人声音的前面、或后面、或中间:有一段安静或噪声等非人声 ,长度在2秒以上(宽条是0.3秒)。【注意整句无人声的不是无效】2、声音是转格式转错的。无效语音,直接打勾,文本不用修改。3.全英文的句子听不懂标无效有效:其它都是有效 2.3修改文本标注文本,目的是把耳朵听到的“普通话或带口音的普通话”标成普通话文本,严重听不懂的“方言”,可标注#2.3.1标注#的情况(1)听不懂、听不清的词或方言标注#(2)英语语句中,听懂的单词标注出来,听不懂的标注#(3)除英语外其他国语言标#,发音如“萨瓦迪卡”,“阿尼哈塞呦”等必须标#(4)粤语标注#(5)噪音标注#(6)遇到拼音标注#,如“阿啵呲嘚”等拼音(7)整句无人声,只有噪音,不超过2S的标#,如一个人整句咳嗽声 注:#可以代表一个字不清楚或者几个字不清楚;一句话中可以出现最多两个#,但不能 同时  ##  这种形式出现;最多可以 #文本# 这种形式出现;2.3.2姓名问题(1)姓:必须标注正确,确定是有这个姓(2)名字:名字可以打同音字 2.3.3地名问题(1)省市等较大地名必须查清楚,不能出现错字:如浙江省无锡宜兴市 (2)较小的地名,如村镇以及道路、小区等可标注同音字。 2.3.4数字问题(1)听到的阿拉伯数字写成汉字,如“一二三四五”或“幺二三四五” 2.3.5儿化音问题(1)带儿话音的,可以写出“(儿)”字,并且加括号;或者直接不打儿化音,皆可。例如:我得了5分儿,文本要写成:我得了五分(儿)/我得了五分注意:不是儿化的不用加,如女儿,婴儿等不是儿话,就不能加在“儿”字上加括号。 2.3.6语气词问题(1)注意口语的字:口语中,结结巴巴说出的,要写出对应接接巴巴声音的字。 (2)口语中,“嗯”、“哦”、“啊””等,要准确对应文本。例:声音“呀”,不能写成:“啊” 2.3.7英语相关问题(1)单词:英语单词,整个单词要小写。如“happy” (2)字母:说字母的写成字母,要写成大写。如“A  B  C  ”。注意:QQ、MSN,是字母发音,要写成大写。 注:英文单词发的不标准,如能听出是哪个单词,就写单词。整句都是英文句子的情况:l 一句话中发音不清楚的单词,标#,发音清楚的单词必须写出单词l 整句英文都听不清楚时,标为无效,不要整句标为#。l 英文用中文谐音写出来的,算错。如:black 写成 布莱克 算错l 一些地名,人名按英文读的,需要写英文,如:I am gonging to shanghai  不能写成“上海”l 其他国语言,发音如“萨瓦迪卡”,“阿尼哈塞呦”等必须标#   2.3.8混音问题混音包括3类:1、当前电话通话的两个人同时说话,相混2、当前人声与较亮或尖锐的音乐声(如铃声、汽车喇叭)相混 混音部分的标注方法:(1)如果非主体人插话不影响对主体人说话的理解,标注员可以听出主体人说话的字,则要求写字。(不要出现一个音对应两个字)例如:非主体人插入的话,音量小、字数少,可忽略当成没听见。 (2)如果非主体人插话,造成标注员已听不出主体人混音部分的字,则要求混音部分标#。 例如:非主体人插入的话,由于音量过大相混在一起,听不清主体的话,混的部分写#。 (3)如果音乐声相混,不影响对主体人说话的理解,标注员可以听出主体人说话的字,则要求写字。如果音乐声相混,造成标注员已听不出主体人混音部分的字,则要求混音部分标#。3:增加#的情况l 人声中出现突然间的大噪音且与人声不相混,包括铃声、叮声、咳嗽、扑话筒、有大的音乐背景等,写1个#。l 人声前边或后面出现一片乱乱的小声说话、持续的背景噪音,写#和不写#都可以。注意:安静的静音处,不能写#。  2.3.9 标注页面蓝条与黄条使用 蓝条和黄条的功能有3个:(1)尺子,表示0.3秒,可以用于量取2秒判断无效。(2)选中功能。选中的是播放蓝条最左端到黄条最右端的声音。当语速特别快时,建议分段选中去听,写下文本,正确率会提高。(3)确定#在哪儿出现。   标准普通话与带口音的普通话对照表:类别定义特例举例说明无口音拼音、声调都正确轻口音拼音对,声调不对n和l不分;n和ng不分;z/c/s和zh/ch/sh不分属于轻口音那个,发音:la4 ge5(标准na4 ge5 )电信,发音:dian4 xing4(标准dian4 xin4)平时,发音:pin2 shi2(标准ping2 shi2)政治,发音:zeng4 zi4(标准zheng4 zhi4)刚才,发音:gang1 chai2(标准gang1 cai2)重口音拼音不对(n和l不分;n和ng不分;z/c/s和zh/ch/sh不分)除外湖南,发音是 fu2 nan2(标准hu2 nan2)歌曲,发音是guo1 qu3(标准ge1 qu3) 

热门文章

滴滴语音标注规则要求及视频教程
一、标注环境1. 请使用谷歌浏览器进行标注。2.标注平台地址:http://label.xiaojukeji.com/labelerTaskList二、标注内容1. 语音有效性标注无效语音请在有效性一项选择“无效”,并在标注文本一项标注大写字母“NULL”。有效语音请在有效性一项选择“有效”。当语音出现下列任意一种情况,即可标注为无效语音:1) 说话人声音极小,小到几乎听不到。2) 整段语音均为静音。3) 整段语音均为噪声、音乐声、导航音、广播等。4) 整段语音只有一个字,或是同一个字重复出现。如:“嗯”、“对”、“对对对对”、“啊”、“喂”、“拜拜”、“谢谢”、“好好好”、“OKOK”等。(注意:“哇噻”属于特例,单独出现时也是无效的。)5) 背景噪声大于说话人声音,或噪声与说话人声音几乎一样大。6) 整句都是方言、外语。方言是指发音与普通话区别较大的地方话,如:粤语、上海话等。7) 语音中出现地点、地名、街道名等方位词,但是地图中搜索不到。8) 语音中有大于等于两个人说话,除主说话人以外,其余人的声音清晰可辨。9) 语音中有大于等于3个字听不清楚。 2. 语音文本标注1) 语音文本内容将说话内容写成文字。要求转写的文本内容必须和听到的语音完全一致,不能多字、少字。a) 除空格、占位符号、以外,标注文本不允许使用标点符号,不允许换行。b) 说话人犹豫、口吃导致出现重复的字也要标注出来,重复了几次就标记几个。如发音为:我是北北京人;“北”字有重复现象。转写文本应为:我是北北京人c) 儿化音不需要标注出“儿”字。如发音为:我在/zher4/。转写文本应为:我在这d) 语音中提及地名、街道名、车牌号等内容,转写时需符合日常习惯。选用“路”、“街道”、“门”、“座”、“桥”等地名常用字以及“京”、“津”、“冀”等车牌号常用字。e) 语音中提及地名、街道名、店铺名、专有名词,需要准确转写。可根据读音在地图中查找,确实存在该地点则进行准确标注,搜不到则无效;f) 语音中确实听不清楚的个别单字,用占位符号【~】标记。一组【~】符号代表一个字。在整段语音中,最多只能有两组【~】符号。若有三个字或更多听不清楚,则标注为无效。(见“语音有效性标注”第8条)g) 语音中不涉及地名、专名的部分,若发音清晰但文字不确定,可以用同音字标注,要求标注用字的声韵调与实际发音完全一致。如发音为:我姓/zhang1/。标注成“我姓张”或“我姓章”都算正确。h) 数字要写成汉字形式,注意区分“一”和“幺”、“二”和“两”,按实际读音写。i) 英文字母要转写成大写字母。j) 音频中说话人清楚说出的语气词,如“呃、啊、嗯、哦、唉、呐、呢”等,要按照正确发音进行转写。语气词除了“了、不”没有口字旁,其他基本上都有口字旁。注意:语气词“唉”、“诶”不分的,统一用“唉”。 3.语言情况标注1)语音中全部内容均为中文,请选择“中文”。2)只要语音中含有英文,不论是单个字母还是单词、不论出现的数量有多少,都需要选择“英文”并且字母全部大写。1、遇到英文单词和英文字母都需要用英文大写形式表现。例如:SORRY SORRY我现在在阜成路麻烦你掉个头2、单词与单词之间加空格 。例如:我把我的APPLE SEVEN PLUS落在了车上麻烦师傅还给我一下3、字母与字母之间加空格。例如:我下了好几回这个A P P了但是怎么安装都是失败的请问客服我该怎么办4、英文单词或者英文字母与汉字之间不需要空格。例如:我的车牌号的京A三六七八5、特殊字:对于OK这一类常用词,默认为一个单词,尽管是拼读成字母发音的。对于无从适配上述规则的及时与我们沟通 4. 说话人性别标注按说话人的音色实际情况进行标注。若无法明确区分男女,不论是成人还是儿童,都标注为“女”。三、标注常见问题总结1. 短句如何判断有效性?答:短句只要有大于或等于两个不重复的音节,即为有效。例如“嗯好的”、“明白”、“可以”等。 2. 有明显口音,但能听懂,需要标注吗?答:口音但不影响理解的,音频中个别几个字的方言可以使用同音字标注。听不清音节的方言也无法使用同音字标注的,可以使用【~】,大于或等于三个字需使用【~】符号的情况下。参照“语音有效性标注”第8条规则,标记为无效。 3. 标注时有的口音能听懂,是按听的音来标注还是按普通话来标注,标注需要符合现实逻辑吗?答:一般情况下口音按实际发音来标注。以下情况请特别处理:常用词语和专有名词需按现实逻辑标注(如:发音是“现/xian4/生”标为“先生”,“滴滴专/ce1/”标为“滴滴专车”等等) 5. 音频中一串数字如【12531】转写为一二五三一还是吆二五三吆?答:转写的文本要和语音实际读法完全一致。若读为yi1,则写一;读为yao1,则写幺。同理,“二”、“两”、“俩”;“三”、“仨”也需要区别使用。 6. 一段很短的音频中语速过快,有时候听起来像三个字又像两个,是不是都能判断合格?答:短音频且内容无法听清的情况下,标记为无效。长音频中很小的一部分,无法确定内容时,参照“语音文本内容”下f项、【~】符号使用规则进行。 7. 一段音频中语速过快,能听清某些音节但大多部分不能做出准确判断写不出是否可以判断无效?答:判断为无效 8. 一段音频中出现导航仪发出的声音或者只有导航仪的声音算噪音吗?答:整段只有导航音,标记为无效。只有一部分出现导航音的时候,看声音大小,如果与说话人音量接近或者大于说话人声音,标记为无效。 注意:如果一句话里面只说了几个字方言,其他都是带口音的普通话,不要直接标无效,那全方言的字按听到的音来标,比如:说的是上海话gege,就标成“葛个”,而不是标成“那个”。语气词无法转写的可以找同音字或相近音字转写;全方言无效 关于地点、地名、街道名等方位词,这些词我们需要使用地图搜索引擎搜索如果地点、地名、街道名等词语很长且词发音很清晰,但使用地图搜索引擎搜索不到这个地点。即使这句话其他部分可以完整的转写出来,但依旧视为无效。二、关于英文转写原规范为:英文字母要转写成大写字母。        细化:1、遇到英文单词和英文字母都需要用英文大写形式表现。例如:SORRY SORRY我现在在阜成路麻烦你掉个头2、单词与单词之间加空格 。例如:我把我的APPLE SEVEN PLUS落在了车上麻烦师傅还给我一下3、字母与字母之间加空格。例如:我下了好几回这个A P P了但是怎么安装都是失败的请问客服我该怎么办4、英文单词或者英文字母与汉字之间不需要空格。例如:我的车牌号的京A三六七八5、特殊字:对于 OK 这一类常用词,默认为一个单词,尽管是拼读成字母发音的。对于无从适配上述规则的,我们及时向海瑞提出。三、噪音符号这部分,这部分依旧不用添加。 四、关于标普、方普、方言如何转写    1、标普:就是普通话,我们是一定要转写的。    2、方普:就是方言普通话,例如广州人说普通话,上海人说普通话,天津人说普通话等等,这些是需要转写的。只是他们在说普通话的时候会有一些口音。例如发音说:我现在湖南(fu2声 lan2声)长沙市中心你来接我一下     他说的是“fu lan”我们正常书写成“湖南”即可。    3、方言:直接视为无效即可,例如:粤语、上海话、江苏话等等。