海天瑞声Short8-标注规范及标准-线上

标注规范及标准

一.简单介绍

针对给定的语音片段,人工判断其是否为有效语音,对于有效语音,给出其中语音的起止时间段、标准的文本标注以及语音本身的相关属性,对于无效语音直接抛弃。

 

二.操作步骤及方法

1. 首先登录网址:http://123.56.137.109:1800/,用给定的账号和密码登录;

2. 登录进去之后,选择申请任务,在项目名称下面选择艾芮特团队”的任务,然后同意保密协议,就进入工作页面开始工作;

3. 工作界面如下:

 

 

4.操作顺序分为五步:

① 首先判断声音的有效性,如果有效的话,再继续进行下面步骤;

如果声音无效,选择无效(选中“无效声音”后,自动下一句)。

② 在上图1所示波形中,通过鼠标拖拽的方式,标记出有效声音的起止时间点(切着音频切);对有效声音进行“性别,口音,底噪(红线内否有连续噪音)、儿童音”四种属性的标记;

③ 两条红色竖线内的音频即为需要转写的音频段(有效音频),转写内容写到下面文本框内,句中可以有标点,句尾必须有标点

④ 文本确认OK后,红线内需要加标签的地方加标签;

⑤ 标记完毕后,点击“保存继续下一句”

⑥ 点击1 of 150 处的箭头的话,本句的标注结果是不保存的,只是浏览

⑦ 做到每个任务包第150句点击保存,波形图的右上方会显示“提交”按钮,点击即可提交任务,手里的任务不提交无法申请新的任务,一个任务24小时后会被回收请按照提交。

三. 文本标注规范

不能丢字漏字,不能写错别字,有口音的不改字,语气词不能省略并且不能出现错别字。

 

a) 录音转写的第一要求

忠实地按照音频录音念什么就转写成什么的原则,如真实发音为“我们去哪哪里啊”,“哪”字有重复,就要忠实地录成“我们去哪哪里啊。”。

a) 口音问题

由于口音或个人习惯导致的音变,按普通话标注音录入。多音字或者生活中有不同发音的字,也按照普通话标注音录入。例如,“办公室”的“室”,有人说成“shi3,有人说成“shi4”,都要录成“办公室”

b) 数字

数字符号应完全按照其读音转写成对应的汉字,例如:5256->五千二百五十六2004->二零零四两千零四19%->百分之十九等。其中1”转“一”或者“幺”,根据真实发音录入。

c) 英文单词或作为单词发音的缩写词

对于英文单词,或者作为单词发音的缩写词,如果其发音是按照一个单词来发音的,请直接转写,注意字母间要加空格

例如,hello”、“G D P”等。

Eg您的Q Q邮箱是多少?遇到说网址的@要写@

d) 标点符号

只采用 ‘!’ 。句尾需要加标点。

等标点应去除。

e) 专有名词

所有的专有名词,包括人名、地名等,详细规范说明如下:

§ 人名

对于熟知的知名人士的名字或地名,必须用该知名人士的名字来转录。

例如,“郭德纲的相声很不错”,就不能转录成“郭德刚”。

“阿里巴巴邀请白举纲参加来往活动”,不能是“白句刚”。

而对于泛泛的名字,则都要用最常见的文字来标记。

例如,用“王小明”,不用“王晓明”,更不能用“王潇铭”(这个太偏僻了)。

§ 中国的地名

与人名的转录规则类似。

§ 机构名称

与人名的转录规则类似。

f) 儿化音

需要把“儿”这个字标注出来

例如,“这个小孩儿”(当此语音的儿化音很明显的时候)。

g) 填充语气词

填充语气词是指示说话者说话中的犹豫,或者说话者在思考下面该说什么时,用来保持发音连贯所使用的词,例如‘嗯’等。语气词应该基本带有口字旁。

ei诶,唉;    ai

 

四.标签(都是标红线内的部分)

[noi]:红线内的突发噪音

[sil]:大于1秒的停顿,包括安静和嘈杂

[~]:听不懂的个别字词和重叠音,加在句子中间听不懂的位置

切音的时候能写出来的可以直接写出来。多人说话,不影响主音人说话,按照第一个人的属性设置。

 

注意:



规范说明

1.时间点不用预留,切着语音写截取就行

2.标签只标红线内的

3.句尾必须有标点

4. 标签(红线内的内容)

5. 遵守一个原则,写出来的语句就是保准正确的

6. 只有1-3个字,不成词语也不成句子的无效,整段都是“喂喂喂喂”的也无效

 

 

 


热门文章

滴滴语音标注规则要求及视频教程
一、标注环境1. 请使用谷歌浏览器进行标注。2.标注平台地址:http://label.xiaojukeji.com/labelerTaskList二、标注内容1. 语音有效性标注无效语音请在有效性一项选择“无效”,并在标注文本一项标注大写字母“NULL”。有效语音请在有效性一项选择“有效”。当语音出现下列任意一种情况,即可标注为无效语音:1) 说话人声音极小,小到几乎听不到。2) 整段语音均为静音。3) 整段语音均为噪声、音乐声、导航音、广播等。4) 整段语音只有一个字,或是同一个字重复出现。如:“嗯”、“对”、“对对对对”、“啊”、“喂”、“拜拜”、“谢谢”、“好好好”、“OKOK”等。(注意:“哇噻”属于特例,单独出现时也是无效的。)5) 背景噪声大于说话人声音,或噪声与说话人声音几乎一样大。6) 整句都是方言、外语。方言是指发音与普通话区别较大的地方话,如:粤语、上海话等。7) 语音中出现地点、地名、街道名等方位词,但是地图中搜索不到。8) 语音中有大于等于两个人说话,除主说话人以外,其余人的声音清晰可辨。9) 语音中有大于等于3个字听不清楚。 2. 语音文本标注1) 语音文本内容将说话内容写成文字。要求转写的文本内容必须和听到的语音完全一致,不能多字、少字。a) 除空格、占位符号、以外,标注文本不允许使用标点符号,不允许换行。b) 说话人犹豫、口吃导致出现重复的字也要标注出来,重复了几次就标记几个。如发音为:我是北北京人;“北”字有重复现象。转写文本应为:我是北北京人c) 儿化音不需要标注出“儿”字。如发音为:我在/zher4/。转写文本应为:我在这d) 语音中提及地名、街道名、车牌号等内容,转写时需符合日常习惯。选用“路”、“街道”、“门”、“座”、“桥”等地名常用字以及“京”、“津”、“冀”等车牌号常用字。e) 语音中提及地名、街道名、店铺名、专有名词,需要准确转写。可根据读音在地图中查找,确实存在该地点则进行准确标注,搜不到则无效;f) 语音中确实听不清楚的个别单字,用占位符号【~】标记。一组【~】符号代表一个字。在整段语音中,最多只能有两组【~】符号。若有三个字或更多听不清楚,则标注为无效。(见“语音有效性标注”第8条)g) 语音中不涉及地名、专名的部分,若发音清晰但文字不确定,可以用同音字标注,要求标注用字的声韵调与实际发音完全一致。如发音为:我姓/zhang1/。标注成“我姓张”或“我姓章”都算正确。h) 数字要写成汉字形式,注意区分“一”和“幺”、“二”和“两”,按实际读音写。i) 英文字母要转写成大写字母。j) 音频中说话人清楚说出的语气词,如“呃、啊、嗯、哦、唉、呐、呢”等,要按照正确发音进行转写。语气词除了“了、不”没有口字旁,其他基本上都有口字旁。注意:语气词“唉”、“诶”不分的,统一用“唉”。 3.语言情况标注1)语音中全部内容均为中文,请选择“中文”。2)只要语音中含有英文,不论是单个字母还是单词、不论出现的数量有多少,都需要选择“英文”并且字母全部大写。1、遇到英文单词和英文字母都需要用英文大写形式表现。例如:SORRY SORRY我现在在阜成路麻烦你掉个头2、单词与单词之间加空格 。例如:我把我的APPLE SEVEN PLUS落在了车上麻烦师傅还给我一下3、字母与字母之间加空格。例如:我下了好几回这个A P P了但是怎么安装都是失败的请问客服我该怎么办4、英文单词或者英文字母与汉字之间不需要空格。例如:我的车牌号的京A三六七八5、特殊字:对于OK这一类常用词,默认为一个单词,尽管是拼读成字母发音的。对于无从适配上述规则的及时与我们沟通 4. 说话人性别标注按说话人的音色实际情况进行标注。若无法明确区分男女,不论是成人还是儿童,都标注为“女”。三、标注常见问题总结1. 短句如何判断有效性?答:短句只要有大于或等于两个不重复的音节,即为有效。例如“嗯好的”、“明白”、“可以”等。 2. 有明显口音,但能听懂,需要标注吗?答:口音但不影响理解的,音频中个别几个字的方言可以使用同音字标注。听不清音节的方言也无法使用同音字标注的,可以使用【~】,大于或等于三个字需使用【~】符号的情况下。参照“语音有效性标注”第8条规则,标记为无效。 3. 标注时有的口音能听懂,是按听的音来标注还是按普通话来标注,标注需要符合现实逻辑吗?答:一般情况下口音按实际发音来标注。以下情况请特别处理:常用词语和专有名词需按现实逻辑标注(如:发音是“现/xian4/生”标为“先生”,“滴滴专/ce1/”标为“滴滴专车”等等) 5. 音频中一串数字如【12531】转写为一二五三一还是吆二五三吆?答:转写的文本要和语音实际读法完全一致。若读为yi1,则写一;读为yao1,则写幺。同理,“二”、“两”、“俩”;“三”、“仨”也需要区别使用。 6. 一段很短的音频中语速过快,有时候听起来像三个字又像两个,是不是都能判断合格?答:短音频且内容无法听清的情况下,标记为无效。长音频中很小的一部分,无法确定内容时,参照“语音文本内容”下f项、【~】符号使用规则进行。 7. 一段音频中语速过快,能听清某些音节但大多部分不能做出准确判断写不出是否可以判断无效?答:判断为无效 8. 一段音频中出现导航仪发出的声音或者只有导航仪的声音算噪音吗?答:整段只有导航音,标记为无效。只有一部分出现导航音的时候,看声音大小,如果与说话人音量接近或者大于说话人声音,标记为无效。 注意:如果一句话里面只说了几个字方言,其他都是带口音的普通话,不要直接标无效,那全方言的字按听到的音来标,比如:说的是上海话gege,就标成“葛个”,而不是标成“那个”。语气词无法转写的可以找同音字或相近音字转写;全方言无效 关于地点、地名、街道名等方位词,这些词我们需要使用地图搜索引擎搜索如果地点、地名、街道名等词语很长且词发音很清晰,但使用地图搜索引擎搜索不到这个地点。即使这句话其他部分可以完整的转写出来,但依旧视为无效。二、关于英文转写原规范为:英文字母要转写成大写字母。        细化:1、遇到英文单词和英文字母都需要用英文大写形式表现。例如:SORRY SORRY我现在在阜成路麻烦你掉个头2、单词与单词之间加空格 。例如:我把我的APPLE SEVEN PLUS落在了车上麻烦师傅还给我一下3、字母与字母之间加空格。例如:我下了好几回这个A P P了但是怎么安装都是失败的请问客服我该怎么办4、英文单词或者英文字母与汉字之间不需要空格。例如:我的车牌号的京A三六七八5、特殊字:对于 OK 这一类常用词,默认为一个单词,尽管是拼读成字母发音的。对于无从适配上述规则的,我们及时向海瑞提出。三、噪音符号这部分,这部分依旧不用添加。 四、关于标普、方普、方言如何转写    1、标普:就是普通话,我们是一定要转写的。    2、方普:就是方言普通话,例如广州人说普通话,上海人说普通话,天津人说普通话等等,这些是需要转写的。只是他们在说普通话的时候会有一些口音。例如发音说:我现在湖南(fu2声 lan2声)长沙市中心你来接我一下     他说的是“fu lan”我们正常书写成“湖南”即可。    3、方言:直接视为无效即可,例如:粤语、上海话、江苏话等等。