Asr English Phonetic Labeling Course


   英文语音识别标注标准

English speech recognition labeling standard

语音识别(ASR)指把语音转换成文字。任务是把音频中的speech(说话)一字不落的标注出来。

Speech recognition (ASR) refers to the conversion of speech into text. The task is to mark out the speech in the audio without dropping a word.

 

1. 登录小核众测官网https://zc.bytedance.com/,点击更多任务;

Log on to the small nuclear public site https://zc.bytedance.com/, click more tasks;

1.png

2. 搜索ASR并点击该队列,点击开始任务;

Search for ASR and click the queue, click start task;

 12.png

122.png 

 

3. 标注流程:

Annotation process:

14.png 

4. 语音类型判断标准:

Speech type criteria:

1) speech可听清的人说话声,若视频中有多人说话,需要都写出来;若音频中有部分时段多人说话声重叠,且很清晰,需要把重叠部分截掉(rap:节奏感不是很强的,也可以标注

Speech: can hear the sound of people talking, if there are many people in the video speak, need to write it; If there are parts of the audio with multiple voices overlapping and clear, the overlapping parts need to be cut off (rap: rhythm is not very strong, can also be tagged.)

2) speech音乐、唱歌 、动物叫声和自然界的声音

Non-speech: music, singing, animal calls and natural sounds

3) 丢弃英语除外的其他语种、听不清、嘈杂声

Discarded: other languages other than English, inaudible, noisy

 

5. 文本书写标准:

Text writing standards:

1) 不加标点符号,单词间需加空格

Without punctuation, spaces should be added between words

2) 专有名词、人名、电影名、书名 每个单词首字母大写;缩略语每个字母都需大写,其余都小写(包括句子首字母第一个单词)

Proper nouns, personal names, movie names, book titles, each word is capitalized; acronyms are capitalized for each letter, and the rest are lowercase (including the first word in a sentence)

3) 数字不要写阿拉伯数字,比如,59--fifty-nine

Numbers don't write Arabic numerals, for example, 59--fifty-nine

4) 若单词发一半,可以不写

If the word is half pronounced, you can leave it

5) 正常按照音频发音标注,若用户发音错误,需要按正确的标注出来

Note normally according to the audio pronunciation, if the user pronunciation is wrong, it is necessary to mark it correctly

6) 邮箱和网址按照正常形式输出,比如:www.yahoo.com

Mailboxes and URLs are exported in normal form, such as: www.yahoo.com

 

6. 截取操作

Interception operation

1) 需要截取的情况:句首或句尾有听不清的语音、嘈杂音、静音、多人说话重叠等需截掉

Situations where interception is required: inaudible sounds, noise, mute, overlapping of speech, etc., at the beginning or end of a sentence

2) 截取方式:可通过点击【截取开始】和【截取结束】选定截取区间(或者对应的快捷键),然后点击【截取确认】(或者使用快捷键a或5),此时区间内的语音将自动播放,表示截取完成

Interception: select the intercept interval (or the corresponding shortcut key) by clicking on [intercept start] and [intercept end], and then click [intercept confirmation] (or use shortcut key a or 5), where the voice within the interval will be played automatically, Indicates completion of interception

3) 截取技巧:拖动小红点进行截取区间修改,点击上方波形图可显示小红点

Interception technique: drag small red dot to modify the intercept interval, click on the above waveform to display the small red spot

4) 注意 截取后要确认一下语音和文本是否对应

Note: after intercepting, verify that the speech and text correspond

5) 必须在原截取区间内截取,比如原语音的播放区间为3-8s,只能在3-8s内截取,不可截长至1-8s

Must be intercepted within the original intercept interval, for example, the playback interval of the original speech is 3-8s, can only be intercepted within 3-8s and cannot be cut to 1-8s

 

7. 快捷键

1) 空格-提交Spaces-submission

2) 1-开始1-start

3) 2-暂停2-suspension

4) 5-重复播放截取区间5- repeat play intercept interval

5) q-丢弃Q-discard

6) w-非speechW-non-speech

7) s-截取开始S- start of interception

8) e-截取结束E- end of interception

9) a-截取确认A-intercept confirmation

10) shift+alt-文本切换Shift alt- text switching

7. 部分技巧

Partial technique

1) 多使用快捷键Use shortcuts more often

2) 可以先理解视频大概意思再标注

You can understand the general meaning of the video and then annotate it.

3) 可以根据意群,标注

Can be tagged according to the meaning group

4) 对一些出现率高的视频语音进行文本整理,可直接粘贴复用

Text finishing for some video voice with high frequency, which can be directly pasted and multiplexed


推荐文章

爱数智慧客服对话标注规则范本及要求
登陆网址babel.magicdatatech.com/processmore/index.php用谷歌浏览器,鼠标拖动截取分段,内容右键,选择噪音符号  注意事项:1最开始可能有用户说的口令,“爱数智慧采集”,如果说口令的时候有其他说话内容叠加,那么直接标注口令。2不要断句太散,如果句子中有一个字听不懂的,请联系前后语境,推测出最可能的字,尽量整句标注)3如果数据本身有文字,那么文字之间的空格,不用删除,忽略。4系统提示音,类似“欢迎致电中国移动”,应该根据规范在文本前面加¥,正确的标注格式是:“¥欢迎致电中国移动”,因为这部分是机器音,所以忽略说话人编号。客服和用户分别用1,2标注。一、开始标注语音文件一 时间边界定位:• 用鼠标选中波形,即为要标注的一段时间边界,此时会自动跳出对应的编辑框 如果需要左右调动时间边界,则用鼠标放置在时间边界上,出现左右箭头后,按住鼠标拖动时间线,进行左右调动。图中的红蓝方框即为选中一段需要标注的时间边界。• 听音,在整段电话语音的基础上,根据语义和停顿时间等因素,在音频信号中每一句话的句首和句尾分别添加时间边界。即,一段标注框内,即为一段标注的话。• 不能有任何的说话人说话声、噪音没有被时间边界框住,即有声音的地方,都需要用时间边界框起来,然后标注相应的说话文本或符号,只有相对静音可以不做截取处理。 图示的地方,红框框住的地方有明显波形,有明显声音,却没有用时间边界框起来,这是不允许出现的错误。二 文件标注:• • 此处主要标注语音文件的一些全局信息,包括说话人性别信息和语种信息(方言区)。标注时请按照实际情况选择。• 关于说话人的选择,客服标注奇数,用户标注偶数;• 如果第三个人的情况:点击“+”号,即可添加。• 编辑框内需要标注的是该句对应的文字[文本层,需要根据语意打中文标点(逗号,问号,句号,顿号,感叹号)],如果是汉语交谈,则只能用简体汉字。对于语音中的数字部分需根据发音情况转换为对应的汉字,例如“27”→“二十七”;“我的电话是2381832”→“我的电话是二三八幺八三二(与发音相同)”。 • 编辑框内正常语音的标注• 如果此语段为某一个人的汉语对话语音,请在标注时间边界后,选择对应的1或者2,编辑框内输入相应的文本。• 如果此语段为两个人交叉语音,关于重叠(交叉)的语音,即对于某个人的一句话未完,另一个人的一句话已经开始的情况:请在波形上标注时间边界,编辑框内标注“+”(在编辑框内点击右键即可出现)对于叠加,必须是真实的。不能将大段的听不清语音和叠加混在一起。叠加段内的非叠加部分,前后最多不得超过1个字。• 在整个语音中,需根据说话人的变换来增加时间边界(不同说话人分段标注)。• 如果同一说话人说话时间较长,则应根据其语义来增加时间边界,每个时间段的长度最多不能超过8s,但断句也不要太散太短。根据标注经验,每个自然语言段平均在5-6秒左右即可。• 单字或者两个字的叠加(如:好,嗯,行,好的),声音较小,不影响主要说话人内容,那么可以不标叠加,直接写主要说话人的内容就行了。  • 英文:(英文都是小写)【单词】对于语音中简单的英文单词,在能听懂的情况下,直接标出即可。例如:“网址是三w点sina点com”;“二三八幺八三二at qq点com”(不要写这个@)“请以井号键结束”;(不要写这个#) 【字母】每个字母中间用空格隔开。例如:单词读音,g o o d则表示字母读音;例如:我的编号是f m s幺三二;• 语气词除了“诶”其他的语气词都是带口字旁的汉字标注。如果发音是表示应答的“嗯”,统一都用“嗯”,不要用“恩”或者“厄”。比如哦,啊,诶等.三 编辑框内噪音的标注噪音是指非说话人的突发的声音,所有此类标注都是中括号与语音内容的组合,¥是放在句首,其他的噪音符号都需要单独截取标注。1   听不懂的字,标注[*]• 听不清的长句• 方言• 大段的英文句子• 拿着话筒和其他人说话                            2    笑声:[LAUGH]。              3    由说话人发出的干扰浊音:[SONANT]• 咳嗽声• • 打喷嚏• 清嗓子              4    系统提示音,即系统播出的语音提示:¥系统自动播放的语音内容,而非说话人的语音内容(不用管说话人)例如:¥欢迎致电我公司现在由一号客服代表为您服务   5 明显的静音段(大于500ms)(一句话中没有超过0.5秒的不要断开,尽量完整完整,不要把已经完整的话段的太散!) 6  各种垃圾声音(大于500ms):[ENS]           1)  连续的拍桌子           2)     连续的敲击声        3)    持续的各种环境噪音    7  持续的音乐声:[MUSIC]• 唱歌声(有歌词和旋律)• 哼唱(没有歌词,但有旋律)• 口哨声• 可能是别人唱歌、演奏,也可能是背景的电视、收音机发出的音乐和歌声• 口哨声• 包括持续时间较长的彩铃声  8   录音及电信系统引起的噪声:[SYSTEM]包括电话按键音dtmf、电话忙音 beap、录音系统的其他噪音等,都是通信系统主动发出的声音,而不是摘机、挂机或干扰带来的咔啦或呲呲杂音。一般会用的噪音符号:+,[*],[ENS],[SONANT],[LAUGH],[MUSIC] ,¥,[SYSTEM]所有的噪音符号,在编辑框内右键即可出现哦 标注10分钟请点击一次临时保存,并刷新网页!     易错归纳:1 爱数语音智慧采集,这个是用户说的,说话人是偶数;2 “¥为保证通话质量有录音,尽情谅解”等的系统播报音,因为是机器音,所以不用管说话人(只要是系统播报音都不用管说话人,平台默认是说话人1);3 客服标注奇数,用户标注偶数系统提示音不用管,(1说话人标注反的很多;2 同一个客服,一会儿是1,一会儿又是3的问题);4 过于短暂的截取(像这种处理方式:把16段和17段合并,然后标注“嗯”即可!); 5 听错的情况,多前后联系,根据语音标注,而不是标注同音字;6 叠加:叠加的没有单独截取出来处理;7 不同说话人截取在一起标注内容的错误;8 规范里面颜色特别说明的标点符号,没有标注(标点符号基本没有看到有人标注的);9 数据没有标注完毕提交上来了;10A文字中可以加适当的标点符号,句尾不需要加标点符号。10 B标注的数据,A质检,验收发现,质检只是过了一个形式,没有实际作用,没有质量把关;11 返修的数据都有反馈意见,请全部检查修改!12 此项目含有标注信息,请在此基础上修改。 问题1:在客服与客户音频中,爱数智慧语音采集这句口令,如果出现在句首那么录音人应该标注1 还是 2?客服标1客户标2 问题2:爱数智慧语音采集这句口令如果与别的语音叠加了,怎么办?直接标:爱数智慧语音采集 问题3:接近直线或者接近静音的噪音要不要标注?不需要 问题4:叠加是否需要单独操作???如果:客服说, 你好有什么需要帮助。客户说了一句,你好,这个你好与客服的帮助叠加了,声音大小差不多,具体应该怎么办?单独截取,标+ 问题5:系统的智能语音怎么标注,请详细说明?句首标¥把系统音转写成文字 问题6:客服应该标注录音人几,客户标注录音人几,系统声音标注几。客服1客户标2,系统音标1问题7:如果客服说 爱数智慧,后面是5秒的系统声音,第六秒客户说语音采集正好与第六秒的系统声音叠加,应该怎么处理?先转写客服说的爱数智慧,再把系统音截取出来前面加¥把文字转写出来,叠加单独截取出来标语音采集,如果是其它内容叠加标+

热门文章

滴滴语音标注规则要求及视频教程
一、标注环境1. 请使用谷歌浏览器进行标注。2.标注平台地址:http://label.xiaojukeji.com/labelerTaskList二、标注内容1. 语音有效性标注无效语音请在有效性一项选择“无效”,并在标注文本一项标注大写字母“NULL”。有效语音请在有效性一项选择“有效”。当语音出现下列任意一种情况,即可标注为无效语音:1) 说话人声音极小,小到几乎听不到。2) 整段语音均为静音。3) 整段语音均为噪声、音乐声、导航音、广播等。4) 整段语音只有一个字,或是同一个字重复出现。如:“嗯”、“对”、“对对对对”、“啊”、“喂”、“拜拜”、“谢谢”、“好好好”、“OKOK”等。(注意:“哇噻”属于特例,单独出现时也是无效的。)5) 背景噪声大于说话人声音,或噪声与说话人声音几乎一样大。6) 整句都是方言、外语。方言是指发音与普通话区别较大的地方话,如:粤语、上海话等。7) 语音中出现地点、地名、街道名等方位词,但是地图中搜索不到。8) 语音中有大于等于两个人说话,除主说话人以外,其余人的声音清晰可辨。9) 语音中有大于等于3个字听不清楚。 2. 语音文本标注1) 语音文本内容将说话内容写成文字。要求转写的文本内容必须和听到的语音完全一致,不能多字、少字。a) 除空格、占位符号、以外,标注文本不允许使用标点符号,不允许换行。b) 说话人犹豫、口吃导致出现重复的字也要标注出来,重复了几次就标记几个。如发音为:我是北北京人;“北”字有重复现象。转写文本应为:我是北北京人c) 儿化音不需要标注出“儿”字。如发音为:我在/zher4/。转写文本应为:我在这d) 语音中提及地名、街道名、车牌号等内容,转写时需符合日常习惯。选用“路”、“街道”、“门”、“座”、“桥”等地名常用字以及“京”、“津”、“冀”等车牌号常用字。e) 语音中提及地名、街道名、店铺名、专有名词,需要准确转写。可根据读音在地图中查找,确实存在该地点则进行准确标注,搜不到则无效;f) 语音中确实听不清楚的个别单字,用占位符号【~】标记。一组【~】符号代表一个字。在整段语音中,最多只能有两组【~】符号。若有三个字或更多听不清楚,则标注为无效。(见“语音有效性标注”第8条)g) 语音中不涉及地名、专名的部分,若发音清晰但文字不确定,可以用同音字标注,要求标注用字的声韵调与实际发音完全一致。如发音为:我姓/zhang1/。标注成“我姓张”或“我姓章”都算正确。h) 数字要写成汉字形式,注意区分“一”和“幺”、“二”和“两”,按实际读音写。i) 英文字母要转写成大写字母。j) 音频中说话人清楚说出的语气词,如“呃、啊、嗯、哦、唉、呐、呢”等,要按照正确发音进行转写。语气词除了“了、不”没有口字旁,其他基本上都有口字旁。注意:语气词“唉”、“诶”不分的,统一用“唉”。 3.语言情况标注1)语音中全部内容均为中文,请选择“中文”。2)只要语音中含有英文,不论是单个字母还是单词、不论出现的数量有多少,都需要选择“英文”并且字母全部大写。1、遇到英文单词和英文字母都需要用英文大写形式表现。例如:SORRY SORRY我现在在阜成路麻烦你掉个头2、单词与单词之间加空格 。例如:我把我的APPLE SEVEN PLUS落在了车上麻烦师傅还给我一下3、字母与字母之间加空格。例如:我下了好几回这个A P P了但是怎么安装都是失败的请问客服我该怎么办4、英文单词或者英文字母与汉字之间不需要空格。例如:我的车牌号的京A三六七八5、特殊字:对于OK这一类常用词,默认为一个单词,尽管是拼读成字母发音的。对于无从适配上述规则的及时与我们沟通 4. 说话人性别标注按说话人的音色实际情况进行标注。若无法明确区分男女,不论是成人还是儿童,都标注为“女”。三、标注常见问题总结1. 短句如何判断有效性?答:短句只要有大于或等于两个不重复的音节,即为有效。例如“嗯好的”、“明白”、“可以”等。 2. 有明显口音,但能听懂,需要标注吗?答:口音但不影响理解的,音频中个别几个字的方言可以使用同音字标注。听不清音节的方言也无法使用同音字标注的,可以使用【~】,大于或等于三个字需使用【~】符号的情况下。参照“语音有效性标注”第8条规则,标记为无效。 3. 标注时有的口音能听懂,是按听的音来标注还是按普通话来标注,标注需要符合现实逻辑吗?答:一般情况下口音按实际发音来标注。以下情况请特别处理:常用词语和专有名词需按现实逻辑标注(如:发音是“现/xian4/生”标为“先生”,“滴滴专/ce1/”标为“滴滴专车”等等) 5. 音频中一串数字如【12531】转写为一二五三一还是吆二五三吆?答:转写的文本要和语音实际读法完全一致。若读为yi1,则写一;读为yao1,则写幺。同理,“二”、“两”、“俩”;“三”、“仨”也需要区别使用。 6. 一段很短的音频中语速过快,有时候听起来像三个字又像两个,是不是都能判断合格?答:短音频且内容无法听清的情况下,标记为无效。长音频中很小的一部分,无法确定内容时,参照“语音文本内容”下f项、【~】符号使用规则进行。 7. 一段音频中语速过快,能听清某些音节但大多部分不能做出准确判断写不出是否可以判断无效?答:判断为无效 8. 一段音频中出现导航仪发出的声音或者只有导航仪的声音算噪音吗?答:整段只有导航音,标记为无效。只有一部分出现导航音的时候,看声音大小,如果与说话人音量接近或者大于说话人声音,标记为无效。 注意:如果一句话里面只说了几个字方言,其他都是带口音的普通话,不要直接标无效,那全方言的字按听到的音来标,比如:说的是上海话gege,就标成“葛个”,而不是标成“那个”。语气词无法转写的可以找同音字或相近音字转写;全方言无效 关于地点、地名、街道名等方位词,这些词我们需要使用地图搜索引擎搜索如果地点、地名、街道名等词语很长且词发音很清晰,但使用地图搜索引擎搜索不到这个地点。即使这句话其他部分可以完整的转写出来,但依旧视为无效。二、关于英文转写原规范为:英文字母要转写成大写字母。        细化:1、遇到英文单词和英文字母都需要用英文大写形式表现。例如:SORRY SORRY我现在在阜成路麻烦你掉个头2、单词与单词之间加空格 。例如:我把我的APPLE SEVEN PLUS落在了车上麻烦师傅还给我一下3、字母与字母之间加空格。例如:我下了好几回这个A P P了但是怎么安装都是失败的请问客服我该怎么办4、英文单词或者英文字母与汉字之间不需要空格。例如:我的车牌号的京A三六七八5、特殊字:对于 OK 这一类常用词,默认为一个单词,尽管是拼读成字母发音的。对于无从适配上述规则的,我们及时向海瑞提出。三、噪音符号这部分,这部分依旧不用添加。 四、关于标普、方普、方言如何转写    1、标普:就是普通话,我们是一定要转写的。    2、方普:就是方言普通话,例如广州人说普通话,上海人说普通话,天津人说普通话等等,这些是需要转写的。只是他们在说普通话的时候会有一些口音。例如发音说:我现在湖南(fu2声 lan2声)长沙市中心你来接我一下     他说的是“fu lan”我们正常书写成“湖南”即可。    3、方言:直接视为无效即可,例如:粤语、上海话、江苏话等等。