海天瑞声long8-语音转写规范及标准

泛领域标注规范及标准

一.简单介绍

本音频内容是客服对话电话语音数据。利用工具,对语音进行标注。标记时间戳,隔开一个一个的语音段,然后对每个语音段,分别标注说话人身份、文本内容、说话人性别和情绪。

注意写实实在在的人讲话的声音,视频、电视里面的讲话声音不用转写。但是根据数据类型来判断。夹杂主持人讲话中的开头或者中间的一些视频播音片段,无效不转写;如果整段音频都是视频类语音,比如电视剧等,就可以全部转写。

二.操作步骤及方法

1. 首先登录网址:http://182.92.174.146:5500/,登录界面如下图,用给定的账号和密码登录;

2. 登录进去之后,选择申请任务,选择项目名称的任务,然后同意保密协议,就进入工作页面开始工作;

 

3. 工作页面如下图所示,具体的切分标注步骤如下:

1) 首先,框1是音频的播放区域,如果没有勾选播放分区模式,点击音频波形,音频会从点击的位置开始播放。如果勾选播放分区模式,音频会从本段的起始位置开始播放;

2) 然后判断音频是否有效,如果无效选择无效,判断无效原因即可,如果有效再继续标注文本框2中属性;

3) 其次,在文本框4中转写文本,并在需要的时候添加文本框3中的标签,本段转写完毕点击保存按钮,切分标注好的段落会显示在文本框5中;(编辑文本是播放暂停的快捷键是Alt+m,常用这个会事半功倍哦

4) 最后,整段音频都切分标注完毕,点击右上角的提交按钮即可。

 

 

三.切分标注的标准

3.1 时间戳标记

a) 根据语义和停顿时间等因素,在音频信号中每一句话的句首和句尾分别添加时间边界,拖动鼠标即可添加

b) 如果同一说话人说话时间较长,则应根据其语义来增加时间边界,每个时间段的长度最多不能超过15s,但断句也不要太散太短。

c) 一个语音段应该包含一个或多个完整的句子。例如“我想去吃饭”不能被分割为“我想去”和“吃饭”。

d) A说完改成B说后,在AB之间要分割(一个语音段只能包含一个说话人

e) 在进行语音切分过程中,有效语音前、后应尽量保留一定静音部分(一般不得少于20ms),注意切分时边界位置尽量准确,一般不应切到有效语音上。两段之间如存在静音,应为前后段保留一定静音在连续语音中放置边界时,若无明显停顿,切分标记要放在中间,不要伤害有效语音,不要贴着音频切

一个人的语音为一个段落不同说话人之间要分开,每个段落前后留不少于20ms(20ms其实很短就是为了不要切到语音上)的停顿不要贴着音频切

1.:两段间小于等于5秒,停顿平分到前后段落

2.:两段间停顿大于5秒,中间多余停顿部分无效且添加相应标签

f) 只有一个字表示应答的,如语音没有overlap(重叠,则单独分割成独立语音段(如:嗯、哦、对);如有overlap,则标记主说话人语音,并在存在overlap的段落加overlap标记

3.2文本标注规范

a) 录音转写的第一要求

忠实地按照音频录音念什么就转写成什么的原则,如真实发音为“我们去哪哪里啊”,“哪”字有重复,就要忠实地录成“我们去哪哪里啊”。

g) 口音问题

由于口音或个人习惯导致的音变,按普通话标注音录入。多音字或者生活中有不同发音的字,也按照普通话标注音录入。例如,“办公室”的“室”,有人说成“shi3,有人说成“shi4”,都要录成“办公室”

h) 数字

数字符号应完全按照其读音转写成对应的汉字,例如:5256->五千二百五十六2004->二零零四两千零四19%->百分之十九等。其中1”转“一”或者“幺”,根据真实发音录入。

i) 英文单词或作为单词发音的缩写词

对于英文单词,或者作为单词发音的缩写词,如果其发音是按照一个单词来发音的,请直接转写,注意字母间要加空格。英文单词小写格式,字母大写且空格

例如,hello”、“G D PP P T Q Q 等。hello kitty

Eg您的Q Q邮箱是多少?遇到说网址的@要写@

如果出现拼音拼读的,将声母韵母分开转写声母+下划线_+py+字,如,胜利转写为:sh_py eng_pyl_py i_py

j) 标点符号

只采用 ‘!’ 即只能使用逗号,句号,问号,感叹号

句尾需要加标点且句尾标点不要是逗号

k) 专有名词

所有的专有名词,包括人名、地名等,详细规范说明如下:

§ 人名

对于熟知的知名人士的名字或地名,必须用该知名人士的名字来转录。

例如,“郭德纲的相声很不错”,就不能转录成“郭德刚”。

“阿里巴巴邀请白举纲参加来往活动”,不能是“白句刚”。

而对于泛泛的名字,则都要用最常见的文字来标记。

例如,用“王小明”,不用“王晓明”,更不能用“王潇铭”(这个太偏僻了)。

§ 中国的地名

与人名的转录规则类似。

§ 机构名称

与人名的转录规则类似。

l) 儿化音

需要把“儿”这个字标注出来

例如,“这个小孩儿”(当此语音的儿化音很明显的时候)。

m) 填充语气词

填充语气词是指示说话者说话中的犹豫,或者说话者在思考下面该说什么时,用来保持发音连贯所使用的词,例如‘嗯’等。语气词应该基本带有口字旁。

ei诶,唉ai 

3.3 数据标标记

a) 标注中使用的标记:

(noise) 噪声。

说话人发出的突发噪声:

由说话者发出的噪声可能有以下5种,分别对应呼吸声咳嗽声笑声喷嚏声和其他由嘴唇发出的声音。

录音及电信系统引起的噪声

包括电话按键音、电话忙音、录音系统的其他噪音等,都是通信系统主动发出的声音(但没有人或机器的说话声,而不是摘机、挂机或干扰带来的咔啦或呲呲杂音。

背景发出的突发噪声:

此处的背景发出的噪声专指由非说话人(背景)发出的具有突发性的噪声。如出现在说话声之间的掌声、关门声、汽车鸣笛声、狗叫声等。

持续的音乐声

唱歌声(有歌词和旋律)

哼唱(没有歌词,但有旋律)

口哨声

可能是别人唱歌、演奏,也可能是背景的电视、收音机发出的音

乐和歌声

包括持续时间较长的彩铃声

(unk) 为无效文本内容。

难以理解的段落

有时音频文件的某一部分很难或不能理解其对应的文本,例如由声音不清晰或者方言发音造成的难以理解的语音。

听不懂的外语发音

方言

 (sil) 如出现明显停顿,则标记停顿标签,建议5秒。

(~)用波浪号表示语句中存疑的个别字词。

(overlap)语音重叠

关于ovelap标签的使用:overlap用于两个或几个人说话重叠时,转写出主要说话人的语音内容,选中重叠的部分,点击添加overlap标签

这时在语音前后会出现两个标签,也就是两个标签中间的部分是重叠语音段(这个语音段是主要说话人的语音内容)

 

b) 段落属性标记:

有效性:筛选阶段对音频进行有效性筛选;如果是无效语音,则后面的标记就不用考虑了。

说话人身份:客户1客户2等依次类推;

性别:[F]/[M];

口音:有口音/无口音; 按照有无明显口音为标准

背景噪音(底噪):整个音频有连续性背景噪音/整个音频无连续性背景噪音,包括敲打键盘声音、其它人声音、电视背景音、汽车声音等; 按照是否明显判定

起止时间: 拖动鼠标进行截取

情绪:正面/平静/负面.

异常音:是;否。比如音量截幅,设备持续杂音等,都属于异常情况。

说话方式:正常;不正常。比如大声喊叫,洋腔怪调等,都属于不正常的说话方式。

说话人类型:正规播报口语播报。一般都选择口语播报,类似于新闻联播的选择正规播报。

c) 标点符号:只能使用逗号,句号,问号,感叹号。

 

 

3.4 说话人身份

说话人层中标注该段语音的说话人的身份。在选择说话人身份时

1.正常的客服客户对话,正常选择客服客户;

2.主持人和采访者的对话,主持人选择客服,采访者选择客户;

3.不能分辨客服,客户,也不是在主持人访谈的,就统一选择客户。

第一个出现的客服讲话,选客服1第二个出现的选择客服2以此类推;第一个出现的客户讲话选客户1,第二个出现的客户选客户2,以此类推。

 

常见问题解析:

1. 断句

根据语义和说话人身份分段,每段不超过15,并且每段只包含一个说话人,不能把一句话分成两半,尽量保证语义完整。但也不要切分的过细,一个人说话不超过15秒的可以放在一段。

2. 标签

noise和底噪的区别

noise是短促突发的噪声,底噪是背景持续存在的噪声

 

 

noisesil的区别

大于五秒的停顿需要单独成段,选无效,根据是否有背景噪音来选noise或者sil

 

unk~的区别

这两个都可以代表听不清听不懂的字或者词。不同点是小于5个字的话直接用~来代替;如果大于五个字的话就需要单独成段,选无效标unk了。

unk不会和文本混在一起用也就是5字以上听不懂单独成段,选用标签unk

 

 

3. 文本

不能丢字漏字,不能写错别字,有口音的不改字,语气词不能省略并且不能出现错别字。

无效的没有15时间限制,只要是无效的比如持续20的噪音可以放在一起。

本次注意

1.方言严重听不清的无效

2.多人说话重叠部分能分清主次的写主要说话人加overlap,分不清主次的无效

3.能明确是客服客户对话的标客服和客户,要不第一个人标客户一,第二个人标客户二,以此类推

4.整个包大部分是音乐,方言还很严重,只能听清三五个字的,整包无效即可

5.回声和人说话重叠部分无效,单纯的回声也不用转写直接无效,大家注意哈

 

 


推荐文章

   英文语音识别标注标准English speech recognition labeling standard语音识别(ASR)指把语音转换成文字。任务是把音频中的speech(说话)一字不落的标注出来。Speech recognition (ASR) refers to the conversion of speech into text. The task is to mark out the speech in the audio without dropping a word. 1. 登录小核众测官网https://zc.bytedance.com/,点击更多任务;Log on to the small nuclear public site https://zc.bytedance.com/, click more tasks;2. 搜索ASR并点击该队列,点击开始任务;Search for ASR and click the queue, click start task;   3. 标注流程:Annotation process: 4. 语音类型判断标准:Speech type criteria:1) speech:可听清的人说话声,若视频中有多人说话,需要都写出来;若音频中有部分时段多人说话声重叠,且很清晰,需要把重叠部分截掉(rap:节奏感不是很强的,也可以标注。)Speech: can hear the sound of people talking, if there are many people in the video speak, need to write it; If there are parts of the audio with multiple voices overlapping and clear, the overlapping parts need to be cut off (rap: rhythm is not very strong, can also be tagged.)2) 非speech:音乐、唱歌 、动物叫声和自然界的声音Non-speech: music, singing, animal calls and natural sounds3) 丢弃:英语除外的其他语种、听不清、嘈杂声Discarded: other languages other than English, inaudible, noisy 5. 文本书写标准:Text writing standards:1) 不加标点符号,单词间需加空格Without punctuation, spaces should be added between words2) 专有名词、人名、电影名、书名 每个单词首字母大写;缩略语每个字母都需大写,其余都小写(包括句子首字母第一个单词)Proper nouns, personal names, movie names, book titles, each word is capitalized; acronyms are capitalized for each letter, and the rest are lowercase (including the first word in a sentence)3) 数字不要写阿拉伯数字,比如,59--fifty-nineNumbers don't write Arabic numerals, for example, 59--fifty-nine4) 若单词发一半,可以不写If the word is half pronounced, you can leave it5) 正常按照音频发音标注,若用户发音错误,需要按正确的标注出来Note normally according to the audio pronunciation, if the user pronunciation is wrong, it is necessary to mark it correctly6) 邮箱和网址按照正常形式输出,比如:www.yahoo.comMailboxes and URLs are exported in normal form, such as: www.yahoo.com 6. 截取操作Interception operation1) 需要截取的情况:句首或句尾有听不清的语音、嘈杂音、静音、多人说话重叠等需截掉Situations where interception is required: inaudible sounds, noise, mute, overlapping of speech, etc., at the beginning or end of a sentence2) 截取方式:可通过点击【截取开始】和【截取结束】选定截取区间(或者对应的快捷键),然后点击【截取确认】(或者使用快捷键a或5),此时区间内的语音将自动播放,表示截取完成Interception: select the intercept interval (or the corresponding shortcut key) by clicking on [intercept start] and [intercept end], and then click [intercept confirmation] (or use shortcut key a or 5), where the voice within the interval will be played automatically, Indicates completion of interception3) 截取技巧:拖动小红点进行截取区间修改,点击上方波形图可显示小红点Interception technique: drag small red dot to modify the intercept interval, click on the above waveform to display the small red spot4) 注意: 截取后要确认一下语音和文本是否对应Note: after intercepting, verify that the speech and text correspond5) 必须在原截取区间内截取,比如原语音的播放区间为3-8s,只能在3-8s内截取,不可截长至1-8sMust be intercepted within the original intercept interval, for example, the playback interval of the original speech is 3-8s, can only be intercepted within 3-8s and cannot be cut to 1-8s 7. 快捷键1) 空格-提交Spaces-submission2) 1-开始1-start3) 2-暂停2-suspension4) 5-重复播放截取区间5- repeat play intercept interval5) q-丢弃Q-discard6) w-非speechW-non-speech7) s-截取开始S- start of interception8) e-截取结束E- end of interception9) a-截取确认A-intercept confirmation10) shift+alt-文本切换Shift alt- text switching7. 部分技巧Partial technique1) 多使用快捷键Use shortcuts more often2) 可以先理解视频大概意思再标注You can understand the general meaning of the video and then annotate it.3) 可以根据意群,标注Can be tagged according to the meaning group4) 对一些出现率高的视频语音进行文本整理,可直接粘贴复用Text finishing for some video voice with high frequency, which can be directly pasted and multiplexed

热门文章

滴滴语音标注规则要求及视频教程
一、标注环境1. 请使用谷歌浏览器进行标注。2.标注平台地址:http://label.xiaojukeji.com/labelerTaskList二、标注内容1. 语音有效性标注无效语音请在有效性一项选择“无效”,并在标注文本一项标注大写字母“NULL”。有效语音请在有效性一项选择“有效”。当语音出现下列任意一种情况,即可标注为无效语音:1) 说话人声音极小,小到几乎听不到。2) 整段语音均为静音。3) 整段语音均为噪声、音乐声、导航音、广播等。4) 整段语音只有一个字,或是同一个字重复出现。如:“嗯”、“对”、“对对对对”、“啊”、“喂”、“拜拜”、“谢谢”、“好好好”、“OKOK”等。(注意:“哇噻”属于特例,单独出现时也是无效的。)5) 背景噪声大于说话人声音,或噪声与说话人声音几乎一样大。6) 整句都是方言、外语。方言是指发音与普通话区别较大的地方话,如:粤语、上海话等。7) 语音中出现地点、地名、街道名等方位词,但是地图中搜索不到。8) 语音中有大于等于两个人说话,除主说话人以外,其余人的声音清晰可辨。9) 语音中有大于等于3个字听不清楚。 2. 语音文本标注1) 语音文本内容将说话内容写成文字。要求转写的文本内容必须和听到的语音完全一致,不能多字、少字。a) 除空格、占位符号、以外,标注文本不允许使用标点符号,不允许换行。b) 说话人犹豫、口吃导致出现重复的字也要标注出来,重复了几次就标记几个。如发音为:我是北北京人;“北”字有重复现象。转写文本应为:我是北北京人c) 儿化音不需要标注出“儿”字。如发音为:我在/zher4/。转写文本应为:我在这d) 语音中提及地名、街道名、车牌号等内容,转写时需符合日常习惯。选用“路”、“街道”、“门”、“座”、“桥”等地名常用字以及“京”、“津”、“冀”等车牌号常用字。e) 语音中提及地名、街道名、店铺名、专有名词,需要准确转写。可根据读音在地图中查找,确实存在该地点则进行准确标注,搜不到则无效;f) 语音中确实听不清楚的个别单字,用占位符号【~】标记。一组【~】符号代表一个字。在整段语音中,最多只能有两组【~】符号。若有三个字或更多听不清楚,则标注为无效。(见“语音有效性标注”第8条)g) 语音中不涉及地名、专名的部分,若发音清晰但文字不确定,可以用同音字标注,要求标注用字的声韵调与实际发音完全一致。如发音为:我姓/zhang1/。标注成“我姓张”或“我姓章”都算正确。h) 数字要写成汉字形式,注意区分“一”和“幺”、“二”和“两”,按实际读音写。i) 英文字母要转写成大写字母。j) 音频中说话人清楚说出的语气词,如“呃、啊、嗯、哦、唉、呐、呢”等,要按照正确发音进行转写。语气词除了“了、不”没有口字旁,其他基本上都有口字旁。注意:语气词“唉”、“诶”不分的,统一用“唉”。 3.语言情况标注1)语音中全部内容均为中文,请选择“中文”。2)只要语音中含有英文,不论是单个字母还是单词、不论出现的数量有多少,都需要选择“英文”并且字母全部大写。1、遇到英文单词和英文字母都需要用英文大写形式表现。例如:SORRY SORRY我现在在阜成路麻烦你掉个头2、单词与单词之间加空格 。例如:我把我的APPLE SEVEN PLUS落在了车上麻烦师傅还给我一下3、字母与字母之间加空格。例如:我下了好几回这个A P P了但是怎么安装都是失败的请问客服我该怎么办4、英文单词或者英文字母与汉字之间不需要空格。例如:我的车牌号的京A三六七八5、特殊字:对于OK这一类常用词,默认为一个单词,尽管是拼读成字母发音的。对于无从适配上述规则的及时与我们沟通 4. 说话人性别标注按说话人的音色实际情况进行标注。若无法明确区分男女,不论是成人还是儿童,都标注为“女”。三、标注常见问题总结1. 短句如何判断有效性?答:短句只要有大于或等于两个不重复的音节,即为有效。例如“嗯好的”、“明白”、“可以”等。 2. 有明显口音,但能听懂,需要标注吗?答:口音但不影响理解的,音频中个别几个字的方言可以使用同音字标注。听不清音节的方言也无法使用同音字标注的,可以使用【~】,大于或等于三个字需使用【~】符号的情况下。参照“语音有效性标注”第8条规则,标记为无效。 3. 标注时有的口音能听懂,是按听的音来标注还是按普通话来标注,标注需要符合现实逻辑吗?答:一般情况下口音按实际发音来标注。以下情况请特别处理:常用词语和专有名词需按现实逻辑标注(如:发音是“现/xian4/生”标为“先生”,“滴滴专/ce1/”标为“滴滴专车”等等) 5. 音频中一串数字如【12531】转写为一二五三一还是吆二五三吆?答:转写的文本要和语音实际读法完全一致。若读为yi1,则写一;读为yao1,则写幺。同理,“二”、“两”、“俩”;“三”、“仨”也需要区别使用。 6. 一段很短的音频中语速过快,有时候听起来像三个字又像两个,是不是都能判断合格?答:短音频且内容无法听清的情况下,标记为无效。长音频中很小的一部分,无法确定内容时,参照“语音文本内容”下f项、【~】符号使用规则进行。 7. 一段音频中语速过快,能听清某些音节但大多部分不能做出准确判断写不出是否可以判断无效?答:判断为无效 8. 一段音频中出现导航仪发出的声音或者只有导航仪的声音算噪音吗?答:整段只有导航音,标记为无效。只有一部分出现导航音的时候,看声音大小,如果与说话人音量接近或者大于说话人声音,标记为无效。 注意:如果一句话里面只说了几个字方言,其他都是带口音的普通话,不要直接标无效,那全方言的字按听到的音来标,比如:说的是上海话gege,就标成“葛个”,而不是标成“那个”。语气词无法转写的可以找同音字或相近音字转写;全方言无效 关于地点、地名、街道名等方位词,这些词我们需要使用地图搜索引擎搜索如果地点、地名、街道名等词语很长且词发音很清晰,但使用地图搜索引擎搜索不到这个地点。即使这句话其他部分可以完整的转写出来,但依旧视为无效。二、关于英文转写原规范为:英文字母要转写成大写字母。        细化:1、遇到英文单词和英文字母都需要用英文大写形式表现。例如:SORRY SORRY我现在在阜成路麻烦你掉个头2、单词与单词之间加空格 。例如:我把我的APPLE SEVEN PLUS落在了车上麻烦师傅还给我一下3、字母与字母之间加空格。例如:我下了好几回这个A P P了但是怎么安装都是失败的请问客服我该怎么办4、英文单词或者英文字母与汉字之间不需要空格。例如:我的车牌号的京A三六七八5、特殊字:对于 OK 这一类常用词,默认为一个单词,尽管是拼读成字母发音的。对于无从适配上述规则的,我们及时向海瑞提出。三、噪音符号这部分,这部分依旧不用添加。 四、关于标普、方普、方言如何转写    1、标普:就是普通话,我们是一定要转写的。    2、方普:就是方言普通话,例如广州人说普通话,上海人说普通话,天津人说普通话等等,这些是需要转写的。只是他们在说普通话的时候会有一些口音。例如发音说:我现在湖南(fu2声 lan2声)长沙市中心你来接我一下     他说的是“fu lan”我们正常书写成“湖南”即可。    3、方言:直接视为无效即可,例如:粤语、上海话、江苏话等等。