百度车载语音转写规则和标准

地图搜索数据标注规范

 

一、 标注员行为规范

百度语音标注是百度标注员使用标注工具人工对百度语音数据详细信息进行标记的过程,标注员需要严格遵守百度的各项规章制度,同时严格执行以下的标注员行为规范:

1. 严禁下载、拷贝、传播标注语音,如出现标注语音泄漏的情况,我们将追究相关人员的责任;

2. 杜绝一切不认真、不负责任的标注行为;

3. 标注中出现的问题应及时反映;

4. 标注系统的用户名,密码只限标注员本人使用,请严格保密。

二、 标注系统介绍

(1) 登录标注系统:

打开网页浏览器, 在地址栏内输入标注系统地址:

115.239.210.120

 

: 浏览器推荐使用IE系列若使用多标签浏览器,:

 

只允许单一浏览器登陆标注系统,严禁在多标签浏览器中登录多次标注系统。

 

  其中,标注员的工作主要分为两种,在登录时进行选择:

Ø 标注: 对未标注的语音信息进行标注,请标注员选择标注即可

下面将主要结合标注工作进行介绍。

(2) 用户名及密码的获取

               系统不支持用户注册,用户名及密码由百度语音组统一发放,标注员获

取用户名、密码后,登录进入系统,第一次登录时,会要求输入个人信息:

 

点击确定后,填写个人信息。

填写个人信息的时候如有遇到身份证号码含有X的,请填写任意数字

 

 

确定提交后,进入标注页面:

其中,

 

A 区为待标注语音的波形信息

B 区为标注信息,默认选择为第一个选项:

第一项: 当前语音是否包含有效语音;

1) 只标注有且只有一个说话人的语音如果音频中有超过一个人的声音,比如背景人说话,或者有TTS 合成的人声,或者含有电视机里的人声、收音机里有人唱歌等等标注为无效;

2) 如果背景中含有猫叫狗叫等动物的噪音,标注为无效;

3) 如果音频背景中只有非人,非动物的噪音如汽车鸣笛声,敲键盘的声音,标注为有效,音频需正常转写;

4) 只含有噪声或者静音,则标注为无效语音。

5) 语音有首尾截断的情况,如:“东洲码头”,第一个“东”被截断一点,听起来像“ong”的音,这种情况标注为不确定 不要根据意思去猜。

6) 如果一个人唱歌,只要是跟车机交互也要标注

7) 如果一个人不是对着设备讲话,但是声音清晰可辨别,需要转写标注;

8) 除以上无效条件外,其余语音均算做有效语音,只要能挺清楚,需要转写。

第二项: 当前语音的噪声情况;

根据语音情况选择,存在一定噪音但还是能听清搜索语音,请选择“含噪音”。如果噪声比较小可默认为“安静”。

第三项: 当前语音的语言情况;

如果语音内容听不太懂或个别词听不清,通过搜索也不能确定,导致不能准确标出语音内容的情况下,则标为“不确定”。所有标注出的结果要保证是确定的。

第四项:语音内容;

直接输入语音内容。根据自己听到的内容进行输入。具体规则如下:

1. 语音内容必须和听到的语音完全一致,不能多字、少字、错字。地名等信息必须完全正确,不可以同音字代替

2. 语音中有犹豫或者“嗯”“啊”等语气词也要写出对应的汉字。

3. 阿拉伯数字要写成汉字形式,如“一二三”,而不是“123”。注意区分“一”和“幺”。“二”和“两”

4. 标注中只能含有中文、英文以及英文中特殊符号,如I'm中的'。如果符号被读出,则根据发音需写成相应汉字或英文。例如@”at”时要写为“at.com”读成“点com时要写成“点com

5. 语气词: 音频中说话人清楚地讲出的语气词,如 “     ”等,要按照正确发音进行转写。语气词除了“了  ”没有口字旁,其他基本上都有口字旁。

6. 转写内容的完整性要与实际发音一致,不得删减;

n 如发音为:东东洲码头;“东”字有重复现象,那转写的时候要写成:东东洲码头。

7. 发音听的很清楚,完全没有口音,但搜索不到,按照发音写同音字;

8. 有口音的要按照正确的来标注。比如:“湖南”。读的是“湖兰”,则标注为“湖南”。

9. 读错字的情况,比如:“东莞”,读成“东晚”,是当前发音人不认识这个字,读的是“wan3”“河堤”的“堤”,读成“ti2”,按照发音人的读音进行标。 

10. 若有两个及两个以上的地名为同音不同字,(即同一条语音搜索结果为多个同音地名)。比如:之江”和“枝江”。若语音只有“zhi1 jiang1”两字,则标为任意一种。若语音为:“湖北省zhi1 jiang1”则标为:“湖北省枝江”。

 

 

注意:

     所有语音均来自语音搜索,即全部特指的地名均要用百度搜索或百度地图搜索,确认最终的语音内容。保证字音正确。如果不好判断听不清的可以直接选“不确定”;可以有小于40%的“不确定+无效”。没有语义的情况标为“不确定”。最终要保证标注“正确”且有效的数据是完全正确的。

1

 

 

2

 

 

提交后,需要对标注的语音内容进行检查,主要针对:

内容中出现数字, 比如13,容易出现”一三”和“十三”的混淆,需要重新返回给标注员修改,将其改为对应的汉字;例如听见一百零八将,要标注出一百零八将而不是108将。

 

第五项和第六项为说话人性别和口音情况;

能听出是儿童的标为“儿童”。能听出说话人有口音的就标为含口音,比如nng不分,nl不分,或者方言等。

 

标注结束后,点击 标注提交 即可

 

如果登录时,选择检查,则B 区的信息将会默认显示已标注的信息,标注员对这些信息进行详细检查,检查的原则是仅修改确定是标注错误的部分,对不太确定的部分将不做修改。检查完毕后,点击检查提交即可。

 

C 区为用户信息, ,其中

Ø 点击 用户名,将会显示用户已登记的信息,用户可以在线修改提交;

Ø 点击 查询,将会出现工作量查询页面:

 

 

选择标注员名,点击选择查询起始时间和结束时间,查询的结果为:

 

 

会显示查询时间内的标注量和检查量,点击标注量或者检查量的数字后,则会按照标注或者检查的时间从早到晚依次列出对应的全部结果:

 

为了方便区分检查,把“无效语音”和“不确定语音”分别显示成红色蓝色。点击列出的结果,比如点击上图中的 3 , 将会显示详细的标注结果和识别参考结果:

 

 

标注员可以对自己已标注结果进行修改及重新提交。

Ø 点击 退出,则用户退出标注系统,

需要特别提醒,用户不进行标注时,一定要点 退出或者注销键 安全退出标注系统。

 

特别注意:

windows player播放器会出现语音末尾截断问题,声音播放不全。如下图1

1

标注人员标注前请先看下浏览器页面中的播放器,并保证浏览器中的播放器跟下图2一致(是黑色底的):

 

 

2

如果浏览器中的播放器跟图1一样,请先卸载浏览器安装最新的版本。若是图1的播放器不能进行标注。

 

三、标注系统白名单

现在出于安全性考虑,标注系统采用IP白名单的方式限制用户访问。所有的标注人员需要先添加自己的IP地址到白名单中。

首先需要检查当前ip地址是否已经添加到白名单中,如果输入地址没有显示登陆界面的话,则说明当前ip地址未在白名单中,需要按照下面的流程添加白名单:

1. 先查询本机实际的外网物理IP地址。方法为:在百度中输入ip,会显示出本机的实际物理ip地址;

 

2. ip添加到白名单中。

在浏览器中输入该地址;同时将IP地址后面的127.0.0.1修改为自己的实际物理IP地址

http://audiotest.baidu.com:8187/addip.php?project=map&ip=127.0.0.1.

3. 添加完成之后,会显示添加成功的页面。稍等5分钟之后,即可进行标注。成功页面为:

 

 

四、 标注准确率要求

      按句统计,当前语言情况标注为有效且“确定”项的,占总句数的60%以上,句子标注准确率要求达到95%以上。 无效+不确定项的标注结果可以忽略。

 

 

1. 一个人说话,旁边有人笑声,  是否有效?----无效;有效数据只标注有且只有一个人声音的;

2. 单个一个字,是否有效?语气词单字重读是否有效?---有效;

3. 纯英文的是否有效?---有效

4. 噪音,空气流动声是否为噪音,这个噪音大小怎么界定?一般带耳机,都能听到嗡嗡的声音,是否为噪音?----人耳能听到,标注含噪音

 

5. 整一段话基本都是清楚的,只有开始或者结束或者中间有一点点声音,也算噪音,对吧?----

6. 有且仅有机器人等第三方设备说话是否有效?---仅有机器人的声音,电视机广播等声音,为无效 

7. 吞音的字无效处理?---比如说呢?类似于北京口音的 “中央电视台听起来像“装电台”??

8. 语义不完整的是否正常转写?---按照发音转写,考虑语义

 

 













推荐文章

   英文语音识别标注标准English speech recognition labeling standard语音识别(ASR)指把语音转换成文字。任务是把音频中的speech(说话)一字不落的标注出来。Speech recognition (ASR) refers to the conversion of speech into text. The task is to mark out the speech in the audio without dropping a word. 1. 登录小核众测官网https://zc.bytedance.com/,点击更多任务;Log on to the small nuclear public site https://zc.bytedance.com/, click more tasks;2. 搜索ASR并点击该队列,点击开始任务;Search for ASR and click the queue, click start task;   3. 标注流程:Annotation process: 4. 语音类型判断标准:Speech type criteria:1) speech:可听清的人说话声,若视频中有多人说话,需要都写出来;若音频中有部分时段多人说话声重叠,且很清晰,需要把重叠部分截掉(rap:节奏感不是很强的,也可以标注。)Speech: can hear the sound of people talking, if there are many people in the video speak, need to write it; If there are parts of the audio with multiple voices overlapping and clear, the overlapping parts need to be cut off (rap: rhythm is not very strong, can also be tagged.)2) 非speech:音乐、唱歌 、动物叫声和自然界的声音Non-speech: music, singing, animal calls and natural sounds3) 丢弃:英语除外的其他语种、听不清、嘈杂声Discarded: other languages other than English, inaudible, noisy 5. 文本书写标准:Text writing standards:1) 不加标点符号,单词间需加空格Without punctuation, spaces should be added between words2) 专有名词、人名、电影名、书名 每个单词首字母大写;缩略语每个字母都需大写,其余都小写(包括句子首字母第一个单词)Proper nouns, personal names, movie names, book titles, each word is capitalized; acronyms are capitalized for each letter, and the rest are lowercase (including the first word in a sentence)3) 数字不要写阿拉伯数字,比如,59--fifty-nineNumbers don't write Arabic numerals, for example, 59--fifty-nine4) 若单词发一半,可以不写If the word is half pronounced, you can leave it5) 正常按照音频发音标注,若用户发音错误,需要按正确的标注出来Note normally according to the audio pronunciation, if the user pronunciation is wrong, it is necessary to mark it correctly6) 邮箱和网址按照正常形式输出,比如:www.yahoo.comMailboxes and URLs are exported in normal form, such as: www.yahoo.com 6. 截取操作Interception operation1) 需要截取的情况:句首或句尾有听不清的语音、嘈杂音、静音、多人说话重叠等需截掉Situations where interception is required: inaudible sounds, noise, mute, overlapping of speech, etc., at the beginning or end of a sentence2) 截取方式:可通过点击【截取开始】和【截取结束】选定截取区间(或者对应的快捷键),然后点击【截取确认】(或者使用快捷键a或5),此时区间内的语音将自动播放,表示截取完成Interception: select the intercept interval (or the corresponding shortcut key) by clicking on [intercept start] and [intercept end], and then click [intercept confirmation] (or use shortcut key a or 5), where the voice within the interval will be played automatically, Indicates completion of interception3) 截取技巧:拖动小红点进行截取区间修改,点击上方波形图可显示小红点Interception technique: drag small red dot to modify the intercept interval, click on the above waveform to display the small red spot4) 注意: 截取后要确认一下语音和文本是否对应Note: after intercepting, verify that the speech and text correspond5) 必须在原截取区间内截取,比如原语音的播放区间为3-8s,只能在3-8s内截取,不可截长至1-8sMust be intercepted within the original intercept interval, for example, the playback interval of the original speech is 3-8s, can only be intercepted within 3-8s and cannot be cut to 1-8s 7. 快捷键1) 空格-提交Spaces-submission2) 1-开始1-start3) 2-暂停2-suspension4) 5-重复播放截取区间5- repeat play intercept interval5) q-丢弃Q-discard6) w-非speechW-non-speech7) s-截取开始S- start of interception8) e-截取结束E- end of interception9) a-截取确认A-intercept confirmation10) shift+alt-文本切换Shift alt- text switching7. 部分技巧Partial technique1) 多使用快捷键Use shortcuts more often2) 可以先理解视频大概意思再标注You can understand the general meaning of the video and then annotate it.3) 可以根据意群,标注Can be tagged according to the meaning group4) 对一些出现率高的视频语音进行文本整理,可直接粘贴复用Text finishing for some video voice with high frequency, which can be directly pasted and multiplexed

热门文章

滴滴语音标注规则要求及视频教程
一、标注环境1. 请使用谷歌浏览器进行标注。2.标注平台地址:http://label.xiaojukeji.com/labelerTaskList二、标注内容1. 语音有效性标注无效语音请在有效性一项选择“无效”,并在标注文本一项标注大写字母“NULL”。有效语音请在有效性一项选择“有效”。当语音出现下列任意一种情况,即可标注为无效语音:1) 说话人声音极小,小到几乎听不到。2) 整段语音均为静音。3) 整段语音均为噪声、音乐声、导航音、广播等。4) 整段语音只有一个字,或是同一个字重复出现。如:“嗯”、“对”、“对对对对”、“啊”、“喂”、“拜拜”、“谢谢”、“好好好”、“OKOK”等。(注意:“哇噻”属于特例,单独出现时也是无效的。)5) 背景噪声大于说话人声音,或噪声与说话人声音几乎一样大。6) 整句都是方言、外语。方言是指发音与普通话区别较大的地方话,如:粤语、上海话等。7) 语音中出现地点、地名、街道名等方位词,但是地图中搜索不到。8) 语音中有大于等于两个人说话,除主说话人以外,其余人的声音清晰可辨。9) 语音中有大于等于3个字听不清楚。 2. 语音文本标注1) 语音文本内容将说话内容写成文字。要求转写的文本内容必须和听到的语音完全一致,不能多字、少字。a) 除空格、占位符号、以外,标注文本不允许使用标点符号,不允许换行。b) 说话人犹豫、口吃导致出现重复的字也要标注出来,重复了几次就标记几个。如发音为:我是北北京人;“北”字有重复现象。转写文本应为:我是北北京人c) 儿化音不需要标注出“儿”字。如发音为:我在/zher4/。转写文本应为:我在这d) 语音中提及地名、街道名、车牌号等内容,转写时需符合日常习惯。选用“路”、“街道”、“门”、“座”、“桥”等地名常用字以及“京”、“津”、“冀”等车牌号常用字。e) 语音中提及地名、街道名、店铺名、专有名词,需要准确转写。可根据读音在地图中查找,确实存在该地点则进行准确标注,搜不到则无效;f) 语音中确实听不清楚的个别单字,用占位符号【~】标记。一组【~】符号代表一个字。在整段语音中,最多只能有两组【~】符号。若有三个字或更多听不清楚,则标注为无效。(见“语音有效性标注”第8条)g) 语音中不涉及地名、专名的部分,若发音清晰但文字不确定,可以用同音字标注,要求标注用字的声韵调与实际发音完全一致。如发音为:我姓/zhang1/。标注成“我姓张”或“我姓章”都算正确。h) 数字要写成汉字形式,注意区分“一”和“幺”、“二”和“两”,按实际读音写。i) 英文字母要转写成大写字母。j) 音频中说话人清楚说出的语气词,如“呃、啊、嗯、哦、唉、呐、呢”等,要按照正确发音进行转写。语气词除了“了、不”没有口字旁,其他基本上都有口字旁。注意:语气词“唉”、“诶”不分的,统一用“唉”。 3.语言情况标注1)语音中全部内容均为中文,请选择“中文”。2)只要语音中含有英文,不论是单个字母还是单词、不论出现的数量有多少,都需要选择“英文”并且字母全部大写。1、遇到英文单词和英文字母都需要用英文大写形式表现。例如:SORRY SORRY我现在在阜成路麻烦你掉个头2、单词与单词之间加空格 。例如:我把我的APPLE SEVEN PLUS落在了车上麻烦师傅还给我一下3、字母与字母之间加空格。例如:我下了好几回这个A P P了但是怎么安装都是失败的请问客服我该怎么办4、英文单词或者英文字母与汉字之间不需要空格。例如:我的车牌号的京A三六七八5、特殊字:对于OK这一类常用词,默认为一个单词,尽管是拼读成字母发音的。对于无从适配上述规则的及时与我们沟通 4. 说话人性别标注按说话人的音色实际情况进行标注。若无法明确区分男女,不论是成人还是儿童,都标注为“女”。三、标注常见问题总结1. 短句如何判断有效性?答:短句只要有大于或等于两个不重复的音节,即为有效。例如“嗯好的”、“明白”、“可以”等。 2. 有明显口音,但能听懂,需要标注吗?答:口音但不影响理解的,音频中个别几个字的方言可以使用同音字标注。听不清音节的方言也无法使用同音字标注的,可以使用【~】,大于或等于三个字需使用【~】符号的情况下。参照“语音有效性标注”第8条规则,标记为无效。 3. 标注时有的口音能听懂,是按听的音来标注还是按普通话来标注,标注需要符合现实逻辑吗?答:一般情况下口音按实际发音来标注。以下情况请特别处理:常用词语和专有名词需按现实逻辑标注(如:发音是“现/xian4/生”标为“先生”,“滴滴专/ce1/”标为“滴滴专车”等等) 5. 音频中一串数字如【12531】转写为一二五三一还是吆二五三吆?答:转写的文本要和语音实际读法完全一致。若读为yi1,则写一;读为yao1,则写幺。同理,“二”、“两”、“俩”;“三”、“仨”也需要区别使用。 6. 一段很短的音频中语速过快,有时候听起来像三个字又像两个,是不是都能判断合格?答:短音频且内容无法听清的情况下,标记为无效。长音频中很小的一部分,无法确定内容时,参照“语音文本内容”下f项、【~】符号使用规则进行。 7. 一段音频中语速过快,能听清某些音节但大多部分不能做出准确判断写不出是否可以判断无效?答:判断为无效 8. 一段音频中出现导航仪发出的声音或者只有导航仪的声音算噪音吗?答:整段只有导航音,标记为无效。只有一部分出现导航音的时候,看声音大小,如果与说话人音量接近或者大于说话人声音,标记为无效。 注意:如果一句话里面只说了几个字方言,其他都是带口音的普通话,不要直接标无效,那全方言的字按听到的音来标,比如:说的是上海话gege,就标成“葛个”,而不是标成“那个”。语气词无法转写的可以找同音字或相近音字转写;全方言无效 关于地点、地名、街道名等方位词,这些词我们需要使用地图搜索引擎搜索如果地点、地名、街道名等词语很长且词发音很清晰,但使用地图搜索引擎搜索不到这个地点。即使这句话其他部分可以完整的转写出来,但依旧视为无效。二、关于英文转写原规范为:英文字母要转写成大写字母。        细化:1、遇到英文单词和英文字母都需要用英文大写形式表现。例如:SORRY SORRY我现在在阜成路麻烦你掉个头2、单词与单词之间加空格 。例如:我把我的APPLE SEVEN PLUS落在了车上麻烦师傅还给我一下3、字母与字母之间加空格。例如:我下了好几回这个A P P了但是怎么安装都是失败的请问客服我该怎么办4、英文单词或者英文字母与汉字之间不需要空格。例如:我的车牌号的京A三六七八5、特殊字:对于 OK 这一类常用词,默认为一个单词,尽管是拼读成字母发音的。对于无从适配上述规则的,我们及时向海瑞提出。三、噪音符号这部分,这部分依旧不用添加。 四、关于标普、方普、方言如何转写    1、标普:就是普通话,我们是一定要转写的。    2、方普:就是方言普通话,例如广州人说普通话,上海人说普通话,天津人说普通话等等,这些是需要转写的。只是他们在说普通话的时候会有一些口音。例如发音说:我现在湖南(fu2声 lan2声)长沙市中心你来接我一下     他说的是“fu lan”我们正常书写成“湖南”即可。    3、方言:直接视为无效即可,例如:粤语、上海话、江苏话等等。