百度车载语音转写规则和标准

地图搜索数据标注规范

 

一、 标注员行为规范

百度语音标注是百度标注员使用标注工具人工对百度语音数据详细信息进行标记的过程,标注员需要严格遵守百度的各项规章制度,同时严格执行以下的标注员行为规范:

1. 严禁下载、拷贝、传播标注语音,如出现标注语音泄漏的情况,我们将追究相关人员的责任;

2. 杜绝一切不认真、不负责任的标注行为;

3. 标注中出现的问题应及时反映;

4. 标注系统的用户名,密码只限标注员本人使用,请严格保密。

二、 标注系统介绍

(1) 登录标注系统:

打开网页浏览器, 在地址栏内输入标注系统地址:

115.239.210.120

 

: 浏览器推荐使用IE系列若使用多标签浏览器,:

 

只允许单一浏览器登陆标注系统,严禁在多标签浏览器中登录多次标注系统。

 

  其中,标注员的工作主要分为两种,在登录时进行选择:

Ø 标注: 对未标注的语音信息进行标注,请标注员选择标注即可

下面将主要结合标注工作进行介绍。

(2) 用户名及密码的获取

               系统不支持用户注册,用户名及密码由百度语音组统一发放,标注员获

取用户名、密码后,登录进入系统,第一次登录时,会要求输入个人信息:

 

点击确定后,填写个人信息。

填写个人信息的时候如有遇到身份证号码含有X的,请填写任意数字

 

 

确定提交后,进入标注页面:

其中,

 

A 区为待标注语音的波形信息

B 区为标注信息,默认选择为第一个选项:

第一项: 当前语音是否包含有效语音;

1) 只标注有且只有一个说话人的语音如果音频中有超过一个人的声音,比如背景人说话,或者有TTS 合成的人声,或者含有电视机里的人声、收音机里有人唱歌等等标注为无效;

2) 如果背景中含有猫叫狗叫等动物的噪音,标注为无效;

3) 如果音频背景中只有非人,非动物的噪音如汽车鸣笛声,敲键盘的声音,标注为有效,音频需正常转写;

4) 只含有噪声或者静音,则标注为无效语音。

5) 语音有首尾截断的情况,如:“东洲码头”,第一个“东”被截断一点,听起来像“ong”的音,这种情况标注为不确定 不要根据意思去猜。

6) 如果一个人唱歌,只要是跟车机交互也要标注

7) 如果一个人不是对着设备讲话,但是声音清晰可辨别,需要转写标注;

8) 除以上无效条件外,其余语音均算做有效语音,只要能挺清楚,需要转写。

第二项: 当前语音的噪声情况;

根据语音情况选择,存在一定噪音但还是能听清搜索语音,请选择“含噪音”。如果噪声比较小可默认为“安静”。

第三项: 当前语音的语言情况;

如果语音内容听不太懂或个别词听不清,通过搜索也不能确定,导致不能准确标出语音内容的情况下,则标为“不确定”。所有标注出的结果要保证是确定的。

第四项:语音内容;

直接输入语音内容。根据自己听到的内容进行输入。具体规则如下:

1. 语音内容必须和听到的语音完全一致,不能多字、少字、错字。地名等信息必须完全正确,不可以同音字代替

2. 语音中有犹豫或者“嗯”“啊”等语气词也要写出对应的汉字。

3. 阿拉伯数字要写成汉字形式,如“一二三”,而不是“123”。注意区分“一”和“幺”。“二”和“两”

4. 标注中只能含有中文、英文以及英文中特殊符号,如I'm中的'。如果符号被读出,则根据发音需写成相应汉字或英文。例如@”at”时要写为“at.com”读成“点com时要写成“点com

5. 语气词: 音频中说话人清楚地讲出的语气词,如 “     ”等,要按照正确发音进行转写。语气词除了“了  ”没有口字旁,其他基本上都有口字旁。

6. 转写内容的完整性要与实际发音一致,不得删减;

n 如发音为:东东洲码头;“东”字有重复现象,那转写的时候要写成:东东洲码头。

7. 发音听的很清楚,完全没有口音,但搜索不到,按照发音写同音字;

8. 有口音的要按照正确的来标注。比如:“湖南”。读的是“湖兰”,则标注为“湖南”。

9. 读错字的情况,比如:“东莞”,读成“东晚”,是当前发音人不认识这个字,读的是“wan3”“河堤”的“堤”,读成“ti2”,按照发音人的读音进行标。 

10. 若有两个及两个以上的地名为同音不同字,(即同一条语音搜索结果为多个同音地名)。比如:之江”和“枝江”。若语音只有“zhi1 jiang1”两字,则标为任意一种。若语音为:“湖北省zhi1 jiang1”则标为:“湖北省枝江”。

 

 

注意:

     所有语音均来自语音搜索,即全部特指的地名均要用百度搜索或百度地图搜索,确认最终的语音内容。保证字音正确。如果不好判断听不清的可以直接选“不确定”;可以有小于40%的“不确定+无效”。没有语义的情况标为“不确定”。最终要保证标注“正确”且有效的数据是完全正确的。

1

 

 

2

 

 

提交后,需要对标注的语音内容进行检查,主要针对:

内容中出现数字, 比如13,容易出现”一三”和“十三”的混淆,需要重新返回给标注员修改,将其改为对应的汉字;例如听见一百零八将,要标注出一百零八将而不是108将。

 

第五项和第六项为说话人性别和口音情况;

能听出是儿童的标为“儿童”。能听出说话人有口音的就标为含口音,比如nng不分,nl不分,或者方言等。

 

标注结束后,点击 标注提交 即可

 

如果登录时,选择检查,则B 区的信息将会默认显示已标注的信息,标注员对这些信息进行详细检查,检查的原则是仅修改确定是标注错误的部分,对不太确定的部分将不做修改。检查完毕后,点击检查提交即可。

 

C 区为用户信息, ,其中

Ø 点击 用户名,将会显示用户已登记的信息,用户可以在线修改提交;

Ø 点击 查询,将会出现工作量查询页面:

 

 

选择标注员名,点击选择查询起始时间和结束时间,查询的结果为:

 

 

会显示查询时间内的标注量和检查量,点击标注量或者检查量的数字后,则会按照标注或者检查的时间从早到晚依次列出对应的全部结果:

 

为了方便区分检查,把“无效语音”和“不确定语音”分别显示成红色蓝色。点击列出的结果,比如点击上图中的 3 , 将会显示详细的标注结果和识别参考结果:

 

 

标注员可以对自己已标注结果进行修改及重新提交。

Ø 点击 退出,则用户退出标注系统,

需要特别提醒,用户不进行标注时,一定要点 退出或者注销键 安全退出标注系统。

 

特别注意:

windows player播放器会出现语音末尾截断问题,声音播放不全。如下图1

1

标注人员标注前请先看下浏览器页面中的播放器,并保证浏览器中的播放器跟下图2一致(是黑色底的):

 

 

2

如果浏览器中的播放器跟图1一样,请先卸载浏览器安装最新的版本。若是图1的播放器不能进行标注。

 

三、标注系统白名单

现在出于安全性考虑,标注系统采用IP白名单的方式限制用户访问。所有的标注人员需要先添加自己的IP地址到白名单中。

首先需要检查当前ip地址是否已经添加到白名单中,如果输入地址没有显示登陆界面的话,则说明当前ip地址未在白名单中,需要按照下面的流程添加白名单:

1. 先查询本机实际的外网物理IP地址。方法为:在百度中输入ip,会显示出本机的实际物理ip地址;

 

2. ip添加到白名单中。

在浏览器中输入该地址;同时将IP地址后面的127.0.0.1修改为自己的实际物理IP地址

http://audiotest.baidu.com:8187/addip.php?project=map&ip=127.0.0.1.

3. 添加完成之后,会显示添加成功的页面。稍等5分钟之后,即可进行标注。成功页面为:

 

 

四、 标注准确率要求

      按句统计,当前语言情况标注为有效且“确定”项的,占总句数的60%以上,句子标注准确率要求达到95%以上。 无效+不确定项的标注结果可以忽略。

 

 

1. 一个人说话,旁边有人笑声,  是否有效?----无效;有效数据只标注有且只有一个人声音的;

2. 单个一个字,是否有效?语气词单字重读是否有效?---有效;

3. 纯英文的是否有效?---有效

4. 噪音,空气流动声是否为噪音,这个噪音大小怎么界定?一般带耳机,都能听到嗡嗡的声音,是否为噪音?----人耳能听到,标注含噪音

 

5. 整一段话基本都是清楚的,只有开始或者结束或者中间有一点点声音,也算噪音,对吧?----

6. 有且仅有机器人等第三方设备说话是否有效?---仅有机器人的声音,电视机广播等声音,为无效 

7. 吞音的字无效处理?---比如说呢?类似于北京口音的 “中央电视台听起来像“装电台”??

8. 语义不完整的是否正常转写?---按照发音转写,考虑语义

 

 













推荐文章

户型图家具标注规则和视频教程下载视频点击视频右下角三个点多看几次教程规则下载标注规则更新430.docx问题总结.docx1、如果能直接通过外观观察确认家具的类别、大小及其数量,需要准确标注;在能通过外观观察确认家具的存在、形态及其数量的前提下,如果能通过相互关系(如沙发茶几的搭配)确认的家具, 需要标注准确类别。反之(如阳台遮阳伞下不确定数量、形态的家具),则不标注。2、如果遇到局部遮挡的已确认类别的非主要家具(如被餐桌遮挡的餐椅),可以自己推测标出其大小及范围。3、 如果不能准确确定类别的,或者可能有歧义的“非主要”家具,那么可以不标。4、 如果无法标注的家具在这个区域内是主要家具, 那么这个区域可以整体留白不用标注(包括家具及空间)。5、 如果遇到异形家具,根据具体的家具进行标注: a)餐桌为圆形,那么舍弃椅子, 用一个接近餐桌面积的矩形标注餐桌即可。 b)沙发为L形, 那么拆开为两个矩形进行标注。 c)柜子为不规则形状, 拆开为多个矩形拼接标注。 6、空间标识标记的前提是四面环墙, 除了客厅餐厅。下面的衣帽间空间用途就是错误的。7. 关于窗户,大部分是按基础图示表示,但是因为数据底图种类繁多,导致画法不一定相同。这个时候,要看一下阳台窗、卧室普通窗、飘窗和墙体的对比,如果有明显不一样可以区分,而且相应的窗户在这个位置合理。就可以标注了。如果落地窗和普通窗难以区分,那么都标普通窗也是可以的。具体情况具体分析,不明白请截图过来一起讨论。标注流程 (调整包括调整墙体门窗、家具位置方向大小、选定空间用途)具体家具床类:顶端贴墙,箭头指向床尾方向。床尾凳:方向和对应床方向一致。榻榻米:榻榻米一般三面贴墙,箭头指向唯一不贴墙方向。床头柜:和床的方向相同。 沙发:靠墙的贴墙标记,不靠墙的按底图位置标记,方向由靠背指向坐垫方向。如果是L型沙发则用两个沙发矩形拼接,如果是弧形沙发则外包矩形。茶几:面向主沙发(即人使用方向)。其他小茶几或者边桌考虑它储物空间的位置朝向,原理和斗柜、衣柜相同。各种柜子如斗柜衣柜装饰柜橱柜阳台收纳柜书柜等:贴墙且方向指向拉门或者开抽屉方向。储物间符号不明的柜子按衣柜标注。餐桌餐椅:餐桌朝向有餐椅的方向,餐椅逐个画出且方向指向餐桌。适当画出餐椅被餐桌遮挡部分。玄关柜和鞋柜和餐边柜区分:鞋柜比较窄小低矮,玄关柜通常较高较宽。如果柜子嵌在门口墙壁里大多数是玄关柜;如果柜子较小且上面有摆件则大多是鞋柜。如果在餐桌旁边一般是餐边柜。如果只有一个柜子既符合餐边柜又符合鞋柜玄关柜,那么优先鞋柜玄关柜。空调:立式与悬挂,方向箭头指向通风口。空调器外机ac 不用标。立式大多数在客厅,悬挂大多数在卧室。 橱柜:先选中橱柜分类按照底图用矩形拼接出橱柜形状,然后分别选择灶台和水槽在橱柜矩形上层对应标记。有烟道的注意不要覆盖烟道。烟机:一般形态为覆盖在灶台上的或者虚线或者实线的矩形。冰箱:一般在橱柜旁边,箭头指向开门那一面。 浴缸:浴缸一般三面贴墙,箭头指向唯一不贴墙方向。淋浴:标记隔断内区域或者没有隔断的标注人体活动范围,注意必须贴墙。浴缸淋浴旁边如果有平台类结构,拉长标记覆盖。卫浴柜和水槽:卫生间里面的洗手池一般标卫浴柜,阳台和橱柜上的水槽标水槽。坐便器:第一个可能是在水箱是放了些东西,所以只是坐便器;第二个后面是平台或者墙体包围管道,所以要标墙。不标墙的话就成了坐便器离墙有距离,不合理。总体原则按图标。 圆形家具:外接矩形标记。绿植:盆栽外包矩形标记,如果以一片绿植形态出现则标记该区域。飘窗上绿植需要标记。洗衣机:一般在阳台,也有少数在卫生间等地方。入户花园可以标注为阳台。一些不易区分的图像(不完全,只是一些举例):空调淋浴书柜其他户型1.主要户型区域外的房间不需要标注并且删掉。 2.主要户型之外的楼梯、电梯可以不标。3.如果出现两户型图并列在一张纸上;没家具少家具;比例尺有问题(看下面判定方法);图片变形;重复图片;明显是拍照拍出来的;立体图;不是户型图的其他图;清晰度实在不高;有大面积斜墙的图片等,麻烦上报id给我们删掉,不然这些也是不算数的。4.比例尺判定一是从家具角度,标注图上hight或width不现 实的,比如双人床长2.5m,宽1m。(只是举例子)二是从户型图精确度角度,横纵比例差太多,在其中一条比例尺设定完成后比对一下第二个比例尺,另一条差值范围超过20%则不合格。(动图给你们发过)5.没有比例尺的图片,用界面上的比例尺测量床的长度为2000或者柜子厚度600。总结一下:3、4为了判定图片是否合格,在合格基础上看1、2选择可以标注的部分,然后用5来设定比例尺。(当然以上五点是少部分情况)细节(有待补充)最关注的地方:方向、范围、类别,相互之间的配合。不允许出错的地方:同上容易出错的地方:忽视已经识别好的户型不加修改。

热门文章

滴滴语音标注规则要求及视频教程
一、标注环境1. 请使用谷歌浏览器进行标注。2.标注平台地址:http://label.xiaojukeji.com/labelerTaskList二、标注内容1. 语音有效性标注无效语音请在有效性一项选择“无效”,并在标注文本一项标注大写字母“NULL”。有效语音请在有效性一项选择“有效”。当语音出现下列任意一种情况,即可标注为无效语音:1) 说话人声音极小,小到几乎听不到。2) 整段语音均为静音。3) 整段语音均为噪声、音乐声、导航音、广播等。4) 整段语音只有一个字,或是同一个字重复出现。如:“嗯”、“对”、“对对对对”、“啊”、“喂”、“拜拜”、“谢谢”、“好好好”、“OKOK”等。(注意:“哇噻”属于特例,单独出现时也是无效的。)5) 背景噪声大于说话人声音,或噪声与说话人声音几乎一样大。6) 整句都是方言、外语。方言是指发音与普通话区别较大的地方话,如:粤语、上海话等。7) 语音中出现地点、地名、街道名等方位词,但是地图中搜索不到。8) 语音中有大于等于两个人说话,除主说话人以外,其余人的声音清晰可辨。9) 语音中有大于等于3个字听不清楚。 2. 语音文本标注1) 语音文本内容将说话内容写成文字。要求转写的文本内容必须和听到的语音完全一致,不能多字、少字。a) 除空格、占位符号、以外,标注文本不允许使用标点符号,不允许换行。b) 说话人犹豫、口吃导致出现重复的字也要标注出来,重复了几次就标记几个。如发音为:我是北北京人;“北”字有重复现象。转写文本应为:我是北北京人c) 儿化音不需要标注出“儿”字。如发音为:我在/zher4/。转写文本应为:我在这d) 语音中提及地名、街道名、车牌号等内容,转写时需符合日常习惯。选用“路”、“街道”、“门”、“座”、“桥”等地名常用字以及“京”、“津”、“冀”等车牌号常用字。e) 语音中提及地名、街道名、店铺名、专有名词,需要准确转写。可根据读音在地图中查找,确实存在该地点则进行准确标注,搜不到则无效;f) 语音中确实听不清楚的个别单字,用占位符号【~】标记。一组【~】符号代表一个字。在整段语音中,最多只能有两组【~】符号。若有三个字或更多听不清楚,则标注为无效。(见“语音有效性标注”第8条)g) 语音中不涉及地名、专名的部分,若发音清晰但文字不确定,可以用同音字标注,要求标注用字的声韵调与实际发音完全一致。如发音为:我姓/zhang1/。标注成“我姓张”或“我姓章”都算正确。h) 数字要写成汉字形式,注意区分“一”和“幺”、“二”和“两”,按实际读音写。i) 英文字母要转写成大写字母。j) 音频中说话人清楚说出的语气词,如“呃、啊、嗯、哦、唉、呐、呢”等,要按照正确发音进行转写。语气词除了“了、不”没有口字旁,其他基本上都有口字旁。注意:语气词“唉”、“诶”不分的,统一用“唉”。 3.语言情况标注1)语音中全部内容均为中文,请选择“中文”。2)只要语音中含有英文,不论是单个字母还是单词、不论出现的数量有多少,都需要选择“英文”并且字母全部大写。1、遇到英文单词和英文字母都需要用英文大写形式表现。例如:SORRY SORRY我现在在阜成路麻烦你掉个头2、单词与单词之间加空格 。例如:我把我的APPLE SEVEN PLUS落在了车上麻烦师傅还给我一下3、字母与字母之间加空格。例如:我下了好几回这个A P P了但是怎么安装都是失败的请问客服我该怎么办4、英文单词或者英文字母与汉字之间不需要空格。例如:我的车牌号的京A三六七八5、特殊字:对于OK这一类常用词,默认为一个单词,尽管是拼读成字母发音的。对于无从适配上述规则的及时与我们沟通 4. 说话人性别标注按说话人的音色实际情况进行标注。若无法明确区分男女,不论是成人还是儿童,都标注为“女”。三、标注常见问题总结1. 短句如何判断有效性?答:短句只要有大于或等于两个不重复的音节,即为有效。例如“嗯好的”、“明白”、“可以”等。 2. 有明显口音,但能听懂,需要标注吗?答:口音但不影响理解的,音频中个别几个字的方言可以使用同音字标注。听不清音节的方言也无法使用同音字标注的,可以使用【~】,大于或等于三个字需使用【~】符号的情况下。参照“语音有效性标注”第8条规则,标记为无效。 3. 标注时有的口音能听懂,是按听的音来标注还是按普通话来标注,标注需要符合现实逻辑吗?答:一般情况下口音按实际发音来标注。以下情况请特别处理:常用词语和专有名词需按现实逻辑标注(如:发音是“现/xian4/生”标为“先生”,“滴滴专/ce1/”标为“滴滴专车”等等) 5. 音频中一串数字如【12531】转写为一二五三一还是吆二五三吆?答:转写的文本要和语音实际读法完全一致。若读为yi1,则写一;读为yao1,则写幺。同理,“二”、“两”、“俩”;“三”、“仨”也需要区别使用。 6. 一段很短的音频中语速过快,有时候听起来像三个字又像两个,是不是都能判断合格?答:短音频且内容无法听清的情况下,标记为无效。长音频中很小的一部分,无法确定内容时,参照“语音文本内容”下f项、【~】符号使用规则进行。 7. 一段音频中语速过快,能听清某些音节但大多部分不能做出准确判断写不出是否可以判断无效?答:判断为无效 8. 一段音频中出现导航仪发出的声音或者只有导航仪的声音算噪音吗?答:整段只有导航音,标记为无效。只有一部分出现导航音的时候,看声音大小,如果与说话人音量接近或者大于说话人声音,标记为无效。 注意:如果一句话里面只说了几个字方言,其他都是带口音的普通话,不要直接标无效,那全方言的字按听到的音来标,比如:说的是上海话gege,就标成“葛个”,而不是标成“那个”。语气词无法转写的可以找同音字或相近音字转写;全方言无效 关于地点、地名、街道名等方位词,这些词我们需要使用地图搜索引擎搜索如果地点、地名、街道名等词语很长且词发音很清晰,但使用地图搜索引擎搜索不到这个地点。即使这句话其他部分可以完整的转写出来,但依旧视为无效。二、关于英文转写原规范为:英文字母要转写成大写字母。        细化:1、遇到英文单词和英文字母都需要用英文大写形式表现。例如:SORRY SORRY我现在在阜成路麻烦你掉个头2、单词与单词之间加空格 。例如:我把我的APPLE SEVEN PLUS落在了车上麻烦师傅还给我一下3、字母与字母之间加空格。例如:我下了好几回这个A P P了但是怎么安装都是失败的请问客服我该怎么办4、英文单词或者英文字母与汉字之间不需要空格。例如:我的车牌号的京A三六七八5、特殊字:对于 OK 这一类常用词,默认为一个单词,尽管是拼读成字母发音的。对于无从适配上述规则的,我们及时向海瑞提出。三、噪音符号这部分,这部分依旧不用添加。 四、关于标普、方普、方言如何转写    1、标普:就是普通话,我们是一定要转写的。    2、方普:就是方言普通话,例如广州人说普通话,上海人说普通话,天津人说普通话等等,这些是需要转写的。只是他们在说普通话的时候会有一些口音。例如发音说:我现在湖南(fu2声 lan2声)长沙市中心你来接我一下     他说的是“fu lan”我们正常书写成“湖南”即可。    3、方言:直接视为无效即可,例如:粤语、上海话、江苏话等等。