地图搜索数据标注规范
百度语音标注是百度标注员使用标注工具人工对百度语音数据详细信息进行标记的过程,标注员需要严格遵守百度的各项规章制度,同时严格执行以下的标注员行为规范:
1. 严禁下载、拷贝、传播标注语音,如出现标注语音泄漏的情况,我们将追究相关人员的责任;
2. 杜绝一切不认真、不负责任的标注行为;
3. 标注中出现的问题应及时反映;
4. 标注系统的用户名,密码只限标注员本人使用,请严格保密。
二、 标注系统介绍
(1) 登录标注系统:
打开网页浏览器, 在地址栏内输入标注系统地址:
115.239.210.120
注: 浏览器不推荐使用IE系列,若使用多标签浏览器,形如:
只允许单一浏览器登陆标注系统,严禁在多标签浏览器中登录多次标注系统。
其中,标注员的工作主要分为两种,在登录时进行选择:
Ø 标注: 对未标注的语音信息进行标注,请标注员选择标注即可。
下面将主要结合标注工作进行介绍。
(2) 用户名及密码的获取
系统不支持用户注册,用户名及密码由百度语音组统一发放,标注员获
取用户名、密码后,登录进入系统,第一次登录时,会要求输入个人信息:
点击确定后,填写个人信息。
填写个人信息的时候如有遇到身份证号码含有X的,请填写任意数字。
确定提交后,进入标注页面:
其中,
A 区为待标注语音的波形信息
B 区为标注信息,默认选择为第一个选项:
第一项: 当前语音是否包含有效语音;:
1) 只标注有且只有一个说话人的语音,如果音频中有超过一个人的声音,比如背景人说话,或者有TTS 合成的人声,或者含有电视机里的人声、收音机里有人唱歌等等标注为无效;
2) 如果背景中含有猫叫狗叫等动物的噪音,标注为无效;
3) 如果音频背景中只有非人,非动物的噪音,比如汽车鸣笛声,敲键盘的声音,标注为有效,音频需正常转写;
4) 只含有噪声或者静音,则标注为无效语音。
5) 语音有首尾截断的情况,如:“东洲码头”,第一个“东”被截断一点,听起来像“ong”的音,这种情况标注为不确定。 不要根据意思去猜。
6) 如果一个人唱歌,只要是跟车机交互也要标注;
7) 如果一个人不是对着设备讲话,但是声音清晰可辨别,也需要转写标注;
8) 除以上无效条件外,其余语音均算做有效语音,只要能挺清楚,都需要转写。
第二项: 当前语音的噪声情况;
根据语音情况选择,存在一定噪音但还是能听清搜索语音,请选择“含噪音”。如果噪声比较小可默认为“安静”。
第三项: 当前语音的语言情况;
如果语音内容听不太懂或个别词听不清,通过搜索也不能确定,导致不能准确标出语音内容的情况下,则标为“不确定”。所有标注出的结果要保证是确定的。
第四项:语音内容;
直接输入语音内容。根据自己听到的内容进行输入。具体规则如下:
1. 语音内容必须和听到的语音完全一致,不能多字、少字、错字。地名等信息必须完全正确,不可以同音字代替。
2. 语音中有犹豫或者“嗯”“啊”等语气词也要写出对应的汉字。
3. 阿拉伯数字要写成汉字形式,如“一二三”,而不是“123”。注意区分“一”和“幺”。“二”和“两”
4. 标注中只能含有中文、英文以及英文中特殊符号,如I'm中的'。如果符号被读出,则根据发音需写成相应汉字或英文。例如“@”读“at”时要写为“at”,“.com”读成“点com”时要写成“点com”
5. 语气词: 音频中说话人清楚地讲出的语气词,如 “呃 啊 嗯 哦 唉 呐”等,要按照正确发音进行转写。语气词除了“了 不 ”没有口字旁,其他基本上都有口字旁。
6. 转写内容的完整性要与实际发音一致,不得删减;
n 如发音为:东东洲码头;“东”字有重复现象,那转写的时候要写成:东东洲码头。
7. 发音听的很清楚,完全没有口音,但搜索不到,按照发音写同音字;
8. 有口音的要按照正确的来标注。比如:“湖南”。读的是“湖兰”,则标注为“湖南”。
9. 读错字的情况,比如:“东莞”,读成“东晚”,是当前发音人不认识这个字,读的是“wan3”;“河堤”的“堤”,读成“ti2”,按照发音人的读音进行标。
10. 若有两个及两个以上的地名为同音不同字,(即同一条语音搜索结果为多个同音地名)。比如:“之江”和“枝江”。若语音只有“zhi1 jiang1”两字,则标为任意一种。若语音为:“湖北省zhi1 jiang1”则标为:“湖北省枝江”。
注意:
所有语音均来自语音搜索,即全部特指的地名均要用百度搜索或百度地图搜索,确认最终的语音内容。保证字音正确。如果不好判断听不清的可以直接选“不确定”;可以有小于40%的“不确定+无效”。没有语义的情况标为“不确定”。最终要保证标注“正确”且有效的数据是完全正确的。
图1:
图2:
提交后,需要对标注的语音内容进行检查,主要针对:
l 内容中出现数字, 比如13,容易出现”一三”和“十三”的混淆,需要重新返回给标注员修改,将其改为对应的汉字;例如听见一百零八将,要标注出一百零八将而不是108将。
第五项和第六项为说话人性别和口音情况;
能听出是儿童的标为“儿童”。能听出说话人有口音的就标为含口音,比如n、ng不分,n、l不分,或者方言等。
标注结束后,点击 “标注提交” 即可
如果登录时,选择检查,则B 区的信息将会默认显示已标注的信息,标注员对这些信息进行详细检查,检查的原则是仅修改确定是标注错误的部分,对不太确定的部分将不做修改。检查完毕后,点击”检查提交”即可。
C 区为用户信息, ,其中
Ø 点击 用户名,将会显示用户已登记的信息,用户可以在线修改提交;
Ø 点击 查询,将会出现工作量查询页面:
选择标注员名,点击选择查询起始时间和结束时间,查询的结果为:
会显示查询时间内的标注量和检查量,点击标注量或者检查量的数字后,则会按照标注或者检查的时间从早到晚依次列出对应的全部结果:
为了方便区分检查,把“无效语音”和“不确定语音”分别显示成红色和蓝色。点击列出的结果,比如点击上图中的 “3” , 将会显示详细的标注结果和识别参考结果:
标注员可以对自己已标注结果进行修改及重新提交。
Ø 点击 退出,则用户退出标注系统,
需要特别提醒,用户不进行标注时,一定要点 退出或者注销键 安全退出标注系统。
特别注意:
windows player播放器会出现语音末尾截断问题,声音播放不全。如下图1:
图1
标注人员标注前请先看下浏览器页面中的播放器,并保证浏览器中的播放器跟下图2一致(是黑色底的):
图2
如果浏览器中的播放器跟图1一样,请先卸载浏览器安装最新的版本。若是图1的播放器不能进行标注。
三、标注系统白名单
现在出于安全性考虑,标注系统采用IP白名单的方式限制用户访问。所有的标注人员需要先添加自己的IP地址到白名单中。
首先需要检查当前ip地址是否已经添加到白名单中,如果输入地址没有显示登陆界面的话,则说明当前ip地址未在白名单中,需要按照下面的流程添加白名单:
1. 先查询本机实际的外网物理IP地址。方法为:在百度中输入ip,会显示出本机的实际物理ip地址;
2. 将ip添加到白名单中。
在浏览器中输入该地址;同时将IP地址后面的127.0.0.1修改为自己的实际物理IP地址
http://audiotest.baidu.com:8187/addip.php?project=map&ip=127.0.0.1.
3. 添加完成之后,会显示添加成功的页面。稍等5分钟之后,即可进行标注。成功页面为:
四、 标注准确率要求
按句统计,当前语言情况标注为有效且“确定”项的,占总句数的60%以上,句子标注准确率要求达到95%以上。 无效+不确定项的标注结果可以忽略。
1. 一个人说话,旁边有人笑声, 是否有效?----无效;有效数据只标注有且只有一个人声音的;
2. 单个一个字,是否有效?语气词单字重读是否有效?---有效;
3. 纯英文的是否有效?---有效
4. 噪音,空气流动声是否为噪音,这个噪音大小怎么界定?一般带耳机,都能听到嗡嗡的声音,是否为噪音?----人耳能听到,就标注含噪音
5. 整一段话基本都是清楚的,只有开始或者结束或者中间有一点点声音,也算噪音,对吧?----对
6. 有且仅有机器人等第三方设备说话是否有效?---仅有机器人的声音,电视机广播等声音,为无效
7. 吞音的字无效处理?---比如说呢?类似于北京口音的 “中央电视台”听起来像“装电台”??
8. 语义不完整的是否正常转写?---按照发音转写,不考虑语义