通用语音数据标注规则

2、标注规范 ——共3项（文本、无效、性别）

注：文本正确率：95% 其它（无效+性别）正确率：95%

注：一定不要多字、漏字！！

2.1性别

类别	分类	定义
	男
性别	女
	童声	童声指小孩非常稚嫩的声音，大概是在5岁以下的范围。大孩子的声音归到男女。
	其他	没有人声，或者男女混声的统一规为其他

注：女生之间的对话性别是女，男生同理；只有男女相混的对话是其他

2.2判断是否为无效语音

无效：

1、主体人声音的前面、或后面、或中间：有一段安静或噪声等非人声，长度在2秒以上（宽条是0.3秒）。

【注意整句无人声的不是无效】

2、声音是转格式转错的。

无效语音，直接打勾，文本不用修改。

3.全英文的句子听不懂标无效

有效：其它都是有效

2.3修改文本

标注文本，目的是把耳朵听到的“普通话或带口音的普通话”标成普通话文本，严重听不懂的“方言”，可标注#

2.3.1标注#的情况

（1）听不懂、听不清的词或方言标注#

（2）英语语句中，听懂的单词标注出来，听不懂的标注#

（3）除英语外其他国语言标#，发音如“萨瓦迪卡”，“阿尼哈塞呦”等必须标#

（4）粤语标注#

（5）噪音标注#

（6）遇到拼音标注#，如“阿啵呲嘚”等拼音

（7）整句无人声，只有噪音，不超过2S的标#，如一个人整句咳嗽声

注：

#可以代表一个字不清楚或者几个字不清楚；

一句话中可以出现最多两个#，但不能 同时 ## 这种形式出现；

最多可以 #文本# 这种形式出现；

2.3.2姓名问题

（1）姓：必须标注正确，确定是有这个姓

（2）名字：名字可以打同音字

2.3.3地名问题

（1）省市等较大地名必须查清楚，不能出现错字：如浙江省无锡宜兴市

（2）较小的地名，如村镇以及道路、小区等可标注同音字。

2.3.4数字问题

（1）听到的阿拉伯数字写成汉字，如“一二三四五”或“幺二三四五”

2.3.5儿化音问题

（1）带儿话音的，可以写出“（儿）”字，并且加括号；或者直接不打儿化音，皆可。
例如：我得了5分儿，文本要写成：我得了五分(儿)/我得了五分

注意：不是儿化的不用加，如女儿，婴儿等不是儿话，就不能加在“儿”字上加括号。

2.3.6语气词问题

（1）注意口语的字：口语中，结结巴巴说出的，要写出对应接接巴巴声音的字。

（2）口语中，“嗯”、“哦”、“啊””等，要准确对应文本。例：声音“呀”，不能写成：“啊”

2.3.7英语相关问题

（1）单词：英语单词，整个单词要小写。如“happy”

（2）字母：说字母的写成字母，要写成大写。如“A B C ”。注意：QQ、MSN，是字母发音，要写成大写。

注：英文单词发的不标准，如能听出是哪个单词，就写单词。

整句都是英文句子的情况：

l 一句话中发音不清楚的单词，标#，发音清楚的单词必须写出单词

l 整句英文都听不清楚时，标为无效，不要整句标为#。

l 英文用中文谐音写出来的，算错。如：black 写成布莱克算错

l 一些地名，人名按英文读的，需要写英文，如：I am gonging to shanghai 不能写成“上海”

l 其他国语言，发音如“萨瓦迪卡”，“阿尼哈塞呦”等必须标#

2.3.8混音问题

混音包括3类：

1、当前电话通话的两个人同时说话，相混

2、当前人声与较亮或尖锐的音乐声（如铃声、汽车喇叭）相混

混音部分的标注方法：

（1）如果非主体人插话不影响对主体人说话的理解，标注员可以听出主体人说话的字，则要求写字。（不要出现一个音对应两个字）

例如：非主体人插入的话，音量小、字数少，可忽略当成没听见。

（2）如果非主体人插话，造成标注员已听不出主体人混音部分的字，则要求混音部分标#。

例如：非主体人插入的话，由于音量过大相混在一起，听不清主体的话，混的部分写#。

（3）如果音乐声相混，不影响对主体人说话的理解，标注员可以听出主体人说话的字，则要求写字。

如果音乐声相混，造成标注员已听不出主体人混音部分的字，则要求混音部分标#。

3：增加#的情况

l 人声中出现突然间的大噪音且与人声不相混，包括铃声、叮声、咳嗽、扑话筒、有大的音乐背景等，写1个#。

l 人声前边或后面出现一片乱乱的小声说话、持续的背景噪音，写#和不写#都可以。

注意：安静的静音处，不能写#。

2.3.9 标注页面蓝条与黄条使用

蓝条和黄条的功能有3个：

（1）尺子，表示0.3秒，可以用于量取2秒判断无效。

（2）选中功能。选中的是播放蓝条最左端到黄条最右端的声音。当语速特别快时，建议分段选中去听，写下文本，正确率会提高。

（3）确定#在哪儿出现。

标准普通话与带口音的普通话对照表：

类别	定义	特例	举例说明
无口音	拼音、声调都正确
轻口音	拼音对，声调不对	n和l不分； n和ng不分； z/c/s和zh/ch/sh不分属于轻口音	那个，发音：la4 ge5（标准na4 ge5 ）
			电信，发音：dian4 xing4（标准dian4 xin4) 平时，发音：pin2 shi2（标准ping2 shi2）
			政治，发音：zeng4 zi4（标准zheng4 zhi4）刚才,发音：gang1 chai2（标准gang1 cai2）
重口音	拼音不对（n和l不分；n和ng不分；z/c/s和zh/ch/sh不分）除外		湖南，发音是 fu2 nan2（标准hu2 nan2）歌曲，发音是guo1 qu3（标准ge1 qu3）

上一篇:注册找标注网送爱奇艺会员

下一篇:通用监控场景标注规则

热门文章

为什么有些人说数据标注就是个坑？

对数据标注行业稍微有些了解的人都知道数据标注进入门槛低，适合很多人兼职也适合创业。正是因为数据标注行业的门槛低这个特点最近两年从事数据标注的小公司小工作室如雨后春笋般的遍布全车大大小小的县城。但是目前有个有趣的现象，那就是有很多进入数据标注行业做了一段时间的人慢慢的感觉数据标注行业就是个坑？为什么有些人会说数据标注就是个坑呢？其实对与有上述问题认识的人我们认为，这些人多数都是有于对这个行业对自身条件的不了解，盲目的开始进入数据标注行业的。为什么我们会这样说呢？下面就给给大家来分析下到底有哪几方面的原因：一、有相当一部分人是听了朋友或者网上消息说这行很火爆，好做，门槛低，也有一部分人了因此租办公室买电脑招人，然后就去群里面找分发项目的人就开张干起来了。可实际上这些人他们大多数都没有充分了解数据标注行业，更没有认真仔细得去调查分析，到底自己能不能做好一个项目，到底自己能不能有质有量按时交付的完成一个项目，到底自己有没有这个能力来管理项目。更多的人也没有去用长远的眼光去考虑数据标注项目。二、数据标注项目虽然入门门槛低，但是相当一部分有于理解认知应变能力上都不能保证去做好数据标注项目，还有一部分人由于自己对标注项目重视程度不足接到项目之后呢？不仔细认真的去阅读理解项目规则，更没有很好的对规则质检标准去培训员工，而对员工的要求主要看重每天的产出效率，从而导致接到手的项目做的质量很差，频繁的返工，有提项目甚至因为质量太烂项目方不给结算或者是结算比例很少，最终的结果就是做好些个项目但基本都是赔钱。三、虽然业内人都说数据标注简单，但是标注项目他也是一个系统性的工程，一个项目能不能做好并不简单的看项目好做就能赔钱。实际上决定项目赚不赚钱考验的是一个团队的项目管理水平，质量管理能力，运营能力各方面因素的。一句话再好赚钱的项目也照样有人赚钱也有人赚钱，要赚钱不是那么简单的。四、还有些工作室、小公司因为对行业不够了解等他们做了一段时间后发现，自己团队经常会没有项目做，而自己团队接项目的业务能力又不具备，甚至有的时候为了员工有活干去接一些价格极低根本就不赚钱的标注项目，时间稍微一长这些工作室团队就会赔上很多钱最终关门倒闭。五、下来要说的就是一部分人人兼职人员由于认识不到位，对项目的规则质量要求文件不认真阅读消化理解导致做的项目质量差返工有的甚至最后不结算，最终退出这行。更有一些人由于经验不足被标注行业的项目骗子给忽悠到辛苦劳动到最后结算时找不到人。标注行业本身由于进入门槛低，做的人很行业内盲目打价格战，导致很多转手二手三手的项目在质量工期的要求下根本就不赚钱甚至赔钱，所以在这里也提醒大家做任何事都要谨慎而行。

友情链接:

通用语音数据标注规则

2、标注规范 ——共3项（文本、无效、性别）

2.1性别

2.2判断是否为无效语音

推荐文章

热门文章