数据标注工作汇报(多篇)第 1 篇:什么是数据标注?当前,以互联网、大数据、人工智能为代表的新一代信息技术日新月异。人工智能在去年、今年两度被写入政府工作报告。产业勃兴,数据标注员因此成为新兴职业。多名业内人士告诉记者,目前国内至少有大小近千家标注公司,共 20 余万名数据标注员。其实大部分的工作内容很简单的,就是听听语音然后把提示字幕修改一下,或者看一张图片,把里面文字也打出来,这是我们做数据标注常常做的事,只要有电脑,就可以随时随地的去做任务,如果有想深入了解请加微信*****-06-06 第 2 篇:客服录音数据标注规范(完整版)客服录音数据标注规范(完整版)用谷歌浏览器(至少以上版本)来标注。其他浏览器或低版本谷歌浏览器可能出现部分文件播放不了的问题。质量要求:文字错误率:3%以内注:文字错误率指语音内容标注错误,只要有一个字错,该条语音就算错。其他错误率:5%以内注:综合错误率指:除了语音内容以外的其他标注项错误,只要有一项错,该条语音就算错。客服语音内容说明:都是鲜百味公司和客户的电话语音,公司主营业务是卖海鲜,所以大部分内容都是关于海鲜(如大闸蟹)的购买、礼品券、配送等方面。1•当前语音是否包含有效语音无效语音(即不包含有效语音)的类型:文件播放不了;音频全部是静音或噪音;许多地方听不清或者听不懂,例如,方言太重、噪音太大、音量过低等。两个人同时说话超过 3 个字(包括 3 个字)并且听内容不清楚的或者噪音声音盖住说话人声大于 3 个字(包括 3 个字)导致内容听不清楚的2•当前语音的噪声情况如果能听到明显的噪音(噪音指说话人正常说话外的其他声音),则选择“含噪音”,否则选“安静”。常见噪音举例(但不限以下):其他人说话声背景音乐声动物叫声汽车滴滴声咳嗽声明显的电流声3•说话人数量(即标注的语音内容是几个人说的)一人说话(主体说话人):只有一个人说话多人说话:有多个人说话(因为是客服语音,一般是两个人)4•说话人性别如果有多个人说话,则标第一个说话人的性别。标注项:男女5•是否包含口音如果有多个人说话,则标第一个说话人是否有口音。标注项:否:无口音是:有口音有口音是指说话人发音的拼音或声调和正确发音的不一致。常见情形包括:丨和 n 不分,h 和 f 不分,n 和 ng 不分,e 和 uo 不分,前后鼻音,平翘舌,以及其他情况。6•语音内容如果两个人同时说话,以主体说话人声音大的为准来转写...