数据标注工作汇报(多篇)第 1 篇:什么是数据标注
当前,以互联网、大数据、人工智能为代表的新一代信息技术日新月异
人工智能在去年、今年两度被写入政府工作报告
产业勃兴,数据标注员因此成为新兴职业
多名业内人士告诉记者,目前国内至少有大小近千家标注公司,共 20 余万名数据标注员
其实大部分的工作内容很简单的,就是听听语音然后把提示字幕修改一下,或者看一张图片,把里面文字也打出来,这是我们做数据标注常常做的事,只要有电脑,就可以随时随地的去做任务,如果有想深入了解请加微信*****-06-06 第 2 篇:客服录音数据标注规范(完整版)客服录音数据标注规范(完整版)用谷歌浏览器(至少以上版本)来标注
其他浏览器或低版本谷歌浏览器可能出现部分文件播放不了的问题
质量要求:文字错误率:3%以内注:文字错误率指语音内容标注错误,只要有一个字错,该条语音就算错
其他错误率:5%以内注:综合错误率指:除了语音内容以外的其他标注项错误,只要有一项错,该条语音就算错
客服语音内容说明:都是鲜百味公司和客户的电话语音,公司主营业务是卖海鲜,所以大部分内容都是关于海鲜(如大闸蟹)的购买、礼品券、配送等方面
1•当前语音是否包含有效语音无效语音(即不包含有效语音)的类型:文件播放不了;音频全部是静音或噪音;许多地方听不清或者听不懂,例如,方言太重、噪音太大、音量过低等
两个人同时说话超过 3 个字(包括 3 个字)并且听内容不清楚的或者噪音声音盖住说话人声大于 3 个字(包括 3 个字)导致内容听不清楚的2•当前语音的噪声情况如果能听到明显的噪音(噪音指说话人正常说话外的其他声音),则选择“含噪音”,否则选“安静”
常见噪音举例(但不限以下):其他人说话声背景音乐声动物叫声汽车滴滴声咳嗽声明显的电流声3•说话人数量(即标注的语音内容是几个人说的)一人说话(主体说话人):只有一个人说话多人说话: