人工智能的人工部分-数据标注(上)

编辑导读:人工智能的发展,是通过不断学习已知样本实现的。在监督学习的情况下,人工的数据标注是智能的前提与灵魂。本文作者对此进行了分析,希望对你有帮助。

人工智能的人工部分-数据标注(上)

当今社会人工智能领域蓬勃发展,各领域都在追求智能化,耳熟能详的有智能驾驶、智能家居、智能语音、智能推荐等。人工智能是通过机器学习,大量学习已知样本,有了预测能力之后再预测未知样本,以达到智能化的效果,机器学习可分为监督学习和无监督学习,无监督学习的效果是不可控的,常常被用来做探索性的实验。

在实际应用中,通常是有监督学习,有监督学习就需要做数据标注,所以智能的前提是人工,因为智能结果的输出是多次人工样本的输入,可以说人工的数据标注是智能的前提与灵魂,没有人工就没有智能,有多少人工就有多少智能。

一、数据标注的分类

数据标注从难易程度方面可划分为常识性标注与专业性标注。例如,地图识别领域的标注多为常识性标注,标注道路、路牌、地图等数据,语音识别标注也多为常识性标注。做该类型标注工作难点在于需要大量标注训练样本,因为应用场景多样且复杂,对标注员无专业技能要求,主要是认真负责,任务完成效率快、质量高的即为好的标注员。

数据标注从标注目的方面可划分为评估型标注与样本型标注。

评估型标注一般是为了评估模型的准确率,发现一些Badcase样例,然后优化算法模型,该类型标注工作为了节约标注资源可控制标注数量,一般情况下标注千量级的数据,样本具有统计意义即可,标注完成后需要统计正确率,以及错误样例,该类型标注的重点是错误样例的原因总结,分析每个Badcase出现的原因,并将原因归纳为不同的分类,有了原因分析方便算法同学分类型分批次的优化模型。

样本型标注即为模型提供前期的训练样本,作为机器学习的输入,该类型标注工作需要标注大量数据,一般情况下需要标注万量级的数据。为了样本的均衡性,标注样本多是随机抽取的,这样做的优点是可在一定程度上避免样本偏差,但缺点是要标注大量数据。如果是文本型样本,有时可借助算法抽取一些高频、高质量样本进行标注,这样可一定程度上减少标注工作量,但可能存在样本偏差。总之样本型标注是个苦力活,业界有句话这么说的:如果你和一个人有仇,那么劝他去干标注吧。

数据标注从标注对象方面可划分为文本标注、图像标注、语言标注、视频标注,从标注方式方面可划分为分类标注、标框标注、描点标注,这些标注分类基本都属于标注形式的差异,没有较强的专业度,所以不做较多讲述了。

二、数据标注规则的制定

常识性标注的规则比较简单,标注一部分样本即可总结出较通用的规则,但专业性标注的规则比较复杂,制定专业的标注规则需要遵循以下三原则:多维分析与综合分析相结合,因子权重影响因素场景化,问题类型标签化、结构化。以下是招聘领域简历与职位匹配度标注规则的指导思想,具体细节规则会在《数据标注(下)》中阐述。该标注规则比较符合标注规则制定的三原则。

人工智能的人工部分-数据标注(上)

第一,多维分析与综合分析相结合。

简历与职位的匹配度影响因素肯定是多维的,不能只参考工作经历或专业要求一个因子,或者某几个因子,要多维分析,最终再给出综合评分结果。当然简历与职位的匹配标注也不可能一上来就能给出综合的评分,不能纯感性的告诉标注员:你觉得是简历与职位非常匹配就给分,不匹配就不给分,这在逻辑上也不合理。所以要先给单一因子打分,然后参考每个因子的评分结果,最终再进行综合分析给出评分结果。

第二,因子权重影响因素场景化。

前面有提到简历与职位匹配度评估需要给每个因子打分,那每个因子打分结束后怎么给出综合评分呢,给每个因为赋予权重吗?然后按权重计算总分?答案是否定的,我们要结合具体场景把所有因子进行归类分析,比如设定一些重要因子,如果重要因子不匹配可能就直接不给分,比如工作经历代表的是一个人的胜任力,如果该候选人不具备该岗位的胜任力,总分肯定是0分。还有一些因子虽然不是很重要,但会影响评分,有些因子时而重要时而不重要,比如年龄,HR想要1-3年经验的行政专员,候选人40岁,该情况肯定会影响最终评分且很有可能总分是0分。所以把所有影响因子结合场景进行归类分析是十分必要的。

第三,问题类型标签化、结构化。

标注结果一般情况下会以分数的形式展示,ABCD,或者0123,然后一组数据没有得到满分是因为什么呢?哪里不匹配呢?所以前期制定标注规则时一定要把原因分析考虑进去,列出所有不匹配的原因,形成结构化的原因标签,有利于最终分析Badcase的分类与占比,然后算法或者策略团队在优化时可以优先解决占比高或影响恶劣的case。

本文由 @艳杰 原创发布于人人都是产品经理,未经作者许可,禁止转载。

题图来自Unsplash,基于CC0协议。

主题测试文章,只做测试使用。发布者:觉鸟网,转转请注明出处:https://www.jueniao.cn/n/21769.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022年6月14日 00:54
下一篇 2022年6月14日 00:56

相关推荐

  • 柔宇“强制员工休假”真相

    文/张霏 编辑/李信 柔宇的一个口头放假通知,在一众员工中炸开了锅。 近期,柔宇科技多名员工告诉连线Insight,柔宇继欠薪半年后,大量员工被强制休假三个月。 我们清明节不放3天,而是从清明节假期第一天一直放到6月30日,这次放假没有任何文件通知,而是口口相传。一位柔宇老员工告诉连线Insight,4月有全薪,5月、6月的工资和社保将以深圳市最低标准结算。…

    2022年6月25日
    2100
  • 3D体感走出游戏,走进现实,华捷艾米的生意经

    十年前,微软发布了一款划时代的游戏设备:Kinect。 这款设备颠覆了传统游戏的单一操作,不需要使用任何控制器,依靠相机捕捉三维空间中玩家的运动轨迹,就能对游戏进行精准操控。 遗憾的是,一度被认为引发了人机互动革命的Kinect,几年后终因游戏内容生态不足而被砍掉。 而这,也带来了3D体感技术在世界范围内的一度沉寂。 幸运的是,Kinect所采用的3D体感技…

    2022年6月18日
    2900
  • 科创板云计算第一股!UCloud上市即大涨116%

    UCloud也是科创板首家同股不同权的企业。 1月20日,UCloud在上交所敲响钟声,正式登陆科创板,股票代码为688158,发行价为33.23元,开盘大涨116%,达到72元,截止发稿,UCloud最新股价为65元,市值约为277亿元。 从去年4月开始申报,到12月份同意IPO注册,UCloud历时9个月,经历了4轮问询,终于正式挂牌科创板,它们成为科创…

    2022年6月17日
    2400
  • 2021深圳安博会,哪些新品出了圈

    观安博会,不看硬件产品,怎知企业实力几何?正如阳春三月游苏州,不到园林,怎知春色如许? 硬实力,是安防企业立命之本,而在今年的安博会上,哪些企业的产品自带强大气场,哪些产品是值得研究的出圈作品? 2021安博会金鼎奖名单 海康威视:高光谱水质多参数检测仪 海康威视研发的高光谱水质监测仪,集成了高光谱、人工智能、液位雷达、视频感知等前沿技术,突破传统水质监测的…

    2022年6月20日
    2700
  • 国产桌面操作系统“三足鼎立”,谁能最先突出重围?

    【文/观察者网 吕栋 编辑/周远方】 操作系统被视为信息产业的魂。与半导体产业链一样,美国公司得益于先发优势筑起的护城河,长期主导着全球操作系统市场,中国电子信息产业也因此陷入缺芯少魂的困境。 近年来,从Win7停服到勒索病毒,从CentOS停服到震惊业界的Log4j2漏洞,操作系统和软件行业的安全事件频发,尤其在俄乌冲突发生后,更凸显出拥有自主操作系统的重…

    2022年6月25日
    3200

发表回复

您的电子邮箱地址不会被公开。

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信