文章主题:关键词:AI落地, 数据标注, 数字经济底座

666AI工具大全,助力做AI时代先行者!

  中国小康网 独家专稿

  文|《小康》·中国小康网 孙媛媛

  数据决定了AI落地程度,基础数据服务是商业化过程中重要的一环。

数据标注行业的‘罗塞塔石碑’:AI的燃料与秘密?

  图源/hellorf

🌟考古瑰宝🌟——罗塞塔石碑,公元196年匠心铸就,见证历史瞬间!这块石碑以其独特的语言密码,揭示了古埃及法老托勒密五世的伟大统治——一场镌刻在石头上的王朝庆典。它的存在,不仅是文字艺术的杰作,也是考古学的无价宝藏。想要深入探索这段尘封的秘密?快来一睹这千年历史的震撼面纱吧!🔍SEO优化提示:#罗塞塔石碑 #古埃及历史 #王朝见证

🌟考古学者的福音到来!一块神秘的”罗塞塔石碑”揭示了失落已久的古埃及象形文之谜,通过解读这些古老文字的结构和意义,仿佛打开了通往古文明的密钥。🌍在AI世界中,数据标注这块宝石同样熠熠生辉,它如同连接机器与人间语言的桥梁,让机器学习得以在海量数据中茁壮成长。🔍有了它,我们离理解和掌握这个数字时代的信息海洋更近了一步。💻🚀

🌟数据标注:AI进化背后的隐形推手🔍随着ChatGPT的全球热议,我们不禁思考,这场技术风暴是否会掀起数据标注行业的新高潮?这个行业在中国又处于怎样的发展节点呢?🤔💡作为人工智能领域的重要环节,数据标注是智能化进程中的关键步骤。它就像大脑的神经元网络,为AI提供海量信息和情感理解的基础。📊🧠据业内专家透露,随着ChatGPT的成功,数据标注的需求无疑将急剧上升,预计迎来一轮前所未有的高增长期。🚀📈然而,这背后也反映出我国数据标注产业的成熟度与国际接轨仍需努力,如何在保证质量的同时,提高效率和创新性是当前的关键挑战。🎯🛠️《小康》杂志与中国小康网有幸深入剖析这一行业现状,揭秘其背后的脉动。让我们一起期待,这个与科技紧密相连的产业链在未来能更智能、更具人性化,为全球AI的发展注入更强动力。🚀🌍记得关注我们,获取更多关于数据标注和AI发展的深度分析!📚🌐

  数字经济的发展底座

🌟数据标注是将音频、图像、文本和视频等原始素材转化为结构化信息的关键步骤🌟通过深度加工,这些无标签的数据变得生动起来,为机器学习提供清晰的指引💡它就像给数据穿上智能的眼睛,使其能够理解并解读复杂的世界🌍无论是语音转文字的精准识别,还是图像分类的高效运行,都离不开这个幕后英雄

🌟💡数据集:AI引擎的燃油🔥🚀在人工智能领域,数据、算力和算法无疑是引领变革的”三驾马车”,它们的快速发展犹如一场创新的”大爆炸”。特别是在过去的十几年中,数据集作为驱动智能模型训练的关键燃料,对AI技术与产业融合起到了决定性作用。🌍📊庞大的数据集,如同引擎中的汽油,为人工智能算法提供了无尽的能量和推动力。🔥💻算法的精进,就像引擎的精密设计,优化了燃烧效率,让AI的力量更加势不可挡。💡🔍通过数据驱动,我们见证了人工智能从概念到实践的飞跃,也预示着未来更广阔的应用前景。🏆🌍

🎓📊近年来,AI领域的崛起引领了数据标注行业的大爆发。數據标注,犹如AI的基石,为高飞的科技之翼提供了稳固的支持。它催生了一波又一波创新商业模式与新兴业态,围绕AI产业链和大数据领域繁荣兴起,成为数字经济发展的关键驱动力,犹如数字世界的“数据”动脉。🌍

  数据在AI发展过程中极为重要,业内甚至将数据称为“新的石油”来体现它作为将人类智能转化为机器智能原材料的重要性。但放眼整个AI行业,数据的受关注度远没有AI三元素的另外两个元素——算法和算力高。

  造成这个结果的最主要原因就是数据标注行业是一个劳动密集型的产业,“足够廉价的劳动力”是数据标注公司的一大标签。

  整数智能信息技术(杭州)有限责任公司致力于为AI领域企业提供数据服务。其联合创始人赵子健接受《小康》杂志、中国小康网采访时表示:“目前人工智能商业化在算力、算法和技术方面基本达到阶段性成熟,想要更加落地,解决行业具体痛点,需要大量经过标注处理的相关数据做算法训练支撑,可以说数据决定了AI的落地程度。AI的发展离不开海量的数据去做训练和喂养。如果说人工智能是一片矿,不管哪一块需要挖矿,都需要有矿工和挖矿的机器,而数据就可以理解为是挖矿的机器。作为底层的基础设施,每一波的人工智能发展,作为提供数据服务的公司都能从中获益,同时也面临着更多的挑战、机遇、发展前景和更大的市场。”

  《小康》杂志、中国小康网了解到数据标注行业有一套分工流程:巨头把任务交给中游的数据标注公司,再由中游包给下游的小公司、小作坊,有的小作坊还会进一步众包给“散户”,比如兼职学生。一单生意几经转手,就造成了行业众包中介层叠越来越严重,利润所剩无几。然而,实际情况是怎样的呢?

  赵子健说:“不同公司定位不一样。有些公司没有产品技术研发的实力,能做的事情类似倒卖。一些小的城市,可能薪资较低,他们就适合做人力型团队,提供数据标注员。”

  《小康》杂志、中国小康网进一步了解到,做标注和外包审核这部分业务的公司人员流动性很大,因为这个业务比较枯燥,做的是纯一线的重复性劳动,加之其他一些不稳定因素,一般公司会优先保证重要项目不出现人员断档。

  国内做数据标注业务的公司很少有单业务链,比如内容审核集中在二三线甚至更小的城市,给的薪资相对会低。而做内容审核、内容标注等这类业务的公司集中在天津、成都、重庆、西安……相对消费水准低,投入成本也低。

  一位不愿具名的业内资深从业人士告诉《小康》杂志、中国小康网,ChatGPT国产化有个非常大的风险,通过大量的数据训练机器人,跟所有的人对话,这个过程中其接触到的数据有很多可能是有问题的。有很多信息需要进行拦截,比如一些非法的信息。没有经过拦截的信息一经流出,就有可能变成变相的宣传渠道。如果没有专门的人力对这方面的内容加以把控的话,就会成为被利用的渠道。

  为了方便管理,比如担心内容外泄,较大的互联网公司都早早开始自建基地或者子公司,在安全和管理上更好把控,但成本会更高。字节跳动很早就自己建设基地,全国各地大概有六七个城市都有基地。以子公司来做数据标注,更多是基于安全的考虑,比如涉及黄赌毒的内容,有很多是不能流出的。必须承认外包业务泄露的风险要比自己公司泄露的风险大。然而,从成本上考量一定是外包公司更好。

  中国数据标注产业崛起中

  数据标注是计算机感知世界的起点,全球数据标注行业是伴随全球人工智能产业发展而生的。最早可以追溯到上世纪90年代,深蓝战胜国际象棋世界冠军加里·卡斯帕罗夫,全球人工智能产业发展进入新的探索期,1996年澳鹏(Appen)诞生并开始布局数据服务领域业务。2007年数据标注行业正式拉开序幕,始于斯坦福大学教授李飞飞等人的ImageNet项目,该项目要通过亚马逊的劳务众包平台Mechanical Turk(AMT)来完成图片的标注和处理,得到的数据集供机器算法训练和学习。此后,全球开始涌现出众多的数据标注企业,全球数据标注行业也进入成长期。

  从行业供给情况来看,全球数据标注行业企业主要分布在美国、中国、澳大利亚和非洲等国家和地区,但具有一定规模的企业数量相对较少。在美国,数据标注企业较多,突出的特点是技术驱动导向,数据标注服务供给能力和质量较高,代表性企业有Scale AI、Mighty AI、Mturk、Supervise.ly等;欧洲地区代表性企业有塞浦路斯的Mindy Support等。

  数据标注行业不被关注由来已久,直到美国数据标注企业Scale AI,用5年时间(2016—2021)实现超73亿美元的估值,才为国内数据标注行业注入了一针强心剂。

  此后,随着特斯拉在2022 AI DAY上推出Auto Labelling标注平台,并推出4D标注技术,让更多人知道了自动化标注的存在,也让更多专业的数据标注企业走到台前。

  当前,全球数据量仍在飞速增长的阶段。根据IDC发布的《数据时代2025》测算,到2025年,全球的数据生产量将达到175ZB。目前市场上90%以上的数据是非结构化数据,得到有效利用的不足10%,对于这些非结构化的数据只有经过标注处理才能激活其价值,这就产生了源源不断的数据标注处理需求,可以将数据标注处理理解为结构化数据的生产处理,而这些标注企业就是数字经济时代下的新型生产制造企业,生产出来的是“数据集”属性的产品。

  在全球数据量指数级的增长过程中,从非结构化到结构化的数据生产,需要大量的数据标注服务,数据标注将大大激活数据价值,提高数据质量和发挥数据要素的作用。

  “目前相对来说,人力成本比较便宜,国内数据标注业发展的时间节点会比美国机器替代人力的时间晚一些,业内已经开始有公司用自动化的方式去替代人力,去提高数据生产的自动化效果。”赵子健介绍说,数据标注业务分不同的标准和不同的难度。比如做人脸识别的场景,数据标注的任务要求并不高,对人力要求也不高。一些特殊领域,比如自动驾驶领域,还有一些小语种领域,或者专业知识性较强比如法律、金融这样的场景任务对从业人员的知识储备、综合能力要求就特别高。薪水也会根据任务的复杂程度而有所区分。

  赵子健所在的整数智能核心定位是产品型公司,做了一套自动化的数据标注工具,把很多人力的工作用自动化的算法替代,以提升整体标注速度和效率。“转包最大的问题就在于无法保证数据生产的质量和速度,数据如果没法保障,就会影响研发的进程,进一步影响商业化的进程,这是一个非常大的行业痛点。”他说,“我们要做的事就是尽可能促进行业规范化。”该公司推出的自动化标准工具可提效、替代70%的人力。此外,该公司自有供应链稳定持续产出,以此拓展科研机构和企业客户。

  “劳动密集”迈向“技术密集”

  根据《数据时代2025》测算,到2025年我国拥有的数据量在全球的占比将从2018年的23.4%提升到27.8%,位居全球首位。2015年以来,随着国家的大力推动,我国大数据产业加速发展。一大批大数据产业园相继落地,大数据产业生态加速完善,相关标准和技术体系持续完善,应用市场日益壮大,产业国际影响力不断提升。根据工业和信息化部发布《“十四五”大数据产业发展规划》产业规模测算,到2025年底,大数据产业规模将突破3万亿元。在此背景下,数据标注需求随数据量增长而上升。长期来看,我国大数据支出整体呈稳步增长态势,市场总量有望在2024年超过200亿美元。

  在大多数人看来,人工智能是高大上的奢侈品,离实际生活太远,而ChatGDP最大特点就在于,它让每个人都真实地体验到了高质量的人工智能,这意味着它会调动社会的高关注度、积极性与热情,也会使人工智能变成生活中的基础设施,意味着会有更多人投入到这一领域,更多的资本追加、更多的市场关注度,以及更多的产品推出……这种情况下,AI与各行各业深度结合,数据标注的业务量会进一步提升。

  不少业内人士表示,ChatGPT的火爆,对于数据标注行业是利好的。ChatGPT国产化,数据标注在整个市场里占据很大份额,因为它非常依赖于训练结果,机器可以训练底层的数据,但是要想和人进行更人性化的沟通,以及要符合国家的一些规定,单靠机器很难做到,需要大量的人的主观判断,人工智能大发展也会为数据标注行业带来更好的发展。

  互联网内容安全从业者表示,数据标注10年内不太可能被替代。“很多内容,机器再怎么训练它的算法,也很难完全替代人,因为很多东西非常主观、隐晦,机器很难通过算法识别出来,需要人力去做相应的识别。”

  赵子健则表示:“现在数据标注行业已经到了变革的时刻,传统意义上,大家觉得数据标注是人力密集型的行业,但未来发展一定是技术密集型,以技术的自动化替代人力这条路其实在美国走得更快。美国相对来说人力成本较高,所以更早地使用机器替代人力,美国已有大型自动化的数据标注公司,国内也一定会诞生一批这样的公司,真正实现提效,这是对于未来的行业预判。”他很肯定未来大方向上人工智能一定会与各产业深度结合,而每个行业,比如智慧医疗、智能制造、自动驾驶……这些场景都是海量的数据量级,数据已经成为一个新的生产要素。工业的发展需要水电煤,新的经济产业基础设施则需要有数据支持,所以,未来它会是整体经济发展的基础设施。

  (《小康》·中国小康网 独家专稿)

  本文刊登于《小康》2023年3月下旬刊

举报/反馈

数据标注行业的‘罗塞塔石碑’:AI的燃料与秘密?

AI时代,掌握AI大模型第一手资讯!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

扫码右边公众号,驾驭AI生产力!