【小哈划重点:目前在中国,还没有已经成型的,面向个人的众包数据标注平台,目前百度众测官方平台仅对企业开放。一个现实的问题是,众包模式如何保证质量?这也是王馨认为众包模式现阶段并不可行的主要原因。华为轮值董事长徐直军在台上说,数据标注师这样的职业很有可能被颠覆,华为要做的改变是提升AI自身的自动化水平。】
摘要: 没有“人工”就没有“智能”,这一幕很可能只是人工智能产业发展史上的短暂一幕。
从人工智能发展高地北京到达河南郑州只需要两个小时的高铁,那里有中国最大的代工厂富士康。再从郑州火车站出发,半小时车程,到达一栋不起眼的写字楼,打开一间没有任何标志的大门,就是目前河南最大的人工智能数据标注工厂翊澳数据的总部。
聚集在北京的人工智能公司里,随处可见人脸识别机器以及实时的大数据热点图。但这家数据工厂里,并没有任何智能的样子,也没有普通工厂里的流水线,更像是一间网吧——装修简单,几十台电脑依次排开。
正值午休时间,一半的电脑前面空空如也,还有数十名员工坐在电脑前,或是吃着打包来的午饭,或是掏出手机打游戏,也有部分标注员还在处理一张张模糊或清晰的照片。
数据标注行业流行的一句话,“有多少智能,就有多少人工”。目前AI算法能学习的数据,必须通过人力逐一标注,这些人力为AI产业提供养料,这是AI金字塔的基础,处于最底层。
此前,一些数据标注工厂被冠以“血汗工厂”的名号,为了应对庞大的数据标注需求,标注员们必须加班加点的盯着电脑屏幕,夜以继日的重复枯燥的工作,但眼前的这个工厂里,似乎有些清闲。
“听说北京AI很火,我们也想参与进来。”翊澳数据总经理靳建伟对《财经》记者说。
靳建伟经历丰富,善于追逐潮流。微信最火的时候他做过微信推广,拼多多起来后在上面卖过袜子,还在关注短视频营销行业,“你知道抖音推广吧?就是一个后台可以操纵一百个账号那种,据说很赚钱。”
大多数AI初创公司还处于依靠融资发展的阶段,但数据标注产业更像传统行业,拿一单数据结一单钱,江湖中流传的传说是,这个领域已经创造了不少“一夜暴富”的故事。
被这样的故事吸引,不少像靳建伟一样的人们加入了这场淘金游戏,但现实给了他们当头一棒。
2018年,河南省的数据标注公司死掉了一大半,剩下几乎都在艰难求生,接受《财经》记者采访时,靳建伟已经2个多月没有接到新的订单,工厂员工从600人,锐减至200人,他觉得自己恐怕需要开始找下一个风口了。
撞进了AI圈
靳建伟今年28岁,2017年以前,他甚至没听说过“数据标注”这个词。
他并不懂AI算法和技术,也不太清楚AI到底能解决哪些问题,2017年,他偶然听说做数据标注能赚钱,当时他正从事证券销售业务,由于没有资质,公司被关停,他找到一个卖保健品的朋友,共同成立了这家数据标注公司。
2017年,中国AI创业开始达到顶点。对数据标注的需求也迅速爆棚。河南是人口大省,数百家数据标注公司在此诞生。靳建伟算了一笔账,一个成熟的标注员,月产值能做到7000元,除去3000元的工资和质检、场地设备等费用,公司能赚1500元。
“那我不断招人就行,如果招100个人,一个月就赚15万。”靳建伟说道,“怎么看都觉得这个生意靠谱。”
有电脑,有场地,再迅速招一批没有学历、工作经验要求的数据标注员,就可以迅速上手。
深度学习的关键在于大量的数据训练,数据训练之前,必须对这些数据进行明确的标注。例如,机器需要识别斑马线,就必须提供大量标注了斑马线的数据来进行学习,数据量足够大时,机器就可以识别出任何角度的斑马线。
这意味着,在某种程度上,AI算法的优化,取决于数据标注的质量,而把控这些质量的,是完全不懂AI技术的一群人。
一名没有任何经验的标注员,通过半天的培训即可开工, 1-2个月之后可变成熟练工,一天就可以完成1500-2000张图片的标注。
需要标注的图片数据从客户提供的数据处理平台上打包下载,根据不同的需求进行标注,常见的包括物体识别和人脸识别,物体识别主要是“画框”,人脸识别则是“打点”。完成后会进行一到两道的质量检测程序,来确保标识准确率,合格后会重新传送到客户的数据平台上。
然后,这些数据会被应用到自动驾驶、AI安防、智能身份认证等新兴应用领域。
依靠这些应用,人工智能公司在资本市场颇受追捧,投中研究院发布的数据显示,2018年上半年,进入商业化阶段的中国人工智能行业已经获得超过400亿人民币的融资。
这400亿的资金,仅有极少部分流入了数据标注行业。企名片收录的标签为“数据标注”的公司共有15家,2018年,这15家公司共完成6笔融资,单笔融资金额约为1000万人民币左右,总计不超过1亿人民币。
靳建伟还没考虑过融资这件事,他听说北京的AI公司都在以亿为单位进行融资,但他的思维和之前的数次创业没有区别,找客户,做业务,能赚钱,才是应该做的事情。
单打独斗在当下的AI圈很难混得开。由于完全没有相关行业经验,也没有资本加持,一开始靳建伟只能接二手,甚至三手订单,也即外包服务。“一些有渠道的公司接了订单,自己不做,或者自己做不过来,就分发给我们做,他们再从中间收取差价。”
与很多行业一样,渠道是核心竞争力,中间商们不需要耗费太多的人力物力,就能赚取可观的利润,底层的工厂们,加班加点,只能勉强维持经营。
这样下去可不行。在熟悉了行业之后,靳建伟开始主动出击,拓展渠道,试图绕过中间商。从知名的头部AI公司开始,到所有他能找到联系方式的中小AI企业,他问了个遍。得到的回应要么是“不需要”,要么是“我们已经有了自己的数据标注团队”,更多的是石沉大海,没有回音。
“人家上来就问你,以前做过哪些项目,我说不上来。”他很无奈。
类似商汤科技、科大讯飞这样的头部AI公司,都会自建数据标注团队,既能方便管理,也能更好的理解需求。
但确实也有大量AI公司,由于团队人数、资金成本有限,有外包数据标注的需求,但大部分都会通过熟悉的渠道寻找标注团队,或者和大平台合作,例如百度众测平台。
百度众测是百度旗下的一个类似众包模式的数据平台,2014年在百度世界大会上正式推出,平台上会分发各类任务,在行业内称为“放题”,包括数据采集、图片标注、文本标注等。
百度在中国人工智能领域起步早,渠道辐射广,众测平台上每天都有大量的数据标注需求,并且开放注册,这让靳建伟看到了机会。
当然了,当时他还没有意识到,更大的困难在等待着他。
饱一顿,饥一顿
距离郑州车程两个小时的河南新乡辉县,甚至找不到一栋商用写字楼。从马路边一个毫不起眼的门洞上楼,就是翊澳在辉县的工厂,也是该公司目前规模最大的一个厂。
两层楼,近500平方米的空间里,划分出了三片工作区域,但目前仅有一片区域开工运转。
翊澳下面类似这样的分厂有十几个,分布在河南省内各个县市里。
由于百度众测平台提供了订单来源,翊澳几乎是在一夜之间发展成这样的规模,靳建伟拉来以前一起做证券销售的同事们,让他们回到各自的老家成立分工厂,并担任负责人,“之前一起做过事,已经有信任关系,下面这些地方场地租金更便宜,员工工资也低,更省成本。”
百度众测给了翊澳数据第一桶金,但同时也让靳建伟认识到这个行业的惨烈。
他回忆,去年百度众测上的“题”特别丰富,大量数据标注团队都紧紧盯着,僧多肉少,百度众测有绝对的权力来制定游戏规则。
想要拿到“做题”资格,必须经过数轮考核,比赛做题的速度和准确度,每一轮考核后,都有团队被淘汰出局,最后仅剩十支团队能进入百度众测的名单,每隔一段时间,就会有末位淘汰,后三名的团队会被替换掉。
这一过程堪比高考,工厂的员工大多学历不高,以专科生为主,但为了赚钱,他们铆足了劲。“那一段时间我们天天刷题库,练习,这个事情就是熟能生巧,我们单独拉了一支20人的团队,不干别的,就应付这个考试,来来回回折腾了好几个月,终于考上了。”
自去年加入百度众测平台开始,翊澳数据就一直保持在前十名的位置,这也让他们真的赚到了钱,“从去年10月到今年上半年,百度一共给我们结了120万。”靳建伟说道。
但他仍有怨言,在他和一些同行看来,百度也不太地道。前期耗费几个月时间的考试,似乎是在做无偿劳动,“那些考试的题,其实就是真实的客户需求,我们做完了,百度就拿去卖了。”
只要能赚钱,前期免费付出一些也未尝不可。相比其他订单来源,百度众测给的单价更高,平台上的订单价格是按照每个标注员每天8小时工作量测算,正常情况下8小时能标注1200个数据框,价格是240元人民币。
为了能够扩大收入,靳建伟要求员工一天能标注2000个数据框,“做的越多,赚的越多。”
依靠百度众测,靳建伟尝到了甜头。好景不长,百度众测平台上的单越来越少,甚至出现长时间的“断粮”情况。
目前整个AI行业都处于起步阶段,数据与算法交替磨合前进,需求在不断变化,对于数据标注的需求也是周期性的,并非源源不断。例如,2017年,数据标注行业就很少接到车牌识别的订单,因为标注量已经足够多,算法需要时间去慢慢消化,并落实应用,然后再发现其他数据需求。
突然无题可做,这对于当时已经有数百人规模的翊澳数据来说,压力巨大,每天员工的工资就是一笔不小的开销。
为了维持运转,他只能再去找新客户,他们曾经接过自动驾驶明星公司Momenta的二手订单,他降低价格,说服了Momenta直接给订单,绕开了中间商。
自动驾驶企业对数据量的要求非常大,路况信息庞杂,采集到路况图片后,需要人工对路牌、障碍物、交通信号标志等多种信息进行标注。
Momenta成立两年时间,已经完成5轮融资,融资金额超过1亿美元。在同行看来,接到这样的明星客户,意味着能在业内树立口碑,且融资能力强,不缺钱。
但Momenta给到翊澳数据的标注价格非常低,几乎只有百度众测的30%,他们完全赚不到钱。“那也没办法,还是要做,不然我手里这么多员工,吃什么?”
采访进行到一半时,靳建伟突然接到了百度众测打来的电话,过去两个月,他多次试图联系百度众测平台,但得到的回应都很冷淡,而这一次,对方告诉他,马上平台上会放题,让他提前做好准备。
“好几次都想放弃,每次一冒出放弃的念头,就来消息说数据马上要来了。”
这个消息让他既欣喜又纠结,百度众测一旦放题,意味着收入可以很快跟上,但他现有的团队很难保证同时兼顾百度和Momenta两头,虽然出价低,但Momenta是他唯一的标杆客户,也有必要长期维系。
距离翊澳数据总部几十公里之外,是富士康的郑州园区,员工数量超过25万人,靳建伟曾经的梦想是做出一家人工智能领域的富士康,但现在,他发现这个梦想有些遥不可及。
随着AI产业的兴起,各行各业都了有AI化的需求,也进一步刺激了数据标注行业的发展,翊澳数据这样的数据工厂只是其中一环,AI公司、数据标注平台、中介、数据工厂,甚至包括个人,共同组成了这一条产业链。
其中,中介们最为活跃。
除了Momenta,在靳建伟寻求出路的过程中,北京数据标注初创公司星尘数据主动联系了他,也是唯一一家主动找上门,并能提供订单的公司。
星尘数据位于北京三里屯,2018年1月完成1000万人民币的Pre-A轮融资,公司运营副总裁商宇通过百度众测平台发现了翊澳,“他们一直保持在平台的前几名,说明标注质量有保障。”商宇接受《财经》记者采访时说道。
与翊澳数据一样,星尘数据的办公室也找不到任何标志,创始团队大多有美国工作背景,他们像硅谷的初创公司一样,十几名员工挤在一起,整个公司看起来还没有靳建伟个人办公室大。
但他们比靳建伟更了解这个行业。
“我们想做的其实是一个数据标注平台,”商宇说,“能够对接需求方和标注团队,以及有时间和余力做标注的个人,就像是数据标注里的滴滴。”
平台是长期目标,短期内,星尘做的是中介的工作,他们去竞标订单,然后找到工厂承接。
但大家都处于摸着石头过河的程度,星尘断续给了翊澳一些小订单,怎么定价,是双方都不太清楚的问题。
从郑州去往辉县的路上,靳建伟收到星尘发来的消息,称他们准备去竞标一项数据采集的单子,让靳建伟报个价,他们拿着这个价格去竞标。
“我怎么知道应该报什么价格?”靳建伟有些茫然,他没做出(出?——哈希力量标注)数据采集的工作,但是他缺订单,两小时的车程中,他一直在纠结报价的问题。“50?30?要不然报高一点让他们砍价?但是万一觉得太贵把我们排除了怎么办?”
相比他们的迷茫与矛盾,博雅立方走的是另外一条路线——提供定制化的数据标注服务。
数据服务提供商博雅立方是中昌数据(600242.SH)旗下品牌,主要业务就是数据标注,团队目前超过1000人。
博雅立方总经理王馨比靳建伟更早看到了机会,2012年,她开始做搜索引擎和输入法的语量库和知识库。“你在网上搜索资料,和语音识别、图像识别一样,都是机器交互,也就需要不断的给机器灌输信息来实现。”
AI爆发后,王馨也转型到数据标注领域,除了简单的图像数据标注,他们还做难度更高的语音数据标注,以及专业性更强的细分行业数据标注,如医疗、法律等。
不过,AI公司通常不会只找一家数据标注公司提供服务,将标注需求拆分给多个团队能够更好的降低成本。这一过程基本通过招投标的方式来进行,客户主要考察过往经验,完成订单所需时间,以及单价。
在全行业都缺乏经验时,完成订单的效率和单价就成主要考核因素,灵活的小团队们在这两点上,优势显得更大。“想要找人来外包订单,快速完成,并不困难。”靳建伟表示,“你在网上发个招聘信息,一天之内会有100家接不到活的团队找上门。”
价格方面,小团队也更“狠心”,王馨就多次在招投标环节遇到开出不合理低价的小团队,“他们更想要的是客户案例积累。”
环环相扣的数据标注行业像是一片挤满了鲤鱼的池塘,偶尔一把鱼食撒下来,会被不择手段地立刻分食干净,然后饿着肚子等待下一场竞争。
快要消失的围城?
过去几个月,靳建伟看着周围的同行一个个开始转型、退场,每天都处于焦虑状态中。此前他熟悉的一个同行,由于找不到标注的订单,接了一份猪脸数据采集的工作,在乡下找猪圈拍照,3天时间收入2000元。
“我也想好了,不能这样无限的砸钱进去,我的底线是再投入100万,如果还是这样的情况,就放弃。”他说。
数据标注行业越来越像一个围城,城中人痛苦不堪,找不到出路,城外人认为这里遍地黄金,会诞生下一个富士康。
在中国政府大力支持AI产业发展的政策环境之下,不少地方政府都通过各项优惠政策,吸引AI公司落户,但数据标注行业似乎是一块被忽视的死角。
接受《财经》记者采访的数据标注相关团队都表示,目前他们没有发现任何相关的优惠政策。
没有政策优惠,也几乎没有任何壁垒,数据标注只能存活于产业链底端,压价情况严重,生存艰难。大部分时候,数据标注团队都会面临两个选择——要么无订单可做,要么接受亏本价。
由于业务的不确定性,大量小型数据标注团队都是有活就干,无活解散,这也导致标注质量无法得到有效保证。
中国信息通信研究院在今年9月发布的《2018年人工智能发展白皮书》中表示,在数据层面,主要存在流通不畅、数据质量良莠不齐和关键数据集缺失等问题,尤其是数据标注主要通过外包形式,劳动力水平决定了产出的标注数据质量。
多位接受《财经》记者采访的AI初创公司创始人表示,他们接触过的数据标注团队质量良莠不齐,“那些数据标注团队能做到的,我们自己也能做,可能还能做的更好,为什么要花这个钱?”其中一位创始人说道。
在商宇看来,没有技术壁垒的工作,完全可以通过平台众包模式,分发给个人来做,“这样效率更高。”
数据标注众包模式最早出现在美国,2015年,亚马逊推出劳务众包平台(Amazon Mechanical Turk),初衷是为了解决内需——管理库存,完成图片和产品分类,翻译文本,将语音或者图片转录成文本等工作,随后平台渐渐对外开放。截至2017年底,该平台注册用户量累计过50万。
亚马逊众包平台的一个标志性的成绩是帮助斯坦福人工智能实验室主任李飞飞完成了ImageNet的建立,ImageNet目前拥有超过1400万被分类的图片,大部分由该众包平台上50000名用户耗时两年完成。
目前在中国,还没有已经成型的,面向个人的众包数据标注平台,目前百度众测官方平台仅对企业开放。
一个现实的问题是,众包模式如何保证质量?这也是王馨认为众包模式现阶段并不可行的主要原因。
AI在行业落地时,屡遭困难,很大一个原因在于传统行业与人工智能之间的隔阂仍然明显。博雅立方作为数据标注行业里的老牌公司,同时又有上市母公司的背景,吸引了不少想要进行AI化改造的传统企业。
这些公司很多仍然不清楚自己真正的需求是什么,为此,博雅立方组建了一支专业化的前端团队,这些人来自于传统行业或是AI行业,在前期就会花费大量的时间进行沟通交流,来明确应该采集哪些数据,应该做哪些维度的标注。“这些都是众包模式无法提供的服务。”王馨说,“当然我们的价格也会更高。”
以目前行业压价情况来看,有能力做到深度、定制化服务的团队并不多,而另一方面,大部分数据标注需求,还处于相对基础的水平,对于还未能通过AI盈利的大部分企业来说,也不愿意在数据标注环节,支付稍高的价格。
AI是否会让更多人失业,一直是被讨论的焦点。国际货币基金组织的一份报告称,包括AI在内的新兴科技将让全球30个国家和地区的2600万份工作消失。科技进步同时也创造了许多新的就业机会,数据标注就是一个由于人工智能发展而诞生的新行业。
在缺乏行业标准,发展混乱这些现有问题之下,数据标注行业面临最大隐患是,未来AI的发展可能不再需要这一环节。
10月10日,中国最大的科技公司华为发布了AI战略,华为轮值董事长徐直军在台上说,数据标注师这样的职业很有可能被颠覆,华为要做的改变是提升AI自身的自动化水平,比如在数据标注、数据获取,特征提取,模型设计和训练等环节实现自动化或半自动化。
没有“人工”就没有“智能”,这一幕很可能只是人工智能产业发展史上的短暂一幕。
(原文标题:《火爆“智能”下的惨淡“人工”》,谢丽容 | 编辑)
相关内容: