168大数据

标题: 「星尘数据」获Pre-A轮融资,用算法提高数据标注效率 [打印本页]

作者: 168主编    时间: 2018-6-19 21:20
标题: 「星尘数据」获Pre-A轮融资,用算法提高数据标注效率



“Stardust星尘数据”是一家数据标注公司。2017年5月公司注册成立,同年8月获得数百万元的天使轮投资,由天使湾领投,英诺天使、老鹰基金和创势基金跟投。此后于2018年1月,公司又完成了数千万元的Pre-A轮融资,由青锐创投投资。
AI要真正发挥作用,优质的数据必不可少,业界共识“大量数据+普通模型”比“普通数据+高级模型”的准确度更高。所以,前端的数据采集、加工环节单拎出来成为了新的机会点。目前这个赛道有三类玩家:①自营标记人员——标记质量可控,有新的需求也可及时响应消化,但模式太重,成本较高,规模化扩张不易;②众包标记——为了保证需求的响应,人员数量得足够大,通常成千上万。随之而来的问题是要搭建上百人的运营团队,派专人做项目管理;③机器标记——相比前两者,这类更加依赖算法、模型,希望借系统提供人效。
“星尘数据”便属于第三类玩家。首先,通过系统对人进行管控,根据人员的标记水平分派不同等级的任务,从而提高运营效率。其次,标注工具易用性更佳,而不是直接用开源或者AI公司提供的工具,这样一来还能跟整个标注流程、绩效管理融合。再者,星尘用深度学习的模型辅助标注,已经可以做到对100多种物体识别标注,从而减少人的工作量。
据悉,通过星尘的“stardust”系统,人的工作量在80%,机器的工作量在20%,这个比例还在不断优化中,未来机器可能占到80%。
在36氪之前的文章中,有创业者表示不会用机器标注替代人工,“因为人工标记的数据在误差层面符合正态分布,而机器标记的都是同一水平,用机器生产的数据再训练机器,并不利于AI最后的训练效果。”以及,理论上,下游的应用公司算法更强,若用算法进行抠图,企业客户为什么不自己标注?
对此,星辰数据创始人兼CEO章磊认为,人工标注确实会有偏差,但这种偏差并不会有助于机器训练。准确答案只有一个,星尘可以通过算法机制保证输出正确结果,目前的准确率在99%。并且,下游应用公司的最终模型和标注时需要的模型还是不一样的,星尘的模型是用来提高效率的。
据章磊透露,在上次我们报道完星尘之后,团队已从10人左右扩张到20人左右,基本为研发人员。而公司现处于稳步拓客阶段,已经服务了几十家AI企业。目前拓客速度主要受限于平台功能,所以公司在不断迭代、完善产品,未来1-2个月便可发布。
随着公司发展,章磊对数据标记这个行业也有了一些新的思考:
第一,一味强调众包人员的数量,意义并不大。因为对C端来说,数据标记是一个没有忠诚度的事情,他们是价格敏感群体,哪里赚钱多就去哪里干活。所以提高效率,让收入增多才是留住人员的上策。
第二,对B端企业来说,粘性也不是很大。他们最关注的是质量、价格,而市面上的标记质量相差不大,“便宜”就显得格外重要。这时候就需要用系统、机器来降低人力成本。
此外,在客户案例上,星尘也从前端只提供数据层面,延伸到一些解决方案。比如,一家监控视频企业想要做到对“幼儿园暴力行为”的监控,此前的方案是将视频进行每1分钟截图,然后标注画面中的几十人的动作,这样算下来,需要千万元级别的数据标注成本,并且1分钟的间隔也相对较长,不免会漏查。
“我们的解决方案是将关键帧进行标注,把视频的关键信息标出后,通过视频压缩方案是可以还原出前后文的内容。是否有暴力倾向需要人工拖拽查看,我们交付的不是画面标注,而是有关键帧、可拖拽的视频标注。然后做了预测功能,把系数设低,平台发现稍微有暴力可能性就标注出来,然后让人去判断。通过我们的方案,只需要原来三分之一的成本。”章磊告知。
据悉,本次融资后,除了继续迭代产品,星尘数据还计划尝试将一些现成的数据包开源。公司方面则计划于今年9月进行下一轮融资。






欢迎光临 168大数据 (http://www.bi168.cn/) Powered by Discuz! X3.2