「星尘数据」获Pre-A轮融资，用算法提高数据标注效率 - 168大数据

“Stardust星尘数据”是一家数据标注公司。2017年5月公司注册成立，同年8月获得数百万元的天使轮投资，由天使湾领投，英诺天使、老鹰基金和创势基金跟投。此后于2018年1月，公司又完成了数千万元的Pre-A轮融资，由青锐创投投资。

AI要真正发挥作用，优质的数据必不可少，业界共识“大量数据+普通模型”比“普通数据+高级模型”的准确度更高。所以，前端的数据采集、加工环节单拎出来成为了新的机会点。目前这个赛道有三类玩家：①自营标记人员——标记质量可控，有新的需求也可及时响应消化，但模式太重，成本较高，规模化扩张不易；②众包标记——为了保证需求的响应，人员数量得足够大，通常成千上万。随之而来的问题是要搭建上百人的运营团队，派专人做项目管理；③机器标记——相比前两者，这类更加依赖算法、模型，希望借系统提供人效。

“星尘数据”便属于第三类玩家。首先，通过系统对人进行管控，根据人员的标记水平分派不同等级的任务，从而提高运营效率。其次，标注工具易用性更佳，而不是直接用开源或者AI公司提供的工具，这样一来还能跟整个标注流程、绩效管理融合。再者，星尘用深度学习的模型辅助标注，已经可以做到对100多种物体识别标注，从而减少人的工作量。

据悉，通过星尘的“stardust”系统，人的工作量在80%，机器的工作量在20%，这个比例还在不断优化中，未来机器可能占到80%。

在36氪之前的文章中，有创业者表示不会用机器标注替代人工，“因为人工标记的数据在误差层面符合正态分布，而机器标记的都是同一水平，用机器生产的数据再训练机器，并不利于AI最后的训练效果。”以及，理论上，下游的应用公司算法更强，若用算法进行抠图，企业客户为什么不自己标注？

对此，星辰数据创始人兼CEO章磊认为，人工标注确实会有偏差，但这种偏差并不会有助于机器训练。准确答案只有一个，星尘可以通过算法机制保证输出正确结果，目前的准确率在99%。并且，下游应用公司的最终模型和标注时需要的模型还是不一样的，星尘的模型是用来提高效率的。

据章磊透露，在上次我们报道完星尘之后，团队已从10人左右扩张到20人左右，基本为研发人员。而公司现处于稳步拓客阶段，已经服务了几十家AI企业。目前拓客速度主要受限于平台功能，所以公司在不断迭代、完善产品，未来1-2个月便可发布。

此外，在客户案例上，星尘也从前端只提供数据层面，延伸到一些解决方案。比如，一家监控视频企业想要做到对“幼儿园暴力行为”的监控，此前的方案是将视频进行每1分钟截图，然后标注画面中的几十人的动作，这样算下来，需要千万元级别的数据标注成本，并且1分钟的间隔也相对较长，不免会漏查。

“我们的解决方案是将关键帧进行标注，把视频的关键信息标出后，通过视频压缩方案是可以还原出前后文的内容。是否有暴力倾向需要人工拖拽查看，我们交付的不是画面标注，而是有关键帧、可拖拽的视频标注。然后做了预测功能，把系数设低，平台发现稍微有暴力可能性就标注出来，然后让人去判断。通过我们的方案，只需要原来三分之一的成本。”章磊告知。

据悉，本次融资后，除了继续迭代产品，星尘数据还计划尝试将一些现成的数据包开源。公司方面则计划于今年9月进行下一轮融资。