最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

[头条] 「星尘数据」获Pre-A轮融资,用算法提高数据标注效率

[复制链接]
跳转到指定楼层
楼主
发表于 2018-6-19 21:20:17 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x



“Stardust星尘数据”是一家数据标注公司。2017年5月公司注册成立,同年8月获得数百万元的天使轮投资,由天使湾领投,英诺天使、老鹰基金和创势基金跟投。此后于2018年1月,公司又完成了数千万元的Pre-A轮融资,由青锐创投投资。
AI要真正发挥作用,优质的数据必不可少,业界共识“大量数据+普通模型”比“普通数据+高级模型”的准确度更高。所以,前端的数据采集、加工环节单拎出来成为了新的机会点。目前这个赛道有三类玩家:①自营标记人员——标记质量可控,有新的需求也可及时响应消化,但模式太重,成本较高,规模化扩张不易;②众包标记——为了保证需求的响应,人员数量得足够大,通常成千上万。随之而来的问题是要搭建上百人的运营团队,派专人做项目管理;③机器标记——相比前两者,这类更加依赖算法、模型,希望借系统提供人效。
“星尘数据”便属于第三类玩家。首先,通过系统对人进行管控,根据人员的标记水平分派不同等级的任务,从而提高运营效率。其次,标注工具易用性更佳,而不是直接用开源或者AI公司提供的工具,这样一来还能跟整个标注流程、绩效管理融合。再者,星尘用深度学习的模型辅助标注,已经可以做到对100多种物体识别标注,从而减少人的工作量。
据悉,通过星尘的“stardust”系统,人的工作量在80%,机器的工作量在20%,这个比例还在不断优化中,未来机器可能占到80%。
在36氪之前的文章中,有创业者表示不会用机器标注替代人工,“因为人工标记的数据在误差层面符合正态分布,而机器标记的都是同一水平,用机器生产的数据再训练机器,并不利于AI最后的训练效果。”以及,理论上,下游的应用公司算法更强,若用算法进行抠图,企业客户为什么不自己标注?
对此,星辰数据创始人兼CEO章磊认为,人工标注确实会有偏差,但这种偏差并不会有助于机器训练。准确答案只有一个,星尘可以通过算法机制保证输出正确结果,目前的准确率在99%。并且,下游应用公司的最终模型和标注时需要的模型还是不一样的,星尘的模型是用来提高效率的。
据章磊透露,在上次我们报道完星尘之后,团队已从10人左右扩张到20人左右,基本为研发人员。而公司现处于稳步拓客阶段,已经服务了几十家AI企业。目前拓客速度主要受限于平台功能,所以公司在不断迭代、完善产品,未来1-2个月便可发布。
随着公司发展,章磊对数据标记这个行业也有了一些新的思考:
第一,一味强调众包人员的数量,意义并不大。因为对C端来说,数据标记是一个没有忠诚度的事情,他们是价格敏感群体,哪里赚钱多就去哪里干活。所以提高效率,让收入增多才是留住人员的上策。
第二,对B端企业来说,粘性也不是很大。他们最关注的是质量、价格,而市面上的标记质量相差不大,“便宜”就显得格外重要。这时候就需要用系统、机器来降低人力成本。
此外,在客户案例上,星尘也从前端只提供数据层面,延伸到一些解决方案。比如,一家监控视频企业想要做到对“幼儿园暴力行为”的监控,此前的方案是将视频进行每1分钟截图,然后标注画面中的几十人的动作,这样算下来,需要千万元级别的数据标注成本,并且1分钟的间隔也相对较长,不免会漏查。
“我们的解决方案是将关键帧进行标注,把视频的关键信息标出后,通过视频压缩方案是可以还原出前后文的内容。是否有暴力倾向需要人工拖拽查看,我们交付的不是画面标注,而是有关键帧、可拖拽的视频标注。然后做了预测功能,把系数设低,平台发现稍微有暴力可能性就标注出来,然后让人去判断。通过我们的方案,只需要原来三分之一的成本。”章磊告知。
据悉,本次融资后,除了继续迭代产品,星尘数据还计划尝试将一些现成的数据包开源。公司方面则计划于今年9月进行下一轮融资。

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-19 17:50

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表