最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

数据资产良莠不齐,资本如何披沙拣金?

[复制链接]
跳转到指定楼层
楼主
发表于 2019-1-21 20:02:50 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
近日,某数据团队发表通过爬虫技术抓取了某旅游类社交网站的评论内容,并将其与其他同类网站进行了对比,发现近万个“抄袭账号”发表的评论与其他网站几乎一模一样,进而直指该旅游类社交网站内容造假。追溯这些账号的活跃时间段,不难发现,正是几轮融资前夕。
可以看到,相对于传统企业,互联网企业的数据除了结构化的数字和文字形式以外,还有大量评论、照片等非结构化数据。部分初创期的互联网企业,可能会为了获取更有优势的融资条件,通过各种隐蔽的手法来虚造数据,创造虚假繁荣。对于投资方而言,就需要有效甄别被投企业数据资产真实性,披沙拣金,识别出真正的独角兽企业。
与时偕行:数据尽职调查的关注点和工具要紧跟互联网企业数据资产发展趋势
从互联网企业的数据资产发展来看,数据经历了驱动内核、形态和规模三个方面的变革。从数据内核来看,传统企业的数据产生方式往往是围绕业务环节的开展过程生成产品的生产、运输、销售等方面的数据;对互联网企业而言,数据往往来源于用户的各类使用行为,这就产生了浏览、点击、评论、图片上传等方面的数据。从数据形态来看,随着信息载体的多样化,诸如数字、文字这类结构化数据已不足以支撑多元信息的展示,图片、语音、视频等形式的非结构化数据变得更加常见。从数据规模来看,互联网企业的用户动辄上千万,数据量也从GB级向TB、甚至PB级别发展。
数据发生的这些发展和演变也对第三方尽职调查提出了更高的要求。对以数据分析、数据挖掘等技术为手段,专门针对业务的真实性和准确性开展的数据尽职调查来说,也需要转变调查的思维和工具来适应这些变化:1)评估运营数据的真实性不足以应对越来越隐蔽的用户造假、刷单等行为,需要从数据资产的整体视角出发识别虚假数据;2)传统的Excel、SQL等数据分析工具将越来越难以通过识别复杂信息的关联关系来辨别异常交易,需要引入AI算法来进行交叉验证和分析;3)关系型数据库主要针对数字信息进行分析,无法胜任图像、文本等类型的数据资产,需要引入非关系型数据库来获取、加工和分析这类数据信息。
因地制宜:不同类型的互联网企业要有针对性地调查核心价值指标
不论是互联网企业自身还是投资方,在融资时最为关注的都是标的互联网企业真正的核心价值。为了尽可能提高融资金额、在谈判中获取更多的主动权,部分被投的互联网企业就可能会铤而走险,围绕能够体现企业价值的指标来虚造数据。
互联网企业一般分为门户、平台服务和社区三大类,不同类型的企业核心价值指标也不尽相同。上文提到的网站是一个典型的社区类互联网企业,内容的质量和数量、用户的活跃程度及规模是体现其价值的核心指标。这些指标也成为企业在融资前有针对性的粉饰对象。相应地,围绕这些指标开展数据尽职调查可以减少“走弯路”的可能性,即可以更快发现问题线索,找出虚假数据。
对于数据尽职调查而言,只有正确识别企业的核心价值指标,才能有的放矢、事半功倍。
披沙拣金:数据尽职调查新方法助力去伪存真
可以看到,互联网企业核心价值指标不乏非结构化数据的身影,为了验证这类指标的真实性,就需要引入非结构化数据解决方案,包括获取数据的爬虫工具、分析文本内容进而判断是否有抄袭现象的语义分析工具、探索复杂关联场景下交易真实性的知识图谱分析工具等。
此外,从业务场景出发的有监督算法或分析模型可能难以识别更加隐蔽的造假方式,例如通过异常交易时间、已知的异常行为模式等规则化筛查虚假交易订单、虚假用户往往难有所获。这就需要引入无监督算法模型来揭示用户行为特征,通过聚类分析、主成分分析法、异常检测法等分析方法来帮助定位异常户群体或异常指标表现。
数据尽职调查只有与时偕行,因地制宜才能帮助资本披沙拣金。在下篇中,我们将通过具体的案例来说明如何运用这些新方法,针对互联网企业核心价值指标进行数据尽职调查,定位虚假信息。
来源:德勤咨询

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-29 09:44

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表