最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

哈佛博士吕晓辉:LexisNexis金融大数据实践

[复制链接]
跳转到指定楼层
楼主
发表于 2015-4-29 15:16:59 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
吕晓辉,律商联讯风险信息公司中国区市场总监,数据和分析产品开发专家。现专注于为律商联讯风险信息公司开拓中国市场。曾为律商联讯开发推广了一系列针对美国金融行业的大数据产品:消费者询价活力评分、车险保单实时预填服务、保费偿付历史共享平台、个人信用记录查询优化等等,取得显著的市场效果。在加盟律商联讯之前,曾就职于分析咨询公司 Optimal Decisions Group,专业信息提供商 ChoicePoint。于南京大学获得学士学位;于哈佛大学获得硕士和博士学位。
   
嘉宾介绍(吕晓辉):大家好!我是律商联讯的吕晓辉。非常荣幸今天有机会和大家分享律商联讯对大数据的一点心得。感谢大家抽空来参与。感谢张华平教授的邀请,和张涵诚的主持。



分享嘉宾(吕晓辉):
今天的想给大家分享一点干货:律商在美国运营大数据的一点心得。
首先,我想介绍一下律商联讯和我们的大数据业务模式;
其次,分享几个实际案例;
再次,介绍一下我们专有的大数据核心算法;
最后,看大家的兴趣,可以深入讲一讲技术体系的细节。


分享嘉宾(吕晓辉):
律商联讯是励德爱思唯尔集团旗下专业经营大数据在银行、保险、政府等风险行业的应用的全资子公司。律商联讯是励德爱思唯尔集团旗下专业经营大数据在银行、保险、政府等风险行业的应用的全资子公司。



分享嘉宾(吕晓辉):
我们在美国的大数据业务的商务模式如上页幻灯片所示。海量数据资源、大数据技术、大数据关联和分析、行业专门经验和产品有机集合成为以客户为中心的行业解决方案。我们的业务专注与B2B业务模式。


分享嘉宾(吕晓辉):
这是我们在美国市场收集的部分数据介绍。
对于如何应对大数据的挑战,我们有一点自己的观点,容我简述如下:




分享嘉宾(吕晓辉):
大数据关联技术,在我们看来,是将原油提炼成为各种石化产品的核心技术。



分享嘉宾(吕晓辉):上面是律商联讯的专有大数据技术HPCC的一点简介。我就不一一复述。需要强调一点,我公司的基础大数据技术平台是完全开源的。欢迎大家访问hpccsystems.com下载。


嘉宾介绍(吕晓辉):我们技术的最大优势在于功能完整﹑高性能﹑低成本﹑久经实时生产应用的考验。


分享嘉宾(吕晓辉):
刚才提到的大数据关联技术,在此我略作简述。下面还会细讲。
大数据关联技术的核心之一是个体解析,即把和某个个体相关的所有记录都完整、准确地聚类到一起。
只有做到准确,才能不把其它个体的信息错误地归入这个个体的记录集群。
只有做到全面,才能不遗漏和这个个体相关的记录。
准确、全面是进一步大数据应用的基础,一定要打好。


分享嘉宾(吕晓辉):呵呵,最后一页公司宣传,用以佐证下面的应用案例的可靠性。


嘉宾(吕晓辉):第一个案例是一个关于电商的例子。其中大数据的应用在于反欺诈。在坚实的数据基础上,反欺诈是一个相对普适的应用。
对于这些案例的细节,我就不复述了。欢迎大家随时打断我来提问。


嘉宾(吕晓辉):这第二个案例是一个我公司的姊妹公司爱思唯尔的实际应用。展示了HPCC技术的海量数据处理能力。
第二个案例和亚马逊差不多,只不过是一个更加专门的场景。效能也更好一点。


这第三个案例是关于物联网的例子。个人觉得是咱国家机场迫切需要的应用。


嘉宾(吕晓辉):第四个案例是关于网络安全漏洞的排查。再次展示了海量数据处理能力和网络行为模式的识别能力。


嘉宾(吕晓辉):第五个案例是我个人的最爱:通过关系网络来识别合谋欺诈。
合谋欺诈,主要在于观察什么是正常的行为模式;然后再筛选出哪些是不正常的行为模式,即有可能是合谋欺诈。多个数据点的交叉验证在此也变得尤其重要。
这个案例的特点在于关系网络的质量,只有在个体解析做到完整、准确时,才会有效地支持这个应用。


嘉宾(吕晓辉):第六个案例是我公司的核心技术平台:LexID。过对来自一万多个活数据源的数据的持续整合、关联,我们能够完整掌握美国成年人口的在社会中留下的数据足迹。
    在美国,政府信息公开得到比较彻底的实现。我公司投入了大量的人力物力来从零散的数据源里收集公共记录数据。另外,许多私有数据源也被我们通过商务手段合法获得并利用。
相比起网络爬虫或者社交网络数据来说,我们发现,一些“传统”的数据源,例如婚姻记录、犯罪纪录、房地产买卖记录更加有用。


嘉宾(吕晓辉):最后一个案例,是我公司的前身,美国ChoicePoint公司在2008年被律商联讯收购后,所经历的技术平台的迁移及其效果。


嘉宾(吕晓辉):那我们继续。下面我想更细地讲一下大数据关联技术。

嘉宾(吕晓辉):这是一个关于人名匹配的例子。通过对数据的统计,我们的算法自动发现,“笲”是一个比较不常见的字。而“黄”和“王”由于发音相近常被人听混。在盐城市亭湖区的“王笲”很可能是“黄笲”被误记所致。认定这两条记录匹配的错误可能性极低。
而基于规则的匹配方式则会简单地认定这两个记录不匹配。
反之亦然,“张勇”是一个很常见的名字,而在北京东城区有许多个叫“张勇”的人。仅仅依赖这两个字段的信息不足以认定这两条记录和同一个体相关。


嘉宾(吕晓辉):将此原理用于多个字段之间的匹配,并且通过迭代的方式逐步捕获和同一个体相关的所有记录,就可以达到大数据关联的完整、准确。并且,我们的算法还可以对于目标完整度、准确率进行调节,以符合实际应用场景。
下面是一个结果记录集群的展示。


嘉宾(吕晓辉):有了这样完整、准确地个体记录集群,其应用是有很大的想象空间的。包括最简单的个体信息查询和反欺诈。


嘉宾(吕晓辉):也包括准确定义关系网络中的“关系”:


嘉宾(吕晓辉):搜索出和一个人有某一指定关系的所有人:


嘉宾(吕晓辉):以及找出任意两个人之间存在的关系:


嘉宾(吕晓辉):提到关联和规则,我想插一句:基于统计算法的关联可以自动识别和选择最佳匹配方式,而规则总是人工在事后定义的。两者的效能不可同日而语。


嘉宾(吕晓辉):预告一下,我这还有14页关于技术细节的幻灯片。



嘉宾(吕晓辉):刚才强调了大数据关联技术,HPCC系统另外的两个核心功能模块是:实时大数据查询技术、专用的大数据编程语言。
HPCC Roxie 在美国支持着每天两千万条我们的客户的复杂多样的查询。
HPCC ECL 无需数据分析人员有MapReduce并行编程技能、JAVA编程能力,即可用一个类似于SQL的语言来操作海量数据。


嘉宾(吕晓辉):HPCC是基于C++的,无需JAVA虚拟机,所以性能高,同等运算量下对硬件要求更低。



嘉宾(吕晓辉):出于我公司自身大数据实时交互式业务的需求,HPCC系统还内建了支持交互式业务所需全部功能。


嘉宾(吕晓辉):HPCC 系统可以近线形扩容。


嘉宾(吕晓辉):并可靠地支持高效的复杂数据查询。我公司内部系统的系统在线可用率达到99.999%


嘉宾(吕晓辉):下面讲一下HPCC平台上的应用开发。


嘉宾(吕晓辉):HPCC ECL是一个专业的大数据操作语言。其核心语法和编译引擎的设计都是由原 Borland 编译器核心团队实现的。大家可都还记得Borland?
提高应用开发效率的一个首选办法就是把常用操作给抽象化。HPCCSALT就是这样一个代码生成器。


嘉宾介绍(吕晓辉):提高应用开发效率的一个首选办法就是把常用操作给抽象化。HPCC SALT就是这样一个代码生成器。


嘉宾介绍(吕晓辉):进一步的抽象化使得我们的技术团队正常情况下都不需要手工编程即可开发专业应用。


嘉宾介绍(吕晓辉):提到大数据技术,就避不过hadoop

下面是我们作出的HPCC和Hadoop的一个简单比较。一家之言,欢迎大家的板砖。


嘉宾介绍(吕晓辉):HPCC和Hadoop技术平台本身最显著的差异在于技术模块的一致性。由多家开发商共同维护的开源平台有其很大优势,但在系统稳定性上是短板。这对于一些银行、保险、政府的核心应用来说就不够了。
下面是我个人对于两个系统的一些主要差异的比较。抛砖引“砖”。


嘉宾介绍(吕晓辉):最后是系统性能的一个比较。


分享嘉宾(吕晓辉):今天我就讲到这了。谢谢大家!
分享嘉宾(吕晓辉):谢谢大家参与,感谢张华平教授邀请,感谢张涵诚总的推动,我们保持联系。
主持人(张涵诚):非常感谢吕博士严谨,系统,务实,精彩的分享!


楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-25 03:48

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表