最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

演讲 | 数库科技CTO夏磊:人工智能助力企业智能化(附下载)

[复制链接]
跳转到指定楼层
楼主
发表于 2017-6-23 17:43:26 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本帖最后由 168主编 于 2017-6-23 17:53 编辑

作者:夏磊
来源:金鸡湖大数据产业联盟微信公众号

夏磊,数库科技 CTO兼研发高级副总裁。曾先后就职IBM demandtec solutions 和HP 担任系统架构师。数库科技成立于2009年,先后获得穆迪和京东金融投资,在 2016 年被毕马威(KPMG)评为金融科技 50 强。

近日,夏磊于ABC公开课第四期发表了《人工智能助力企业智能化》的演讲。

以下为整理后的全文
企业智能化之路

最近20 年里,企业在信息化建设道路上经历了三个时期:
1) 最初企业解决的是信息管理系统的建设,通过搭建MIS 系统,把企业的业务流程进行电子化、无纸化,结构化的数据存入数据库,非结构化的数据,如PDF/WORD/EXCEL 等直接存档保存。
2) 随着互联网的演变,电子商务快速发展,出现越来越多的网上渠道,从采购到销售到在线广告,移动互联网的发展让企业有更多的渠道和用户交互,比如:O2O、对接支付宝支付、使用微信公众号营销。

3) 去年AlphaGo 的胜利让越来越多的普通大众认识到人工智能的重要性,企业里积累了大量数据都未曾被很好挖掘和使用,物联网和5G 网络的发展也必然给企业带来更多的过程数据,而对这些数据的挖掘和使用将帮助企业做更好的提效和决策。

人工智能发展历程


人工智能诞生于1956 年达特茅斯会议,经历了两次低谷,随着2006 年Hinton 提出深度学习,2013 年深度学习在语音和视觉识别上取得很高的准确率,2016 年AlphaGo 基于深度学习和强化学习算法战胜人类,这些让人们重新审视人工智能和机器学习算法对企业的帮助。

人工智能应用


比如以下三家公司:

IBM Watson 是一个通过自然语言处理和机器学习,从非结构化数据中揭示洞察的技术平台,他实现了认知计算:理解、推理、学习、交互。利用医学影像 “狙击”癌症、糖尿病、心脏病等重大疾病;Watson 把其认知学习能力用在云上,应用到分析、识别、阻止网络安全的威胁;颠覆千篇一律的购物体验。
AlphaGo 的作者DeepMind 研究方向是开发通用自我学习算法,2014 年被Google 4 亿英镑收购,DeepMind 的人工智能技术其实是从智能代理器开始的,你可以把智能代理器看做是一个机器人手臂、一辆自动驾驶汽车、或是一个推荐引擎的控制系统,这个智能代理器有一些目标需要完成,而且它也正在尝试不断优化。DeepMind 已经利用深度学习算法成功帮助谷歌数据中心的冷却系统节约用电40%。

高盛和JP 摩根、花旗都是华尔街高科技公司Kensho 的客户,Kensho 通过机器学习系统爬取大量的数据和市场动态,搜寻全球事件对资产价格影响的相关性;通过全球事件库连同知识图谱实时分析世界事件的影响。用户可以在搜索框里键入类似的问题:当三级飓风袭击佛罗里达州后,哪些水泥股会上涨?当苹果公司发布新版iPad,哪个苹果供应商的股票价格上升的最多?而以前我们回答这些问题,通常需要几个分析师几天的时间,现在只需要短短几秒。

人工智能正在改变金融

在金融行业,今年以来大家可以陆续看到市场上的一些资讯,人工智能已经取代了很多人的工作,人工智能存在的目的绝不是取代人类,而是为各行各业带来新技术、新工具,革命性地提升人类生活的质量和工作的效率。已经有越来越多的企业已经享受到了人工智能带来的效率提升,相信会有更多的企业加入人工智能的应用行列。
我们再来看国外的两个案例。

首先是智能搜索引擎AlphaSense,创始人是摩根士丹利的分析师,通过对上百万份上市公司公告、研究报告、投资关系演示文档、新闻期刊等非结构化文档进行提取,对每一行文本或者表格进行索引,通过可视化界面对用户的问题进行智能检索,在大量文档中揭示关键数据点。

另外一家非常创新的公司Quid 通过自然语言处理技术对亿级别的文本进行解读,寻找出其中的模式和共同点,进而对公司、行业、专利等进行可视化交互展示,指导各行业技术投资、并购、市场调研、制定公司战略。


机器学习算法

前面说了这么多的案例,这背后涉及哪些技术呢?人工智能研究应用的领域有自然语言处理、图像识别、语音识别、机器人(包含机器人流程自动化),要实现的目标是从感知到理解到决策的过程。算法则分为监督学习、无监督学习、强化学习和半监督学习;这些机器学习算法解决了预测、分类、聚类、降维等问题。

监督学习是在有大量标注样本的情况下,通过统计机器学习算法或者CNN 进行训练实现一个二分类或者多分类的模型,如:证券投资概念、舆情分析里对主题的情感分类。
无监督学习是在没有标注集的情况下,对数据进行建模,比如我们想通过财经新闻找出今天
热门话题就是一个无监督聚类的过程。
强化学习解决的是序列决策的问题,他适用于智能控制机器人及分析预测等领域;在AlphaGo 围棋对战中我们通过策略网络选择行动,告诉我们在哪里落子是最佳选择,通过价值网络评估当前位置,有了这两个网络,再使用蒙特卡罗树搜索方法把所有的参数部件都组合在一起来选择最佳的动作。
半监督学习有两个样本集,一个有标注,一个没有标注,因为通常我们很难获取大量标注集,我们可以在标注集的监督分类算法里加入无标记样本拟合样本的现实分布,同时在无标注集的无监督聚类算法里加入标记样本增强分类效果。
另外从模型的角度,除了传统的模型,深度神经网络近年得到了快速发展,在图像、语音、文本理解上都有了非常好的效果,通过对大量数据使用多层神经网络,端到端的自动学习抽象知识表达,输出最终的结果。在自然语言理解方面,以前我们把语料中每句话看成一个序列,通过N-Gram 来做语言建模,其缺点是数据稀疏且缺乏泛化性,词与词之间语义无法表示,无法进行相似性比较,2003 年Bengio 提出神经概率语言模型,使用一种连续空间词表示方式word embedding,把one-hot 词表示通过降维进行信息压缩用连续空间的向量表示,如[0.6,0.1,0.2];在此基础上,2013 年Tomas Mikolov 推出word2vec,使用CBOW 和Skip-Gram两种模型可以对大量文本训练出词和词的相似度;随后深度学习在自然语言处理领域就越来越热了。

人工智能应用如何落地

上面说了这么多人工智能的应用和算法,那么在企业里如何落地呢?我们在座的大部分企业几乎都没有资源像人工智能大牛那样发明很多新的深度学习模型,更多的还是综合使用一些机器学习算法,使用Java 或者Python 去调用很多的开源算法工具。除此之外我认为针对目前国内机构的现实情况,我们需要把更多精力放在以下几个方面:确定场景,挖掘领域知识,工具和平台。

首先,定义场景,我们需要对自己要解决的问题有个清晰的边界,就像前面提到的那些公司在做的事情一样,它一定是一个有着明确流程和目标,能帮助企业减少大量人工重复工作的事情,而且需要有持续的数据反馈。
其次,需要构建领域知识,包括词库、知识库搭建、特征工程等,拿医学专利文档分析来说,我们可以对互联网上抓取的海量医学文档进行初步分析,得到医学相关的重点词汇和主题,可以是作者、学科、医学名词、学校等,发现其中的相关性。
接着给领域专家提供标注工具,他们可以通过标注工具对语料进行标注,并建立实体和实体的关联关系,这样可以使模型训练更精准并且具有持续自我学习的能力。
最后搭建平台训练模型,发布模型,线上测试模型效果。

所以在企业智能化这条道路上,企业由传统的三层架构(数据存储、业务平台、前端产品)转向新的智能型架构:大数据平台、人工智能平台、云服务;其中大数据平台存储着企业内部的结构化、半结构化、非结构化数据;人工智能平台包含工具、算法、知识库、模型;云服务层通过微服务和可视化提供企业产品。


数库科技的解决方案

1. 非结构化文档挖掘

数库的文本挖掘技术,可以帮助企业将海量、格式多样的资料库通过程序自动转化为结构化的数据,将企业的资料库充分盘活。使用场景包括公告财务报表提取、合同信息提取和审核、法律文书信息提取和检索。


比如:当美联储加息或者人民币对美元汇率变化时,分析师想知道哪些上市公司会受到影响?那么就需要我们在非常短的时间对几千家上市公司PDF 公告中披露的外币构成明细业务表格进行提取,提取出相关财务科目和对应的币种。对于PDF 和word 文档,我们首先转换成xml 格式的文件,记录了字符、字体、坐标等信息,再结合规则、文本相似性算法、机器学习算法对其中的段落和表格进行自动提取,数库研发了一整套工具来辅助标注和训练,以及对结果的校验审核。

2. 资讯文本分析平台


通过分布式抓取平台对互联网上公开的财经站点资讯实时抓取,每天大概有近3 万篇相关新闻,资讯实时抓取后,传输到消息队列进行异步分析,资讯分析服务接收到每一篇新闻,会使用已训练好的模型对文本中的命名实体进行识别,比如公司、行业、产品、人名;使用主题概念分类模型挖掘出相关的概念,并对概念的热度变化进行跟踪分析,同时使用聚类算法发现热点话题;使用句法分析和触发规则对事件进行提取,并分析出事件相关的时间和地点;使用情感分类模型对文章进行正负面分析。这样每天分析师和个人投资者就不需要去整理阅读那么多的资讯,可以实时知道市场的热点和自己关注的事件。

3. 机器学习标注训练平台


那么是不是针对不同行业、不同需求我们对资讯的处理都要重复开发一套算法呢,比如供应链上的客户舆情分析、融资租赁客户的舆情分析、跟踪分析国家十三五规划政策的趋势等。其实是不需要从头研究算法的,因为我们已经研发了一套资讯标注训练平台,在这个平台,我们可以对词库进行标注、构建知识库、特征工程、对主题进行训练等。这也是我前面说的,人工智能的落地并不是有了深度学习算法就可以了,越是开始,越需要工具的支撑。


4. 金融智能搜索和问答



基于前面的介绍,我们有了对非结构化文档的信息提取能力,有了对文本的自然语言处理能力,我们就能更好的从海量的非结构化文档,如:公告、研究报告、资讯和社交媒体上,快速精准的解析出关键信息点。对于用户的搜索输入或者问题进行Query 查询解析,从几个方向去实现回答:首先,通过对用户意图进行识别,把用户的问题映射到API 服务;其次,对于领域知识的问答,可以通过领域知识图谱进行查询和推理;最后,采用启发式搜索的方式,从海量文档的搜索引擎里寻找相关的答案。

总 结

最后我们总结一下,人工智能的发展必将给企业带来革命性的效率提升,而在企业落地智能化应用的过程中,我们不仅仅关注模型算法,更需要考虑场景和工具,什么样的工作是机器比人做更有优势的,然后通过一些机器学习辅助工具去挖掘并构建企业的知识库,这样整个落地就变得可行,开始将AI 融入企业大数据平台,从弱到强,从自动化到感知到理解到决策,助力企业智能化!

发表读后感,获取完整PPT

链接: http://pan.baidu.com/s/1gfvJIEZ 密码:
游客,如果您要查看本帖隐藏内容请回复




楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-15 01:58

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表