全球最具影响力的数据智能产业服务和职业发展平台

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
开启左侧

大数据信贷技术如何在技术层面得以展开和实现?

[复制链接]
发表于 2019-4-10 15:34:10 | 显示全部楼层 |阅读模式
出品:信贷风险管理
作者:寇乃天

随着网络基础设施建设完善,智能设备不断普及,移动互联网广泛应用,以及以大数据、云计算、人工智能、区块链为代表的新技术日趋成熟,科学技术为传统金融服务模式革新创造了基础。伴随金融需求多样化、复杂化和个性化,金融与科技碰撞和融合持续演进,智慧的“花火”碰撞溅射,异常璀璨!目前,在大数据、云计算、区块链和人工智能等科技的推动下,金融和科技的融合逐步加快,信贷风控的进化已经成为历史的必然发展趋势,——从传统风控向智能风控转变已经成为信贷风险管理的发展大势和时代挑战。在“无科技不金融”的时代背景下,金融机构如何运用大数据、智能风控等金融科技手段,加大对小微企业的金融支持力度,缓解小微企业融资难、融资贵,切实降低企业成本,促进经济转型升级和新旧动能转换,已经成为时代赋予商业银行开展信贷实践的重要使命。在金融科技化和智能风控化的大趋势下,大数据信贷技术如何在技术层面得以展开和实现,已经成为信贷风控领域的热门课题和技术难点。

一、智能风控:传统金融的“变革之翼”

早在20世纪90年代,美国第一资本、发现金融等金融科技企业就开始介入银行风险管理领域,其很大程度上依赖于先进的征信与信息系统。而近年来,中国金融科技企业通过算法的改进升级和大数据的积累应用,通过技术手段推动中国传统金融行业实现了跨越式发展,进入智能化时代。在面对同一个用户时,传统风控模式下,银行使用的是传统评分卡模型和规则引擎等“强特征”来进行风险评分;而智能风控则会根据履约记录、社交行为、行为偏好、身份信息和设备安全等多方面行为特征去评判一个人的反欺诈和信用评估行为,从而形成信用画像,这正是人们常说的“弱特征”。过去,这两种风控模式可以自成一体,但进入互联网移动化时代后,智能风控的优势正在日益显现,成为传统风控的有效补充。智能风控侧重大数据、算法和计算能力,强调数据间的相关关系,其在风控环节中的应用主要有以下三点:计算机视觉和生物特征的识别,即利用人脸识别、指纹识别等活体识别来确认用户身份;反欺诈识别,智能风控利用多维度、多特征的数据预测用户的欺诈意愿和倾向;正常用户的还款意愿和能力的评估判断。对于交易、社交、居住环境的稳定性等用户行为数据,运用神经网络、决策树、梯度算法、随机森林等先进的机器学习算法进行加工处理。在用户体验上,智能风控的优化路径有两条:一是减少对用户的干扰。二是不断提升用户评估的准确率。

(一)揭开“智能风控”的神秘面纱

智能风控,是金融科技领域最主要的应用场景之一,借助大数据与人工智能技术,信贷经营机构可以有效地提升风险管理能力。智能风控有很多种“别名”,例如:大数据风控、决策引擎、风险计量引擎、风险模型实验室,其实都可以纳入到“智能风控”的概念范畴。其基本逻辑都是运用大数据平台的计算分析能力、机器学习或深度学习模型,运用于信贷风控、反欺诈、反洗钱、交易监控、保险理赔等场景。所以,从内涵上讲,智能风控本质上是以数据驱动为特征,强化金融科技运用,彰显精益风险管理思维导向的风控模式。

1

智能风控的逻辑基础是“大数据”,突出强调风险控制的“数据驱动”特征。“大数据”的概念是麦肯锡公司在2011年5月发布的报告中首次提及的,报告中指出:“数据已经渗透到当今每一个行业和业务职能领域,引起了社会各行业的强烈关注”。大数据具有数据量大、种类多样、速度快、价值密度低、真实性这五个特征。这五个特征反映了大数据巨大的商业价值,同时也决定了对其的处理方式与特殊要求,以大数据技术为代表的智能风控应运而生。智能风控模式下,大数据技术是一种高效的处理方法,能够通过更加快速、精准的方式挖掘并提升大数据的价值,能够满足各行各业对数据处理的需求。大数据是人工智能得以发展的前提。人工智能的目的是让机器人像人类一样学会学习和算法训练,深度学习都需要大数据。信贷机构通过对大数据的深度挖掘,为智能化风控的实现提供了逻辑基础。从某种意义上讲,大数据是智能风控的关键。例如,蚂蚁金服在风险控制技术上的核心是基于海量数据的智能风控大脑,通过搭建信用与风控体系,蚂蚁金服的上层业务板块得以构建,其中就包括广为人知的支付宝、余额宝、招财宝、芝麻信用、网商银行等业务。

2

智能风控的动力引擎是“金融科技”,注重金融科技的风控场景运用。对于金融科技内涵和外延,目前行业内尚未形成统一规范的定义。全球金融稳定理事会(FSB)认为金融科技是通过技术手段推动金融创新,以此形成对金融市场、机构和金融服务产生重大影响的业务模式、技术应用和流程、产品。根据目前发展态势,金融科技主要分为三个层面:以第五代通信、芯片技术为核心的基础科技层;以区块链、生物识别、大数据、云计算、物联网、机器学习、人工智能、机器人、虚拟现实技术为代表的应用科技层;以量化模型、大数据分析、大数据征信、第三方支付、互联网借贷、互联网理财、智能投顾、互联网保险、互联网证券、互联网银行、众筹等为代表的金融服务应用层。具体到银行信贷风控领域,金融科技将重塑银行风险管理模式,智能风控将成为金融科技的重要应用场景之一。当前大数据风控的深度和广度逐步提升,围绕个人客户建立客户画像,目前已逐步延伸到企业客户。未来基于大数据、云计算和人工智能技术的风险管理必将成为未来市场主流。风险管理作为银行业存在之本,商业银行一般不会主动透露各行核心技术,只有形成对外技术输出或特色产品时方能被市场感知。例如,招商银行的“闪电贷”产品,就是智能风控在信贷产品层面的具体体现。

3

智能风控的思维导向是“精益风险管理”,更加注重精细化的风险控制。智能风控改变了过去以合规、满足监管检查为导向的风险管理模式,强调用金融科技降低风险管理成本、提升客户体验、数据驱动风控能效,实质上代表了一种“精益风险管理”的思维价值导向。如果说巴塞尔新资本协议的全面风险管理(资本计量、监督检查、市场纪律作为三大支柱)是传统风控的体现,那么智能风控则是互联网、大数据时代风险管理实务的变革与创新。智能风控是对传统风控的一种变革,也是对大数据和互联网潮流的时代响应,通过先进技术的引进,来实现信贷风险的技术控制,是银行信贷风险管理的未来趋势。智能风控思维导向的背后体现的是金融科技的时代浪潮和信贷经营机构的风险经营策略,体现了信贷风控演进过程中的变革思辨和技术图强。目前,在智能风控的思维导向下,银行业积极开展风控技术创新应用,强化“互联网”思维,加快研究应用互联网金融风控模式和技术。商业银行积极借鉴“大数据”应用经验,开展风险数据质量治理,深入挖掘内部数据应用价值,适度引入有价值的外部数据,提升各类风险量化、精确化管理水平,积极参与云计算、区块链、人工智能、生物识别等前沿信息技术研究,借助金融科技和大数据力量,培育风险管理核心竞争力。

(二)直击“智能风控”的场景应用

智能风控是“数据+模型+规则”的应用模式,其实仍是一种决策信息系统,其技术和应用架构离不开数据采集、数据加工处理、数据挖掘与分析、算法模型上线等关键环节。只是相比于传统的管理信息系统,其架构多引入基于分布式架构的计算引擎(处理离线大数据)、实时流计算引擎(处理线上实时数据)、策略模型平台(算法和建模)。在商业银行中,智能风控组件多集成于电子银行、互联网金融等业务部门的后端平台中,作为线上秒贷平台、反欺诈、反洗钱等系统的独立的规则或决策单元。还有一些商业银行基于大数据构建了新一代风险管理体系,其本质也是依托于大数据平台的计算能力以及大数据金融风险计量模型,为智能化、自动化风控决策提供支持。这类风险管理体系从全行角度接入包括客户信息、对公信贷、个贷、信用卡、外部数据(工商、税务、司法等)。基于大数据平台建设风险数据集市和模型实验室,综合运用了数据仓库、知识图谱、商业智能、数据挖掘与机器学习等多种技术,为多种风险类别提供决策支持,如客户信用风险、抵质押品风险、异常交易风险、操作行为风险、机构行为风险、授信风险等等。

具体来讲,智能风控在场景应用方面,有诸多体现,例如:银行业的反欺诈、信贷风控和关联分析等,保险业的风险定价、反欺诈和智能理赔,证券业的异常交易行为、违规账户侦测等情景。下面以银行业为例,重点分析以下智能风控的场景应用。随着技术手段的丰富,数据获取的逐渐便利,商业银行可以通过外部数据合作的方式获取、存储、加工不同维度的数据。通过大数据基础平台的强大算力,计算用户之间的相关性,例如电话号、邮箱、地址、设备号等。以消费信贷风控为例,按照贷前、贷中、贷后作为风控的时间维度,以信用品质、偿债能力、押品价值、财务状况、还款条件作为评估维度,时间和评估形成不同的信贷风险关注要点。商业银行结合不同信贷风险的关注要点,进行相关数据的获取。除大数据外,智能风控的“智能”主要体现在机器学习算法构建模型。在授信申请、违约损失计算、逾期预测、反欺诈等业务目标确定后,通过内外部数据的整合、预处理(如采样、PCA、缺失值填充、归一化)、特征统计等方法,再选择合适的算法进行分析。无论是对个人或是企业的银行贷款、抵质押或担保贷款,亦或是供应链贷款、评分卡、巴塞尔协议中的贷款,还是当前热门的智能风控,根本原理都是衡量客户还款能力和意愿。智能风控只是通过更多的数据维度来刻画客户特征,从而更准确的量化客户违约成本,实现对客户的合理授信。可以看出,其原理和方法论和传统金融风控没有区别,但可以通过自动化审批来替代人工审核,降低人力成本。在实际应用方面,江苏银行基于hadoop打造了面向全行的开放共享大数据平台,并且推出了个人消费贷款产品“享e融”和小微金融贷款产品“税e融”;招商银行利用大数据分析进行精准营销,对客户的购物、上网习惯等进行精准细分,推出“凡客卡”、“魔兽卡”等等;摩根大通为了防止诈骗,引入了信用卡和借记卡数据在业务交易中进行检验等。

二、热点前沿:大数据信贷技术的技术实现
(一)警惕“数据孤岛”现象:构建大数据的生态链

大数据信贷技术的运用,必须高度重视“数据孤岛”现象。“孤岛”,顾名思义指水中孤立的岛屿。“数据孤岛”,又称“信息孤岛”,借用了现实世界的概念,将相互之间在功能上不关联互助、信息不共享互换以及信息与业务流程和应用相互脱节的计算机应用系统形象化地称之为“信息孤岛”。“数据孤岛”产生了重复投资、数据分割、标准不统一等等问题,无法发挥信息化的整体协同作用。虽然人们研究了各种方法,来解决“数据孤岛”的问题,但是整合“数据孤岛”的费用不断上升,却没有从根本上解决问题。这种现象说明,“数据孤岛”始终伴随着信息化发展的进程,一定存在必然性和合理性的客观规律,不受人们主观意识的左右。通常来说,“数据孤岛”可以划分为两大部分,分别是物理性的数据孤岛以及逻辑性的数据孤岛。物理性的数据孤岛,是指数据在不同部门相互独立存储,独立维护,彼此间相互孤立,形成了物理上的孤岛。逻辑性的数据孤岛,是指不同部门站在自己的角度对数据进行理解和定义,使得一些相同的数据被赋予了不同的含义,无形中加大了跨部门数据合作的沟通成本。简而言之,数据孤岛意味着数据分析人员每做一份数据分析报告,就需要将数据从头到尾重新整理一遍。如此这般不仅耗费大量时间,还导致数据信息不能及时传达,给带来决策延迟等负面影响。大数据信贷技术却能打破这种数据孤岛,接入不同数据源数据,快速搭建企业数据模型,构建大数据的生态链,并从不同角度对数据进行深度发掘,大大提升了企业数据利用率,帮助银行挖掘数据背后的信贷逻辑。

(二)基于Python的数据信息爬虫技术:数据需要被深度挖掘

大数据信贷技术是基于信息的挖掘,爬虫技术属于其中较为有代表性的信息挖掘技术。随着互联网时代的迅速发展,Web已成为大量信息的载体,如何能从中有效地提取并利用这些信息成为一个巨大的挑战。用户通过访问Web检索信息的工具一般都是传统的搜索引擎,而其具有一定的局限性,比如说,不同领域、不同背景的用户往往具有不同的检索目的和需求,而传统的搜索引擎所返回的结果往往包含大量用户不关心的网页。为了解决这类问题,爬虫技术应运而生。网络爬虫,也叫网络蜘蛛(Web Spider),如果把互联网比喻成一个蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛,沿着网络抓取自己的猎物(数据)。爬虫指的是向网站发起请求,获取资源后分析并提取有用数据的程序;从技术层面来说就是通过程序模拟浏览器请求站点的行为,把站点返回的HTML代码/JSON数据/二进制数据(图片、视频)爬到本地,进而提取自己需要的数据,存放起来使用。

1.webp.jpg

如图所示,是较为简单的爬虫结构图。爬虫调度器是用来启动、执行、停止爬虫,或者监视爬虫中的运行情况;在爬虫程序中有三个核心模块:URL管理器,是用来管理待爬取URL数据和已爬取URL数据;网页下载器,是将URL管理器里提供的一个URL对应的网页下载下来,存储为一个字符串,这个字符串会传送给网页解析器进行解析;网页解析器,一方面会解析出有价值的数据,另一方面,由于每一个页面都有很多指向其它页面的网页,这些URL被解析出来之后,可以补充进URL管理器。这三部分就组成了一个简单的爬虫架构,这个架构就能将互联网中所有的网页抓取下来。从网络信息来看,随着网络爬虫等领域的快速发展,网络数据的采集越来越方便。爬虫技术为大数据信贷技术的有价值信息的搜集,提供了技术支撑和数据获取的便利。

(三)机器学习算法:人工智能的未来趋势

大数据信贷技术的实现,必须依靠先进的计算方法。机器学习(Machine Learning, ML)是随着数据量的剧增,新兴发展起来的一门多领域交叉型学科,通过计算机强大的功能来模拟或实现人类的学习行为,从而获取新的知识,重新组织已有的知识结构和技术技能,不断改善自身性能。机器学习是基于严格的数学理论经众多领域的学科交叉融合而成,其本质是通过运用计算机强大的运算能力及数据处理能力,借由大批的数据进行训练,使计算机具备自发模仿人类学习行为,通过学习获取经验和知识,在不断地改进自身性能的同时实现人工智能的能力。针对某种情形或事物所采集的用于训练的数据样本集是对其直观上的描绘,其中包含着大量和该情形或事物相关的先验经验和知识。其实,机器学习是一种概念,你不需要写任何与问题有关的特定代码,一种叫作“泛型算法”(Generic Algorithms)的工具就可以告诉你一些关于数据的结论。你只需要输入数据,就能建立数据的逻辑。机器学习就是大量泛型算法的集合。

//1、机器学习的发展脉络//

机器学习是人工智能研究的一个重要分支,其发展大体可分为以下四个时期:

20世纪五六十年代属于机器学习发展的热烈时期,研究的是“无知识”的学习。研究的目标是自组织与自适应系统。研究的方法是修改系统的控制参数和不断提高系统的执行能力。代表性工作是:塞缪尔(Samuel)的下棋程序。但这种“没有知识”的学习结果有限,满足不了人们对机器学习系统的期望。

机器学习发展的第二阶段处于20世纪六七十年代。其研究的目标是模拟人类的概念学习过程,采用图结构或逻辑结构描述机器内部学习过程。代表性工作有Winston的结构学习系统和Hayes-Roth等的基本逻辑的归纳学习系统。但这类学习系统只能对单一概念进行学习,不能投入实际应用。该阶段也称为机器学习的“黑暗时期”。

20世纪七八十年代是机器学习发展的复兴时期。这一时期,探索不同的学习策略和方法,学习开始从单个概念扩展到多个。学习系统与各种应用结合起来取得了很大成功。示例归约学习和自动知识获取成为了机器学习研究的潮流。

机器学习的最新阶段始于1986年。这个时期,人们对机器学习的研究达到了高潮。该阶段中的机器学习有了更多的研究方法、手段和环境,出现了人工神经网络学习、符号学习、基于行为主义的强化学习和进化学习等。在算法研究方面,集成学习能够有效地提高模型的推广能力,成为了20世纪90年代后机器学习研究的一个热点。时至今日已有很多集成学习算法,如:Bagging算法、Boosting算法及Arcing算法等。

//2、机器学习常见算法//

机器学习有很多分类。根据如何处理数据、经验或者环境,机器学习算法可分为以下几种学习方式:

第一大类,有监督学习。有监督机器学习方法使用标签数据来训练,即已知输出的输入数据。例如,一个设备中的一些数据点可以被标记为“F”(失败)或“R”(运行)。机器学习算法接收了一系列输入数据以及相应的正确输出,因此算法可以通过比较它的实际输出与正确的输出来识别其中的错误,并利用这种方法不断学习正确的输入-输入对应关系。如此,算法模型得到不断优化、更新。通过分类、回归、预测和梯度提升等方法,有监督机器学习可以利用已知标签预测那些无标签数据。有监督机器学习常常用于基于历史数据预测未来事件的场景中。例如,它可以预见信用卡交易何时可能是欺诈行为,或哪些保险客户可能提出索赔。有监督学习算法中,输入数据被称为训练数据,基函数模型包括代数函数或概率函数或人工神经网络,采用迭代计算方法,并且有已知的结果被标记,学习结果为函数。它根据训练数据模型作出预测,“错的数据”被训练,直到结果能够达到一定的正确标准。监督性学习常用于解决分类和回归问题,监督学习算法包括逻辑回归、反向神经网络。典型的方法有BN、SVM、KNN、CBR。

第二大类,无监督学习。无监督机器学习被用来对抗没有历史标签的数据。系统没有被告知“正确答案”,算法必须找出正在显示的内容。我们的目标是探索数据并找到其中的一些内部结构。无监督机器学习对事务处理型数据有很好的效果。例如,它可以识别具有相似属性的客户,在营销活动中进行类似的处理。或者可以将客户进行细分的主要属性。无监督机器学习技术主要包括自组织映射、最近邻映射、k-均值聚类和奇异值分解。这些算法也用于分割文本主题、推荐项目和识别数据离群点。无监督学习算法中,输入数据无标记信息,结果不确定,它采用聚类方法,对数据的结构和数值进行归纳,学习结果为划分的类别。典型的无监督学习有聚类、发现和竞争学习等。该算法用于解决 Association rule learning 和聚类问题,代表的无监督学习算法有K-均值算法、Apriori算法和SOM算法。

第三大类,强化学习。强化学习通常用于机器人、游戏和导航。通过强化学习,算法可以通过总结试验和错误经验了解哪些行动能够产生最大的回报。这种学习方法由3个主要部分构成:代理(学习者或决策者)、环境(与代理交互的一切)和动作(代理可以做什么)。目的是使代理人在给定的时间内选出能够使预期回报最大化的行动决策。通过制定良好的策略,能够更快地达到目标,因此,强化学习的目标是习得最好的策略。此种算法也称为增强学习,它将环境反馈的信息作为输入数据,是一种基于统计和动态规划技术的学习方法。适用于解决机器人控制问题,相关算法有Q-learning、Temporal difference learning算法。

第四大类,半监督机器学习。半监督机器学习与有监督机器学习的应用场景相同。它同时使用标签数据和无标签数据进行训练——通常是大量无标签数据和极少量标签数据,这是因为标签数据的获取成本较高,也很难获得。这种机器学习方法可以与分类、回归和预测方法同时使用。当完全使用标签数据进行训练的成本太高时,可以考虑使用半监督机器学习方法,这种方法的应用案例包括使用网络摄像头识别人脸。

下面,重点介绍一下大数据信贷实践中,经常用得到的机器学习算法:

孤立森林(Isolation Forest,IF)是一个基于Ensemble的快速异常检测方法,具有线性时间复杂度和高精准度,是符合大数据处理要求的state-of-the-art算法。其可以用于网络安全中的攻击检测,金融交易欺诈检测,疾病侦测,和噪声数据过滤等。该算法用于挖掘异常数据的无监督模型,利用坏用户与规律相比的差异来划分。每次随机选取一定数量的样本训练一棵iTree树,任选特征顺序与分割值,重复多次得到iForest森林。将全量样本沿着每棵iTree达到叶子节点,每个用户在iForest上距离根节点的平均路径长度作为客户异常评分,路径长度越短越可疑。孤立森林擅长分析每个维度对异常用户划分的影响,极值单侧分布的变量更容易区分异常用户,使结果更加精确。但是,孤立森林无法从整体上分析好坏用户的差异,且算法复杂度较高,结果解释性较低。

决策树算法(Decision Tree,DT)是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。决策树方法最早产生于上世纪60年代,到70年代末。由J Ross Quinlan提出了ID3算法,此算法的目的在于减少树的深度。但是忽略了叶子数目的研究。C4.5算法在ID3算法的基础上进行了改进,对于预测变量的缺值处理、剪枝技术、派生规则等方面作了较大改进,既适合于分类问题,又适合于回归问题。决策树算法构造决策树来发现数据中蕴涵的分类规则.如何构造精度高、规模小的决策树是决策树算法的核心内容。决策树构造可以分两步进行。第一步,决策树的生成:由训练样本集生成决策树的过程。一般情况下,训练样本数据集是根据实际需要有历史的、有一定综合程度的,用于数据分析处理的数据集。第二步,决策树的剪枝:决策树的剪枝是对上一阶段生成的决策树进行检验、校正和修下的过程,主要是用新的样本数据集(称为测试数据集)中的数据校验决策树生成过程中产生的初步规则,将那些影响预衡准确性的分枝剪除。该算法可用于信息分类工作,将关键信息分为不同类别;也可以用于人脸识别,对人的面部特征分类,例如鼻梁高低,获取特征数据后,与数据库内数据匹配,进而识别。

人工神经网络(Artificial Neural Network,ANN),是20世纪80年代以来人工智能领域兴起的研究热点。它从信息处理角度对人脑神经元网络进行抽象,建立某种简单模型,按不同的连接方式组成不同的网络。在工程与学术界也常直接简称为神经网络或类神经网络。神经网络是一种运算模型,由大量的节点(或称神经元)之间相互联接构成。每个节点代表一种特定的输出函数,称为激励函数(activation function)。每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重,这相当于人工神经网络的记忆。网络的输出则依网络的连接方式,权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近,也可能是对一种逻辑策略的表达。最近十多年来,人工神经网络的研究工作不断深入,已经取得了很大的进展,其在模式识别、智能机器人、自动控制、预测估计、经济等领域已成功地解决了许多现代计算机难以解决的实际问题,表现出了良好的智能特性。

种子k均值聚类算法(Seeded k-means Clustering Algorithm),简称SKM,是利用好坏用户人群区分度较高的特点,将用户人群分为两类,使同一类中的用户相似度较高,而不同类间用户的相似度较低。选取用户数量少的类作为异常客户,将每个异常用户到正常用户类中心点的距离记作“用户异常评分”,评分越高,用户越可疑。聚类分析擅长从多个维度综合分析用户之间的差异,分布在极值两端的变量对模型结果的影响大,运算效率高,结果可解释性好,但是容易忽略单个指标的决定性作用,且划分结果不够精确。

支持向量机(Support Vector Machine,SVM)可以快速处理大量的数据,用于生物学分类问题,例如人类等高等真核生物基因剪接位点识别问题;也可以通过构造一系列超平面,将大规模的图片进行分类。

朴素贝叶斯(Naive Bayes,NB)对大量的数据的分类效率稳定,常用于医院给病人分类的系统,也用于新闻网站的新闻分类。

k-近邻(KNN)算法常用于手写数字识别领域,准确率非常高。处理数据时,先将训练数据用矩阵储存,之后再转化为向量。然后将测试数据输入模型,输出所写数字。

逻辑回归(Logistic Regression,LR)银行在进行信用评估时常使用LR算法,例如在客户填写信息表,银行从表和第三方信息源处获得客户的信用信息,并将此数据作为输入,信用值作为输出,经过LR计算确认该客户的信用等级。

3、深度学习

“深度学习”(Deep Learning)一词最初于1986年被引入机器学习概念,2000年时又被用于人工神经网络。深度学习由多个层组成,以学习具有多个抽象层次的数据特征。深度学习允许计算机通过相对简单的概念来学习复杂的概念。对于人工神经网络,深度学习(也叫分层学习)是指在多个计算阶段中精确地分配信用,以转换网络中的聚合激活。为了学习复杂的结构,深度架构被用于多个抽象层次,即非线性操作,例如人工神经网络具有许多隐藏层。总的来说,深度学习是机器学习的一个子领域,使用多层次的非线性信息处理和抽象,用于有监督或无监督的特征学习、表示、分类和模式识别。深度学习是机器学习中神经网络算法的扩展,它是机器学习的第二个阶段——深层学习(第一阶段为浅层学习),其中深度是指神经网络的层数。因为机器学习中的单层感知机只适用于线性可分问题,而无法处理线性不可分问题。但深度学习中的多层感知机可以实现,它针对浅层学习的劣势——维度灾难(特征的维度过高,或者无法有效表达特征),能够通过它的层次结构、低层次特征中提取高层次特征,弥补浅层学习的不足。神经网络是深度学习中的一种算法,它也是深度学习的载体。它包含输入层、神经元和输出层,最早的单层神经网络又叫感知机,在结构上它由输入层、隐藏层和输出层组成,连接各层之间的是权值。但单层神经网络有局限,它不可以处理非线性可分的问题,而且如果增加层数,则计算量会迅速增大。后来两层神经网络被提出用于解决非线性可分问题,为减少计算量,有人提出BP算法。其中BP算法是一种由后向前计算梯度、更新权值的机制,它基于高等数学中的链式法则。

深度神经网络(DNN)是指具有两层以上的神经网络,它可以通过增加层数或者增加每层的单元数,来存储更多的参数,从而构建更精密的模型。它的训练是基于贪心算法的逐层训练,也就是训练好上一层之后再增加下一个层,把上一层的输入作为下一层的输出。通过梯度下降方法来更新权值。

但DNN会随着层数的增加而记忆退化,也就是出现梯度消失或梯度爆炸等问题,为更好的记忆参数,有人提出循“环神经网络(RNN)”的概念。隐层中的神经元基于时间传递,即上一时刻的隐层中的参数输出,作为下一时刻隐层中的输入。RNN的训练主要基于BPTT算法,它的局限在于,长期依赖问题。当它处理那些需要前后联系的信息的问题时,效果会变得差。比如,机器翻译里的长句翻译,若是基于RNN构建模型来训练,翻译效果极差。为了解决该问题,有人提出长短期记忆(LSTM)。将RNN中的隐藏层中的神经元替换为更复杂的神经元结构——增加了一些门结构,如输入门、输出门、遗忘门。长短期记忆网络(Long Short Term Memory,LSTM)是基于循环神经网络(Recurrent Neural Network,RNN)的一种优化神经网络模型,其优势是可以处理一些依赖长期历史记忆的场景,这是传统的RNN模型不具备的学习能力。LSTM的核心是在RNN中加入了一个判断信息是否有用的处理器,包括输入门、遗忘门、和输出门,符合模型条件的信息会被留下,其他信息被遗忘门略去。把LSTM网络应用于交易链场景中可以更好地处理并记录交易行为在时间轴上的关联,有效区分异常的交易行为。

卷积神经网络(Convolutional Neural Network,CNN)最早被用于图像处理和识别的场景中,主要由卷积层和池化层构成。卷积层是卷积神经网络的核心,通过固定大小的卷积核的移动构造局部连接,利用参数共享大小减小网络模型;池化层通常夹杂在卷积层之间或者之后,通过池化操作提取变量特征,提高计算效率的同事防止过拟合。在用户交易分析中,由于交易链与图都具有相关性,并且距离越近相关性越大,因此可以通过选取相关交易行为的办法,将某一时刻的一维交易链转化为二维交易链图,再利用卷积神经网络训练找出异常用户行为。CNN是一个多层神经网络,它解决了深层神经网络中模型复杂、参数过多问题。它由输入层、特征提取层、特征映射层等组成。CNN通过三种机制——局部感受野、权值共享、时间/空间亚采样,来保证信息的稳定性——尺度、位移、形状不变。特征提取层是一个卷积层,它通过卷积运算来强化特征信息,同时降低噪音。特征映射层是个下采样层,它通过对此图像进行子抽样,来减少信息量从而降低噪音。卷积神经网络通过感受野和权值共享来减少参数的个数,从而降低训练模型的训练成本。普通的神经网络是通过全局来感受外界图像,而卷积神经网络是通过局部感受野来感受外界图像,第一层的神经元综合起来传递给高层,然后高层得到全局信息。通过这种方式可以减少权值参数。

受限波尔兹曼机(RBM)由可视层和隐藏层两部分组成,它是基于能量模型和波尔兹曼网络。能量模型是一种基于状态来定义状态的能量的模型,而波尔兹曼网络是一种随机网络,它的输入层可以计算隐层节点的值得概率,输出层也可以。隐藏层和可视层通过权值连接,而同层之间没有连接。所有的隐藏层和可视层都满足波尔兹曼分布,所以可以通过输入可视层来得到隐藏层,然后由隐藏层得到可视层,根据偏差来调整参数直得到的可视层与原来的可视层一致为止,这时候的隐藏层便可以作为可视层变换后的特征。增加隐藏层的数量便得到深度波尔兹曼机,把靠近可视层的部分改为有向图模型,远离可视层的部分仍为受限制波尔兹曼机时,便可得到深度信念网络(DBN)。DBN是一种生成模型,它由多个RBM组成,训练时通过逐层传递的方式来计算权值参数,这样便于学习权值。

自编码网络(Auto Encoder,AE)是一种适用于无监督场景下的深度学习网络模型,其主要用途是将数据压缩,在需要的时候用损失尽量小的方式恢复数据。在自编码网络中,输出层神经元的数量与输入层神经元的数量完全相等,通过控制隐藏神经元的数量达到压缩数据的目的。在反欺诈场景中,由于欺诈用户与正常用户在行为上存在较大差异,对于整个数据集来说是冗余信息。自编码网络目前还没有在银行反欺诈领域中大规模应用,但是对数据量和计算环境的高要求有待进一步探索。深度自编码器(AE)是神经网络(NN),其中输出即输入。AE采用原始输入,编码为压缩表示,然后解码以重建输入。在深度AE中,低隐藏层用于编码,高隐藏层用于解码,误差反向传播用于训练。


(四)AI技术:为风控插上智能化的“翅膀”

人工智能(Artificial Intelligence,AI)技术是一门正在发展中的综合性的前沿学科,它是在计算机、控制论、信息论、数学、心理学、哲学、语言学等学科相互综合、相互渗透的基础上发展起来的一门边缘学科,其核心是对大脑的模拟,包括功能模拟与结构模拟。人工智能技术诞生于20世纪50年代的一次研讨会,这次研讨会由麦卡锡 (McCarthy)、明斯基(Minsky)等人发起,在美国的达特茅斯(Dartmouth)大学举办,会上讨论了用机器模拟人类智能的问题,被誉为人工智能之父的美国学者John McCarthy提出了“人工智能”的概念,此后人类开始对这一领域开始了新的探索。人工智能本质是延伸人类智能。它为人类认识世界和改造世界作出了积极的贡献,加速了科学技术的发展,而作为认识主体的人,人工智能技术促进人类认识世界的能力,为人类认识世界提供了一种新的、有力的方法。人工智能主要探讨如何运用计算机模仿人脑所从事的推理、证明、识别、理解、设计、学习、思考、规划以及问题求解等思维活动,并以此解决如咨询、诊断、预测、规划等需要人类专家才能处理的复杂问题。通俗的说,人工智能可以分为两部分来理解,即“人工”和“智能”,顾名思义就是人造的智能。

从产业链上看,人工智能产业链包括基础技术支撑、人工智能技术及人工智能应用三个层次。其中,基础技术支撑由数据中心及运算平台构成,即计算智能阶段,包括数据传输、运算、存储等。人工智能技术是基于基础层提供的存储资源和大数据,通过机器学习建模,开发面向不同领域的应用技术,包含感知智能及认知智能两个阶段。感知智能如语音识别、图像识别、自然语音处理和生物识别等,认知智能如机器学习、预测类API和人工智能平台。人工智能应用主要为人工智能与传统产业相结合实现不同场景的应用,如无人驾驶汽车、智能家居、智能医疗、智能风控等领域。就银行业而言,人工智能技术将为银行的金融产品、服务渠道、服务方式、风险管理、授信融资、投资决策等带来新的变革。在前端,人工智能技术可以用于服务客户;在中台,人工智能技术可以支持授信、各类金融交易和金融分析中的决策;在后台,人工智能技术可以用于风险防控和监督。人工智能技术还将大幅提升银行金融数据处理的能力。通过运用人工智能的深度学习系统,金融行业有足够多的数据供机器进行学习,并不断完善甚至能够超过人类的知识回答能力,尤其在风险管理与交易这种对复杂数据的处理方面,人工智能的应用将大幅降低人力成本并提升金融风控及业务处理能力。具体到信贷风控领域,人工智能技术将提升银行信贷的智能化水平,为风控插上智能化的翅膀。结合目前风控发展趋势,按照人工智能技术分类,提出金融应用场景设想若干,具体如下:

1

语音识别与自然语言处理应用——智能客服。利用语音识别与自然语言处理技术,打造智能的客服机器人,通过整合集团对外客户服务渠道(包括电话、网页在线、微信、短信及APP等),提供在线智能客服服务。一是可以为座席提供辅助手段,帮助客服快速解决客户问题。客服机器人通过实时语音识别和语义理解,掌握客户需求,并自动获取客户特征和知识库等内容。还可通过个人网银、掌上银行、微信公众号等,推出个人金融助理等功能。二是可以基于语音和语义技术,可对电话银行海量通话和各种用户单据数据进行识别和分析,挖掘分析其内在价值,为客户服务与客户营销等提供数据与决策支持。同时,这些数据还可以供智能客服系统进行自动学习,生成知识问答库,为后续客服机器人自动回复客户问题提供参考与依据。

2

计算机视觉与生物特征识别应用——人脸识别。计算机视觉与生物特征识别技术,让机器可以更准确的识别人的身份与行为,对于帮助金融机构识别客户有很多便利。人脸识别技术,是基于人的脸部特征信息进行身份识别的一种生物识别技术。人脸识别是以身份检索或校验为目标,通过摄像机或摄像头采集静态或动态的人脸图像或视频流,并自动在图像中检测和跟踪人脸,进而对检测到的人脸和数据库中已知身份人脸进行脸部特征分析比对的一系列相关技术,通常也叫做人像识别技术和面部识别技术。目前常用的人脸识别技术按照基于的原理分类可分为基于几何特征的人脸识别、基于特征脸的人脸识别、基于模板匹配的人脸识别以及基于神经网络的人脸识别等。其中,基于几何特征的人脸识别主要是首先形成人脸的特征矢量,然后在进行特征矢量比较,进而得到与特征矢量最接近的人脸。基于特征脸的人脸识别是借助主成分分析法(PCA)而形成一种人脸识别,这种方法简单快捷,但也有很大局限性。基于模板匹配的人脸识别方法主要借助标准样本人脸模板,对识别对象进行全范围的扫描和比对,进而实现识别的目的。基于神经网络的识别方法,其主要应用 BP 神经网络学习算法,这种识别方法是通过对生物神经网络的模仿,进行处理运算。该方法步骤是:首先建立一个神经网络,再将需要识别的每个神经单元一一比对。这种方法是目前比较热门的方法。在技术应用中,随着人脸识别技术的日渐成熟,刷脸进站、刷脸取款、刷脸支付、刷脸报到等应用都预示着“刷脸”的时代正在到来。具体到信贷领域,人脸识别技术的产生和运用,让远程智能风控有理想变成了现实。

3

机器学习、神经网络与知识图谱应用——风险预测。机器学习与神经网络技术使机器能够通过数据的分析处理去自动构建、完善模型,提前判断事务变化趋势和规律,并提前做出相应的决策。一是使用深度学习技术,学习海量金融交易数据,从金融数据中自动发现模式,如分析信用卡数据,识别欺诈交易,并提前预测交易变化趋势,提前做出相应对策。二是基于机器学习技术构建金融知识图谱,基于大数据的风控需要对不同来源的数据进行整合,检测发现数据当中的不一致性,分析企业的上下游、合作、竞争对手、子母公司、投资、对标等关系,主动发现并识别风险。三是借助机器学习,通过数据筛选、建模和预测对融资企业或个人信用打分;通过提取个人及企业在其主页、社交媒体等地方的数据,判断企业或其产品在社会中的影响力和产品评价;并通过数据分析和模型预测投资的风险点。实现在放贷过程中对借款人还贷能力进行实时监控,从而及时对后续可能无法还贷的人进行事前的干预,以减少因坏账而带来的损失。四是运用人工智能技术,采用多层神经网络,智能风控系统可以实时采集各种经济数据指标,不断进行学习,实现大批量的信贷服务拓展,有利于降低信贷业务的准入门槛,落实微小企业和个人客户的普惠金融。



楼主热帖
168大数据(www.bi168.cn)是国内首家系统性关注大数据科学与人工智能的社区媒体!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2019-8-24 08:39 , Processed in 0.110047 second(s), 20 queries , Xcache On.

Powered by BI168社区

© 2012-2014 海鸥科技

快速回复 返回顶部 返回列表