最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

[理论框架] 对数据治理方法论的几点思考

[复制链接]
跳转到指定楼层
楼主
发表于 2020-12-7 16:00:06 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x

说起该指引的前世今生,就不能不提整个银行业机构统计与数据分析的发展历程。借鉴熊彼特《经济分析史》的方法论,我想谈以下几点:

问题1.如何理解数据、信息、数据管理、数据治理、数据质量等基本概念之间的逻辑关系。
问题2.数据治理的难点与目前策略。
问题3.数据价值的实现路径。

01
数据治理相关概念梳理

1.数据是承载信息的物理符号,用于记录特定分析对象的行为与结果,对于金融数据挖掘来讲,这一对象就是银行业金融机构的经营管理行为与结果,以及金融消费者的用户基础信息、财务信息、交易流水、信用状况等。
2.数据的表现形式主要有文字图表、音频视频、图片等,采集方式有手写、输入(鼠标+键盘)、录音、双录(录音+录像)、自动化(传感器)等,依照非线性编缉精准程度(跳着精准查找与编辑,或者一盘磁带从头到尾翻)可分为流数据(磁带上的一首歌,一张电子相片)与离散数据(纸上手写文字,打字机打字,word文档,电子表格)。依照信息提取与加工难度可分为非结构化数据(流数据、一份文稿)、半结构化数据(电子邮件)、结构化数据(电子表格、数据库)。
3.数据存储介质从古至今种类繁多,有岩石(刻石——石碑)、泥土(泥板——古巴比伦楔形文字)、金属(青铜器)、竹木(简)、帛、纸等,现代发展到了磁介质(磁带、磁盘)、塑料(光盘)、集成电路(闪存)。当然,不同介质的数据记录、复制、传播、分析的操作难度与效率也不同,现在大量高活性数据采取的是磁介质、闪存(U盘),一是因为其数据存储能力强、传输快、易复制,二是因为其易查询、易分析、低时滞,十分适应金融数据挖掘的客观需要。
4.数据管理是针对数据的管理活动,个人需遵循管理学的逻辑。依照哈罗德.孔茨以及其它管理学者的定义,管理是人所从事的计划、组织、领导、控制与激励活动。因此,在数据管理活动中,就需分析数据全生命周期涉及的各类角色及其职责。除了法人层面董监高的管理与审计监督职责外,某大行的《数据管理基本制度》就提出,应区分数据采集部门、系统主管部门、数据传输/存储部门、数据分析应用部门四类角色,这一方法从数据生态视角考虑,理清各自权利义务,我以为值得借鉴。
5. 数据治理是强调管理活动的主动性,针对上述各层面、各环节的重难点问题,有明细目标的机制构建与流程创造活动。其目标,既可能是持续推动建立数据标准化体系、联通信息孤岛、整合数据资产、挖掘数据商业价值、创造利润与财富这样的经营性目标,也有可能是提升统计数据质量,实施风险管理与外部信披、报送监管数据等合规要求。
6.数据质量质量控制问题之所以长期存在,不能说纯粹是数据管理者的主观故意,正如徐老师所言,数据分析的需求差异、内涵漂移不是质量问题,靠治理也好、清理也好都没得解决。
需求差异就是同一个数据项,在产生的各个环节是用于满足不同的需求的,需求是有差异的,大家在生产和加工环节,都优先满足自己的需求,轻视和忽视其他主体的需求。别人要的时候,找个大概差不多的提供出去完事。在粗颗粒度和趋势性的应用里,问题不大,越精细的应用,问题就越大。
内涵漂移,是指管理变化、流程调整、核算方式变化甚至字段变动,都会使现有数据项的内涵发生变动。如果不看数据,这些变化很多是部门内部的,也就是说,数据的含义有轻微变动,其他部门基本上不可能发现。而这些变化非常频繁,累积的误差越来越多,数据项的内涵也就不断漂移了。等到漂远了再去找原因,很难分析清楚哪儿出错了,更说不上用合理的安排来解决了,多半来次数据清洗完事。
7.数据价值要想准确使用价值一词,就需区分使用价值与商业价值,以及价格。数据(信息)的使用价值,就是能让数据使用者更好地了解过去、把握现在,以有利于未来。至于这一优势是有助于节约资金成本、节省时间成本,还是获得更多经济收益,只是数据使用价值的决策后果,而非其自身。
数据的经济价值(商业价值),来源于其使用价值,但过去却常归于情报学范畴,或者“金点子”这样的商业噱头,为何?数据的取得成本(定义、采集、传输、存储、编辑、分析、展示)决定了,获得数据需要耗费大量经济资源,而使用数据时,因其有很强的外部经济性(数据复用性、非排他性与一定的非竞争性),数据拥有者(管理者)所获得的经济利益却不易量化,致使数据管理活动及其部门,长期被内部视为成本中心(必要投入、节约成本)而不是利润中心(充分投入、开拓资源),并且数据拥有者往往建立孤岛,拒绝分享,挖对方墙脚。现在,灰色利益的大数据交易潮流涌动,规范的大数据交易却很难常态化开展,因此也无法通过交易来发现公允价格,定义商业价值。
不过,虽灰色产业链中数据定价方式名目繁多,让人眼花缭乱,但是依然没有离开数据使用价值的生产与传播,必须基于数据价值的计量与交换这一基本规律。免费的就是最贵的!你作为数据消费者,之所以可以持续免费获得海量应用与数据,其实是因为你正作为数据生产者,在持续免费地向这一生态链提供着海量数据,大家都同时是数据的生产者/传播者/消费者,并共同分担着这一生态链的生产/交易成本!
8.数据安全(信息安全)因为会为使用者带来经济利益,并影响数据生产者的生活与生产行为(想想谣言的传播,或者提前得知人民币汇率定价),所以数据安全必须考虑。它包括时间(时效性)与空间(人员、层次、地域等范围)两个维度。信息安全等级也因此而有差异,对银行来说,核心账务、客户密码、贷审会等数据安全等级最高,而营销方案、理财说明书等数据安全等级最低。(当然,密密麻麻的理财协议签字稿,可能对客户的安全等级最高。)
综上所述,梳理出数据、数据管理、数据治理、质量控制、数据价值、数据安全等一系列概念的定义与逻辑关系,是我们实施有效数据治理的前提。在这一方面,《指引》似乎还需再理一下。

02
数据治理重难点与策略

1.哪些数据是治理重点?对于纸质文本上记录的数据,比如借款合同、分析报告、财报及附注,因为已有格式化文本、会计准则等前人成果可供借鉴,个人以为可不作为《指引》所规范的重点。至于管理制度、职责分工、运行机制、绩效评估、激励约束、法律责任等方面,《指引》与《监管统计管理暂行办法》、《数据质量良好标准》一脉相承,宏观框架不错,我就不画蛇添足啦。
我们需考虑的是,《指引》仅规范统计指标等结构化粗粒度数据,还是应将信息项定义、标准化流程(贷前、贷中、贷后,发起、处理、结束的前中后台,业务、管理、审计的三道防线)等半结构化(非结构化)细粒度数据渐次全部纳入?是永久保存所有数据,还是本着删除之道,分时段、定范围、精减维度,渐次遗忘从细至粗数据?这方面我觉得还需研究,《指引》可明确“最小信息集”与“数据生命周期”理念,具体操作可存而不论,待诸方实践探索的总结提炼。
2.如何取舍数据的全快准?“全面、及时、准确”,是对监管统计数据的一贯要求,也是广大数据分析人士的梦魇所在,为何?如前所述,丰富多彩(花样繁多?)的细粒度数据,记录着更加多彩的金融行为,要想完整装入横平竖直、条块明晰的统计表格,不做些削足适履的事情恐怕不行。为避免“就数字谈数字,仅分析结构性变化”,统计报表越来越多,指标越来越细,填报与勾稽越来越难(想想G12贷款迁徙与G19重点监测行业,还有G4B-a资本充足率),即使有了自动化工具,考虑到需求差异与内容漂移,全了就可能不快与准,准了就不可能快,这个“全快准”三角形维度要求,也还是得做个权衡。《指引》在此方面,建议还需明晰一下“数据可获得性”的基本原则。
3.从质量管理到主动治理个人观点,数据管理——数据治理——质量控制可能是更合理的逻辑展开。控制,也不是说仅仅是明确信息项与指标定义,然后让采集者去照虎化猫的填就行了。如果不充分开展数据调查,在理清需求差异与内涵漂移的情况下,承认各方面历史现实,找出符合各方利益的最小信息集来,科学定义与推广,而是动辄从头再来设计一套数据字典,不管治理难度与生产周期,越全越多越细越快越好,恐怕也只能让具体实施者问出“您是要一次还是持续要?是马上要还是一个月后要?是报上去的还是实际流程要用的?是内部用还是报外边的?”这类乍看无厘头其实很无奈的语句了!
主动式数据治理,基于数据标准化体系的顶层设计,整合数据孤岛,再造管理流程,清洗数据资产,挖掘数据价值,保障数据安全,循序渐进地提升数据管理水平,是应该鼓励的方向,《指引》于此应有着墨,以推动数据真正成为银行的经济资产,而不是一个只进不出的“单向数据湖”,垃圾堆。

03
数据价值的实现之道

关于如何实现数据的价值,我曾在刊物发表过《海量数据的价值发现》与《银行业数据挖掘:一般数据结构的尝试及挖掘应用策略》两文,尝试提出了一种通用银行数据结构:
维度1:客户是谁?维度2:产品(服务)是什么?(银行向客户提供)维度3:担保方式与担保物是什么?(客户给银行)维度4:每一笔业务的合同如何管理,业务流程如何操作?维度5:每一笔业务在财务会计处理中如何记录、处理?维度6:全流程管理——银行内控制度建设与执行情况。

来源于成于微言 ,作者自在星尘
楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-2 10:19

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表