建模核心能力自我掌控后，到底给我们带来了什么变化？

发表于 2019-9-30 12:13:05

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

您需要登录才可以下载或查看，没有帐号？立即注册

x

2019年云栖大会上，阿里巴巴董事局主席张勇做了《数字经济时代，大数据是石油，算力是引擎》的演讲，全文充斥着数字化转型的关键词，其提到，数字化转型对于大多数企业来说，意味着所有的东西都将被数字化，都会因为有了数字化而产生进一步走向智慧化、智能化的空间和驱动力。那么，到底是什么在支撑着阿里的数字化战略？大数据，人工智能，云计算，也就是张勇说得“数”和“智”的全面结合。阿里高达50%以上的技术人员比例说明了一切，这些东西不是靠嘴皮子说出来的，也不是靠管出来的，而是靠人一点点码出来的，要的是真功夫，硬功夫。那为什么阿里不像很多企业那样搞外包？科斯说，是交易成本与管理成本的对比，确定了企业的边界，交易成本越低的事情，越应该外部化，管理成本越低的事情，越应该内部化。而数字化创新这种东西，大多是摸着石头过河，交易成本无限大，迭代是其主要特征，因此只能自己做。回到很多企业，IT外包则是理性的选择，因为大多有最佳实践可以复制，比如阿里做出来了，你去COPY就可以了，与其养一只庞大的IT团队自研，背负巨大的成本，还不如轻装上阵，直接从外面采购。但很多东西没有最佳实践，你抄无可抄。笔者在《大数据建模的自主和外包，边界到底在哪里？》这篇文章里曾经提到过，大数据这种创新业务，具有明显的行业特点，谁最懂这个行业的数据和业务，谁就是权威，就最有可能做出符合要求的东西，而最懂业务和数据的人，当然是这个行业内部的人。很多企业存在着人员编制限制、历史包袱太重等诸多问题，对于自研心存疑虑，但根据笔者近几年的实践，其实很多数据类工作的自研性价比是非常高的，比如建模，虽然没法量化，但我可以做个定性比较，见下表，时间越长，优势就越明显。

数据挖掘成本比较
类型	外包	自研
准备时间	高	低
人力成本	低	高
开发周期	中	中
模型缺陷	低或中	中或高
迭代成本	高	低
运营成本	极高	低

当然，建模核心能力自我掌控不仅仅是简单的技术问题，更是组织、机制、流程的问题。人员多了，管理跟不上是非常可怕的事情，你现在让我带几十号人也许还可以，但如果带几百人，就有点吃不消了，很大程度上讲，技术管理人才的匮乏也是很多企业的痛，将不行，兵多也没用。我们从2015年开始提出建模核心能力自我掌控的要求，现在已经是第5个年头了，作为见证人和参与者，不能说我们的建模能力有多强，甚至大多时候我是很自卑的，因为总忍不住跟最好的比，但庆幸的是公司给了机会，让我们找到了一个起点，做正确的事很重要。今天就来谈一谈建模核心能力自我掌控后的一些收获，包括基础模型、融合模型、挖掘模型、基础算法、技术网络等五个方面，希望于你有启示。1、基础模型5年前我们对于企业的数据资产进行了全面的梳理，制定了采集的规范，每个数据责任到人，并要求数据采集全部自己完成，这使得团队对于企业的核心数据理解是比较深刻的，这是做大数据的基础。每当引入新的数据、提升数据的质量、分享新数据的价值或者接洽外部客户，我们都不再需要合作伙伴的参与，这使得沟通成本比较低。现在外部客户问有什么数据，是否有数据字典，每个字段如何解释，都是很简单的事情，换做以前，合作伙伴就可能以数据设计泄露为由拒绝提供数据字典。现在大家都在提开放，但其实有时候你想开放都开放不了，或者在执行过程中困难重重，因为沟通成本太高了，这个也不能怪合作伙伴，而是机制造成的，你确立什么样的规则，就要面对什么样的问题。笔者以前也说过，运营商最核心的数据就是位置和内容，自己在运营商一线做数据多年，知道优化这个数据对于公司的价值，但你说要去推动公司为了一个尚无法确定预期效果的东西马上立项，挑战还是很大的，前面有一堆的机制，流程等着你。没钱意味着没有合作伙伴，只能自己搞，我们起初投入的研发人员只有一人，为了不受杂事的影响还专门去做了双创，一做就是2年多，现在还在迭代优化，而50*50的栅格精准定位能力成了当前位置应用的中流砥柱。我们针对上网内容数据的研究时间更长，由此衍生出行业知识库、爬虫平台、天眼、微洞察产品等大量的系统和产品，虽然这些东西的价值还没有完全呈现，但我们对其充满了期待，其一定是运营商未来内外大数价值变现的一个核心抓手。2、融合模型融合模型的质量往往决定了上层应用的数据生成速度，以前融合模型一旦定型，在日常运营中就很少进行新增和改动，因为一动就牵一发而动全身，合作伙伴其实也不愿意去动，宁可另起支线，一方面是实施比较困难，另一方面性价比不高，比如你梳理评估了老半天，最后就改了几个地方，那到底谁来证明你为其付出的代价。这种问题有时特别扯是因为双方的技术能力差异、追求的目标不一致造成的，交易成本其实很高，合作伙伴有时要求专题立项，但这个项你立得起来吗？融合模型自我掌控的很大好处是团队能够立足长远去做一些事情，而不总是急功近利，外包者和责任人的心态也是完全不一样的。比如发现网格融合模型跑得很慢，负责该模型的同事肯定是要绞尽脑汁去做优化提升的，我们大量融合模型的优化都是负责人自己提出来自己去解决，我也特别鼓励团队成员干这个事情。基于这种要求，我们对于运营商O域上网日志、信令数据的处理做了大量的优化，现在对外提供的效率还算可以。2015年的时候大数据平台的融合模型只有300个，而现在已经有700多个了，类比2004-2005年做的数据仓库融合模型，当时是200个左右，而到2008年推倒重来之前仍然只有200个，这意味着什么？意味着没有进步，数据仓库推倒重来你现在看起来不可思议，但换作以前是很正常的，因为合作伙伴需要项目，我们需要性能，毕竟底子烂透了。3、挖掘模型针对挖掘模型，我们一直提倡借助各方合作伙伴力量百花齐放，但后来出了问题，发现很多核心模型做了一遍又一遍，比如流量挖潜，每次号称是优化，其实都在重做，合作伙伴的人员也换马灯似的那么勤。有一个事让我感触很深，有个合作伙伴离职了，其负责的某个模型没人能理解，也没人能改，甚至连代码都丢光了。这个事件除了让我们重视文档和代码的管理外，我们也把核心能力自我掌控的内涵扩大了，即公司核心业务的模型，个人的属性标签也要求自我掌控。何谓核心业务模型呢？对于运营商来讲，就是四轮驱动的业务模型，比如流量模型，家庭模型，政企模型等等，这些业务是运营商的立身之本，是收入的主力，我们要把这些业务模型抓在自己手里，持续的去运营和迭代。遗憾的是，这几个模型的优化还没到位，推广也有问题，比如宽带模型在整个营销的使用占比大概在20-30%左右。针对这些问题，我们正在推进三个有意义的事情，相信后面会越做越好。一是模型重新归口，解决责任人员的问题。二是重新进行全渠道数据的归集，解决效果数据的质量问题。三是成立了运营团队，解决后续持续推进的问题。很多BI团队做数据挖掘有个毛病，就是只管成功率不管规模，但点的突破并不代表你的模型对于公司有多大的价值，大数据建模团队的基本面，在于你建立的模型在生产中所占的比例，其他都是扯淡了。这个的确太难了。何谓个人的属性标签呢？个人的职业、收入水平、出行方式、家庭关系、居住地、工作地等硬标签都属于个人属性标签的范畴，这些标签具有长期的、稳定的特点，反应了用户的基本特征，价值非常大，比如在对外变现中使用的比例超过80%，但一直缺乏持续的优化，客户总是会问这些标签的覆盖率，准确率是多少，也备受诟病。现在这些标签都纳入了自我管理的范畴，居住地、工作地是提升是最快的，而家庭关系、个人职业、出行方式、收入水平也在持续优化中。4、基础算法我们不可能像大厂那样啥技术都去自我掌控，运营商需要结合自己的数据特点去掌握所需的算法，第一类是基于位置类的算法，无论是精准定位、路网拟合、时空轨迹、交通出行、客流预测、时间序列、时空插值、OD等等，都是非常需要的。第二类是NLP，即自然语言处理，因为我们有太多的上网数据，而上网数据+爬虫数据的组合可以产生无穷的想象力，但要从这些原始数据获得信息或知识，必须靠NLP。NLP的能力直接决定了运营商能从上网数据中获得多少红利，投入再多也不为过。比如通过解析微信公众号文章，我们对于用户偏好的洞察就可能上一个台阶，比如通过对地图POI的解析，我们就可以有效提升自身地址库的质量。这些算法的业务价值很高，很多传统的合作伙伴也不擅长，为了快速推进，我们得自己搞，研发的难度有点大，但却是有利于运营商培养自己的技术人才，这个其实非常好。现在很热的视频、图像、语音等算法都可能纳入到自我掌控的范畴，但这取决于有没有合适的业务场景。5、技术网络对于很多企业来讲，大数据运营的初始，业务和数据更为重要，甚至不需要什么算法能力，大量的模型采用业务规则就可以搞定，而且效果还不错。但随着大数据运营的深入，低垂的果实被摘完了，你会突然发现没有了后劲，无论是线上还是线下，我们都面临数据能力进一步提升的挑战，而这些光靠业务建模师就显得力不从心了，比如精准定位，内容分类等等，因为其所需要的算法都太专业了，远不是直接调用个逻辑回归、决策树就可以解决的。另一方面，人员的流失也开始显现，离职的人员大多提到了发展瓶颈的问题，业务建模对于人员技术能力的提升还是有限的，3年之痒体现在很多员工身上，也并不是每一个人都喜欢做业务建模师或者数据分析师的，他们有自己的技术追求，希望更多的用技术驱动业务，他们更需要一个技术网络。因此我们设立了技术研发组，希望围绕业务难点去做算法的攻坚，让技术研发组成为业务建模师的后盾。其实很早以前笔者就有成立技术组的想法，但一直没有做，因为感觉时候未到，你不能为了技术而技术，即使勉强设置了岗位，但如果没有合适的课题，也没人能教，就变得形同虚设了。很多年前我留不住离职的成员，我也认怂，因为的确没有这个能力去创造这种环境，组织架构要随着业务发展自然演化，现在我们终于有了机会去建立自己的研发团队。现在无论是NLP、内容推荐、爬虫引擎、深度学习都开始由技术研发组提供支持（技术平台我们有自己的云计算中心提供支撑），技术研发组也同时承担着技术培训、技术研讨和创新等工作。说完了五点，你也许还有疑问，难道你们不再需要合作伙伴了吗？当然不是，正如前面我所说的，有些工作，适合自己做，有些工作，则可以托付给合作伙伴，从长远的角度来讲，合适的分工有利于我们和合作伙伴各自发挥所长，一起把蛋糕做大。我们专注于把基础模型和融合模型做好，努力提升位置和内容数据的质量，意味着我们数据中台的对外服务能力会越来越强，合作伙伴则可以基于这些能力去创造更好的数据产品和应用模型。也正是有了合作伙伴的支持，我们才能在较短的时间内推出神灯的大数据产品体系，合作伙伴也因此变得更为强大，现在的问题不是分工的问题，我们的进步甚至推进了合作伙伴的转型，现在的问题往往是资源和能力的问题。10年前我在与装修师傅签订合同的时候以为占了便宜，但然并卵，几年后风一吹门嘎嘎响搞得睡眠总受到影响就知道我在为此付出代价。在数据技术上，我希望跟合作伙伴是平的，我不想克扣你，你也不要欺负我。而建模核心能力自我掌控后，我们拥有了互相尊重的基础，我知道你知道我知道什么，最终我们的目的是为了更好的促进业务的发展，从来不是为了掌控而掌控。也许你还要问，我们自己没有足够的人员，只能让合作伙伴做，怎么开始？以下是我建议的处理原则：一、明确自己人员的工作性质，做管理的，做建模的要区分清楚，比如建模的只能自己写代码，可以与合作伙伴讨论，但不能指挥合作伙伴，从开发的角度讲，不存在甲方，资源再少，也要有做事的原则。二、局方要为自己的建模结果负责，没有合作伙伴为你背书，合作伙伴也一样，不要一出问题就找人背锅，现在大家都要把精力花在自己的问题上。三、凡是违背以上原则的，一事一议，毕竟很多建模涉及的工作量有点大，需要合作伙伴的支持，但一般有个前提，自己会做的部分才能交出去，这也是核心能力自我掌控的要求。当然，如果企业并没意识到数据的重要性，在人才引入上一毛不拔，或者就想着空手套白狼，或者觉得合作伙伴可以搞定一切，或者在与合作伙伴的合作中边界不分，那我说得核心能力自我掌控就全是扯谈了。

作者：傅一平

来源：与数据同行

帐号		自动登录	找回密码
密码			立即注册

[PPT] 建模核心能力自我掌控后，到底给我们带来了什么变化？

马上注册，结交更多数据大咖，获取更多知识干货，轻松玩转大数据

站长推荐 /1