最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

PPT解读:百度大数据质量保障方案探索

[复制链接]
跳转到指定楼层
楼主
发表于 2014-12-31 09:18:01 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本帖最后由 乔帮主 于 2014-12-31 09:19 编辑

传统的测试验证手段专注于通过测试设计构建合理的输入输出,来实现代码路径覆盖。随着行业中大数据的逐渐兴起,无法满足这一新领域测试挑战。机器学习、数据挖掘、长数据流系统、大规模存储,这些在大数据领域常见的技术,尚且没有成熟的、体系化的质量保障方案来应对。

百度日新增数据量3P左右,这些数据将用于搜索、广告等核心业务系统。达到这一规模的数据与系统,会遇到新的问题与挑战,需要测试体系建设过程的方法创新与技术创新。

PPT解读

PPT干货:百度大数据质量保障方案探索

点击下载

链接: http://pan.baidu.com/s/1o6wVmvo 密码: fp1t

这一个方向的探索是公司“基础技术体系”的平衡计分卡的一项战略目标,由我来主导规划和管理。随着公司的关键领域(搜索、广告)工程架构日趋成熟,大规模的工程重构的频度有显著下滑趋势,进一步的突破口或许在于算法与策略,例如贯通更多更全面的数据、例如利用深度机器学习技术带来的广告变现的增益,等等。在这样的大背景下,如果测试角色仍停留在工程代码验证与回归支持的层面,恐将有被边缘化的风险。因此在今年年初,决定开始这一新技术领域的探索,并获得了一定程度的技术积累与突破。

这里所提到的并不是一个简单的独立案例,而是一个技术方向建设的阶段性进展。限于篇幅,将构成一篇综述性质的文案,逐一介绍在大数据测试方向取得的经验,抛砖引玉,以为更多企业提供相关领域的质量保障体系建设的思路。

注:“基础技术体系”,包含深度机器学习、自然语言处理、基础架构、测试运维等所有非直接提供业务产品的技术团队,“大数据质量”是一项公司级的技术战略方向。

PPT要点:

1.革命尚未成功,仅介绍阶段性突破与当前进展

2.我们有强大的技术团队,可快速突破和探索新领域的关键技术难点。在组建团队时,对于校招学生会挑选科研成果较好、有发展潜力的候选,以知名院校的计算机类科研硕士为招聘主体;社招有较高比例的专家型人才,均在一线公司有分布式存储、数据挖掘、机器学习等领域实战经验的研发工程师。一流的团队才能吸引一流的人才,对测试团队的低定位,是测试行业难以技术突破的桎梏。

3.百度拥有大量的数据,研发运维过程的确遭遇痛点。质量部建设这一技术方向时,与诸多业务部门一拍即可,提供了充分的应用落地场景。感谢百度技术驱动的良好氛围与系统足够庞大复杂,使得我们能有更好的客观条件。天时地利人和,缺一不可。

难点分析:

1.大数据领域涉及多类目的基础算法,例如挖掘、推荐、预测、机器学习。算法本身的测试是一个专业性很强的方向,需探索如何更有效构建质量保障体系。

2.大数据领域涉及多种典型Test-Oracle缺失问题,例如电商领域的推荐系统,这类系统验收与传统质量保障方案有较大差异。

3. 长数据流系统往往横跨整个公司,例如百度获取整个互联网的页面信息,到最终将搜索结果展现在终端,这一数据处理的过程会横跨非常多的团队,体系架构复杂,信息量远超出个人能掌握的范畴。对于这类的系统,须积累体系化的工具与能力,来追踪和覆盖跨多业务团队的问题。

4. 平台与应用,例如苹果的IOS平台升级后,如何保障应用的兼容?大数据也会涉及类似问题(hadoop平台与Map-Reduce程序),在数据的基础架构与应用间,需有方案对这类的系统模式进行体系化的迭代与回归支持。

5. 超大数据量的验证,每日千亿级别的数据,在持续监控方面会遇到一些问题与瓶颈,须有相应解决方案。

6. 支持大数据量的基础架构体系,涉及分布式系统、容灾容错、运维、拉伸扩展、性能、异常,须有相应的技术积累。

收益分析:

1. 积累了大数据相关的质量保障技术与方法,辅导新切入大数据方向的业务产品线,帮助对应研发、测试、运维团队获得相关技术能力。

2. 在诸多团队有落地实践,覆盖三十多产品,日均监控有效问题数十例,有效提升了公司级的基础数据质量,拓展了模型预估类系统的准确性上限(广告点击分析、展现什么内容谁会更有效点击,就是这类的系统)。

启示:

新的技术会带来业务模式的新突破,测试团队需有危机感,需勇于突破积极创新。测试团队会加剧分化,强者愈强,适者生存。不进取的团队,发展空间将被进一步挤压。大数据能力是一支优秀测试团队未来需掌握的一种新的技能,大数据本身带来的质量挑战,以及大数据技术能为更广泛场景质量保障带来的效益,是测试行业的一个机会。

PPT及内容来源于百度质量部 钱承君




楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞1 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

沙发
发表于 2014-12-31 10:04:02 | 只看该作者
数据质量体系建设思路

点评

欢迎写下自己的数据质量体系建设思路  详情 回复 发表于 2014-12-31 10:13
板凳
 楼主| 发表于 2014-12-31 10:13:54 | 只看该作者
peterlee110 发表于 2014-12-31 10:04
数据质量体系建设思路

欢迎写下自己的数据质量体系建设思路
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-29 10:24

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表