最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

BDTC PPT集萃(三):BAT、IBM、Intel等分享的大数据技术

[复制链接]
跳转到指定楼层
楼主
发表于 2014-10-13 15:42:16 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x

从2008年60人规模的“hadoop in China”技术沙龙,到当下数千人规模的行业技术盛宴,七届BDTC(大数据技术大会)完整地见证了中国大数据技术与应用的变革,忠实地描绘了大数据领域内的技术热点,沉淀了无数极具价值的行业实战经验。同时,2014年12月12至14日第八届中国大数据技术盛会将一如既往的引领当前领域内的技术热点,分享行业实战经验。

为了更好地洞悉行业发展趋势,了解企业技术挑战,在BDTC 2014召开前夕,我们将带大家一起对历届大会沉淀的知识进行挖掘,分享各IT巨头在大数据领域的探索之路。

大数据为企业的发展带来巨大商机的同时,也对大数据的技术提出了严峻的挑战,这里将为大家送上历届中国大数据技术大会PPT精粹的大数据技术篇。

以下为历届中国大数据技术大会PPT精粹的大数据技术篇:

阿里搜索事业部高级技术专家王峰:阿里搜索实时流计算技术

PPT下载——2013年第七届BDTC

王峰介绍了阿里搜索流计算技术iStream诞生的业务背景,他重点从五个方面对iStream的计算模型进行了详解讲解,这也是一淘首次对外展示iStream计算模型:基本概念、拓扑结构、消息管理、进度管理、编程接口。iStream的设计遵循了“计算和存储分层、计算之间解耦”、“计算层间采用持久化分布式消息队列进行消息传递”的理念,上下游计算解耦、不互相阻塞进度,使得新业务更加方便接入;持久化的消息流,也方便了多业务共享数据以及问题的追查。

IBM Big Data Solutions项目总监George Lapis:利用大数据提取有效见解

PPT下载——2012年第六届BDTC

Big Data Solutions项目总监George Lapis首先介绍了现在社会的智能化,到2020年信息总量将达到35ZB,且大数据并不是针对固定的人员,可针对客服、市场、分析师等。他指出IBM的大数据将传统数据库优化,可以分析和解决传统数据库不能解决的非结构化数据问题。IBM通过对信息的分析中找到了大数据竞争的优势,据IBM调查,从2010年至2012年间,有28%的公司开始了大数据相关工作,47%的公司开始计划大数据相关工作,只有24%的公司没有大数据相关的工作。在大数据的使用中,49%的公司通过大数据实现客户的管理,18%的公司通过大数据来实现运行的优化,剩下的33%通过大数据来实现风险金融的管理,员工的协作等。

英特尔亚太研发有限公司大数据部门夏俊鸾:Spark——基于内存的下一代大数据分析框架

PPT下载——2013年第七届BDTC


夏俊鸾介绍,早在2011年Intel就开始贡献Spark项目,当下Intel中国已拥有Spark项目的3个提交者、7个贡献者,其贡献的patch已有70+。在详细介绍Spark之前,夏俊鸾举了一个很有意思的例子,如果把大数据系统比作是手机,那MapReduce只能算是个功能机,而随后出现的Drill、Impala、S4、Storm则是在MapRedcue上各种功能的增强。他重点对用户在使用Spark时经常关心的几个方面进行了解释,包括性能、学习成本、稳定程度、假如内存不足、容错性和兼容性等方面。在最后的现场互动环节,被问及Intel为什么这么大力发展Spark项目时,夏俊鸾解释说,Intel会挑选部分发展趋势良好的开源项目并加入进去,这样做能让Intel在未来竞争中保持一定的话语权。


百度基础架构部数据平台技术经理刘立萍:百度大数据平台介绍

PPT下载——2012年第六届BDTC

刘立萍主要介绍了百度大数据平台的技术和应用,重点分析了数据仓库本身和多分析引擎。基于Hive的数据仓库,目前重要的工作,一是数据质地,内容大于平台,要建立整个模型,比如主题、裸机、物理存储等,要考虑什么形势,怎么减,会不会屏蔽这些问题等;另一方面,为了满足后续对数据的需求,一定要考虑实效性的问题。在数据仓库后面,还需要做数据内容层面上的工作,把数据覆盖率提升,把整个公司的这种引用的东西存储在里面,数据模型不断地完善,去建设,面向应用的场景和数据模型要建好。


奇虎360技术经理赵健博:奇虎360超大规模HBase集群增强与改进

PPT下载 ——2013年第七届BDTC

赵健博重点从七个方面对奇虎360近一年来在HBase上作出的改进进行了详细介绍:专属MetaServer、启动优化、Scan、Compaction、保护模式、客户端超时保证、索引预加载。根据奇虎360的HBase使用经验,他给大家提出了4条有帮助的建议:根据预期规模,预先创建region;控制region的数量与大小;控制compaction时机与数据:低峰时操作、避免重复IO;实时监控region健康情况,保持In meta与on server的一致性。未来他们仍继续结合业务在减少region的数量、随机读优化(减少读数据量)、二级索引、服务可用性等方面对HBase进行功能改进。


网易高级经理蔡迎东:大型内容推荐系统实践

PPT下载——2012年第六届BDTC

蔡迎东介绍了网易大型内容推荐的技术选型主要有两种:一种是基于内容的推荐系统(对用户和物品分别建模、算物品和用户的模型的相似度、把和用户的模型相似度最高的物品推荐给用户);另一种是基于协同过滤的推荐系统(与系统的业务无关、根据用户的访问记录来挖掘出相似度)。根据各种评选,公司最终选定了新闻推荐(基于内容的推荐)、图集和视频推荐(基于协同过滤的推荐)。蔡迎东还详细的介绍了技术是如何实现的,从门户的用户访问日志中挖掘出用户的兴趣,构建用户的兴趣模型,并采用Hadoop&Hive作为数据挖掘工具。


秒针技术经理刘诚忠:Running Cloudera Impala on PostgreSQL

PPT下载——2013年第七届BDTC

刘诚忠解释了秒针关注大数据的原因,及其对大数据的探索。他介绍说,当初选择Cloudera Impala作为项目Camaro开发的基础时,主要考虑到了Cloudera Impala具备以下几个优势:较好的代码范、模块清晰、容易定制、比Hadoop的速度更快、分布式的执行树等。接着,他从前端、后端等方面对Camaro进行了介绍,并给出了Camaro性能、索引、多用户查询等方面的数据。最后,他为大家带来了Camaro的未来功能展望,如Yarn集成、UDF等,值得期待。


巨杉数据库CTO王涛:基于Cloudera Impala的非关系型数据库SQL执行引擎

PPT下载——2013年第七届BDTC


王涛介绍了Impala实践:SequoiaDB是一种文档类的NoSQL数据库,SequoiaSQL则是基于开源项目Cloudera Impala开发的SQL执行引擎。SequoiaSQL不仅仅是“SQL-on-Hadoop”、支持JDBC、兼容Hive驱动,相对Cloudera Impala而言,在下面四点进行了功能增强:加入SequoiaDB与关系型数据库的读写接口、将metastore嵌入SequoiaDB、增加Update/Delete/Merge语句、查询谓词下压,利用数据库索引提升性能。测试数据表明,SequoiaSQL相对Hive的性能来说,能够达到10倍以上的提升。最后,他也分享了未来的产品计划,如支持聚合下压、排序下压、支持嵌套类型、支持数组类型等,最终将进行基于成本的性能优化。


Informatica核心技术部资深产品管理总监郑玮:数据集成为Hadoop保驾护航

PPT下载——2012年第六届BDTC

郑玮认为运用大数据可以做两件事,创新和降低成本。创新是让不同的企业运用大数据做利于我们生活工作的事情,可以利用大数据进行欺诈侦查,风险、投资组合分析,投资推荐,实时数据审计,预测维护维修,基因测序,互联车辆等创新。降低成本则有多种途径:可通过将原始数据临时存储在低成本的商用硬件上;将ETL/ELT 处理转移到低成本的商用硬件上;借助实时数据集成,平滑实现ETL处理;借助高速数据复制,从源系统中卸载处理;借助通用的IDE,将生产效率提升两倍,开发人员通过一次开发,即可实现随地部署;消除数据副本,通过数据虚拟化提升数据仓库能力来降低数据管理成本。郑玮指出要权衡好大数据的创新和降低成本。


启明星辰公司副总裁、首席战略官潘柱廷:攻击大数据

PPT下载 ——2012年第六届BDTC

大数据的安全和隐私问题是永远的问题,随着数据的增多,组织面临的重大风险跨越了一个复杂的威胁面,要遵守更多合规规定,传统的数据保护方法常常无法满足。我们要学会用安全思维去考虑大数据的安全问题,包括三要素(资产、威胁和安全措施)、立场性(博弈、对抗、合作,价值是有归属的,意图和随机扰动)、时空与知识(分布和层次、生命周期、流和用例、知识维簇)和经典手段(认证加密类、攻防检测类、系统化风险管理类)。潘柱廷认为攻击大数据主要是从系统平面、服务平面和数据平面三个方面入手,并对此进行了详细的展开介绍。

2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会协办,中科院计算所与CSDN共同承办的第八届中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014)将在北京新云南皇冠假日酒店隆重举办。本届大会将围绕“大数据基础建设”、“大数据生态系统”、“大数据核心技术”、”大数据应用之互联网技术实践”、”大数据应用之传统企业技术实践”等议题展开,近百位专家将亲临现场,分享他们的技术实战。



楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-5-2 13:10

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表