最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
开启左侧

阿里大数据架构师必备技能,你“佩奇”了嘛?

[复制链接]
发表于 2019-4-22 19:44:48 | 显示全部楼层 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
这两天真的是被《啥是佩奇》这支广告片刷屏了。佩奇明明是个喜剧角色,却把所有人都给看哭了!

中间的剧情,小孙子一句:“想要佩奇”,结果爷爷就开始了满村子的寻找佩奇,到最后寻找到了小编认为是最好看的佩奇

不知道大家看了之后是什么感觉,反正我看了之后的感觉是非常感动了。不过经过几天的发酵,“佩奇”这两个字似乎有了更多的含义了!各种”佩奇“齐出不穷,女人的“佩奇”是什么样的?程序员的“佩奇”是什么样的?


今天在这里我就给大家分享一下,大数据工程师的“佩奇”是什么样的!


”佩奇“技能
1.编程能力


无论是Java还是Python,学习编程语言一定要先沉下心来专攻某一门,尤其是开放源代码工具,在任何公司都广泛运用。


比如对Java语言基础语法、OOP编程、多线程及网络编程、MySQL数据库、Maven项目管理等开发入门工具的学习,可以训练自己掌握大数据必备的基本编码能力,也为后续学习大数据分析或是推荐系统等高级的内容打下坚实基础。


2.hadoop


Hadoop在大数据技术体系中的地位至关重要,Hadoop是大数据技术的基础,对Hadoop基础知识的掌握的扎实程度,会决定在大数据技术道路上走多远。Hadoop里面包括几个组件HDFS、MapReduce和YARN,HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面,MapReduce是对数据进行处理计算的,它有个特点就是不管多大的数据只要给它时间它就能把数据跑完,但是时间可能不是很快所以它叫数据的批处理。


欢迎大家加入大数据学习交流裙:894951460,YARN是体现Hadoop平台概念的重要组件有了它大数据生态体系的其它软件就能在hadoop上运行了,这样就能更好的利用HDFS大存储的优势和节省更多的资源比如我们就不用再单独建一个Spark的集群了,让它直接跑在现有的hadoop yarn上面就可以了。下面是Hadoop的常用模块架构图:




3.Spark

它是用来弥补基于MapReduce处理数据速度上的缺点,它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算,所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它,因为它们都是用JVM的。

4.Storm


Storm是一个免费并开源的分布式实时计算系统。利用Storm可以很容易做到可靠地处理无限的数据流,像Hadoop批量处理大数据一样,Storm可以实时处理数据。Storm简单,可以使用任何编程语言。


5.Kafka

Kafka is a distributed,partitioned,replicated commit logservice。它提供了类似于JMS的特性,但是在设计实现上完全不同,此外它并不是JMS规范的实现。kafka对消息保存时根据Topic进行归类,发送消息者成为Producer,消息接受者成为Consumer,此外kafka集群有多个kafka实例组成,每个实例(server)成为broker。欢迎大家加入大数据学习交流裙:894951460。无论是kafka集群,还是producer和consumer都依赖于zookeeper来保证系统可用性集群保存一些meta信息。


6.Flink

Flink是一款分布式的计算引擎,它可以用来做批处理,即处理静态的数据集、历史的数据集;也可以用来做流处理,即实时地处理一些实时数据流,实时地产生数据的结果;也可以用来做一些基于事件的应用,比如说滴滴通过Flink CEP实现实时监测用户及司机的行为流来判断用户或司机的行为是否正当。


7.Hive


Hive 由 Facebook 实现并开源
是基于 Hadoop 的一个数据仓库工具
可以将结构化的数据映射为一张数据库表
并提供 HQL(Hive SQL)查询功能
底层数据是存储在 HDFS 上
Hive的本质是将 SQL 语句转换为 MapReduce 任务运行
使不熟悉 MapReduce 的用户很方便地利用 HQL 处理和计算 HDFS 上的结构化的数据,适用于离线的批量数据计算。
8.ElacsticSearch


ES是一个基于Lucene的分布式全文搜索服务器,和SQL Server的全文索引(Fulltext Index)有点类似,都是基于分词和分段的全文搜索引擎,具有分词,同义词,词干查询的功能,但是ES天生具有分布式和实时的属性,本随笔演示在Windows环境中安装ElasticSearch,以及用于管理ElasticSearch的Head插件。


总结
在技术行业里面,每天都会有新的东西出现,需要关注最新技术动态,不断学习。任何一般技术都是先学习理论,然后在实践中不断完善理论的过程。


如果你觉得自己看书效率太慢,你可以网上搜集一些课程。


快速学习的能力、解决问题的能力、沟通能力在这个行业是真的非常重要的指标。


要善于使用StackOverFlow和Google来帮助你学习过程遇到的问题。
---------------------
作者:假的鱼
来源:CSDN
原文:https://blog.csdn.net/m0_37803704/article/details/86598877  

楼主热帖
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-3-29 23:36

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表