最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

[HDFS] HDFS特性和常用功能

[复制链接]
跳转到指定楼层
楼主
发表于 2019-3-20 21:27:09 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
0. HDFS集群的配置
hadoop集群配置后start-dfs.sh启动hdfs服务
Hadoop集群配置见前文


CentOS7下配置Hadoop集群和Zookeeper集群
https://blog.csdn.net/wxfghy/article/details/80417691


1. Hadoop官方文档
http://hadoop.apache.org/docs/r2.9.1/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html


2. HDFS概念
Hadoop Distributed File System
Hadoop的分布式文件系统
HDFS被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。


3. 基本特点
高容错性,部署在低廉的硬件上,高吞吐量,适用于海量数据的可靠性存储和数据归档


4. HDFS设计目标
硬件失效
将硬件失效看作一种常态,健壮性,高可用.检查错误,快速和自动恢复是核心架构
流式访问
允许通过流的方式访问数据集,批量处理非交互,高吞吐量访问非低延迟
大数据
支持PB级数据量,具有高带宽,可扩展到集群中
简单一致性模型
一次写入,多次读取,文件创建后无须修改(日志等),支持追加,不支持任意位置修改
移动计算要比移动数据更划算
以文件块管理,提供接口去移动计算到数据所在位置,非移动数据到应用位置
轻便的跨异构的软硬件平台
可轻便从一个平台跨到另一个平台,包括版本不同和运行环境不同
5. 重要特性
分块存储(block)
默认大小128M(2.x版本),64M(老版本),可修改
统一的抽象目录树
可通过路径访问文件(hdfs://namenode:port/…)
统一管理
目录结构和元数据的管理都由namenode(集群主节点)承担
负责维护目录树和文件所对应的block块id和所在datanode服务器
datanode存储管理
集群从节点,每个block可在多个datanode上存储多个副本,副本数量可修改
一次写多次读,可追加不可改
一些缺点:
不便修改,延迟大,网络开销大,仅适用于数据分析任务
6. 常用命令
hadoop fs 等同于 hdfs fs,作为命令头
功能        命令
hdfs协议访问namenode        hadoop fs -ls hdfs://master:9000/
http协议访问datanode        hadoop fs -ls http://slavea:50075/
在根目录下创建文件夹        hadoop fs -mkdir /mydemo
上传文件到目标文件夹        hadoop fs -copyFromLocal h1.txt /mydemo
下载文件到当前文件夹        hadoop fs -copyToLocal /mydemo/h1.txt ./d1.txt
查看文件        hadoop fs -cat /mydemo/h1.txt
查看目录下所有文件        hadoop fs -ls -R /
追加文件内容到目标文件中        hadoop fs -appendToFile ./h2.txt /mydemo/h1.txt
删除文件或文件夹        hadoop fs -rm -r /mydemo
7. HDFS工作机制
datanode损坏
如配置10个datanode,备份数为3,则损坏1个datanode时会自动寻找新的datanode补充进来,保证备份数为设定值
写数据的流程
首先,客户端要和namenode通信以确认可以写文件并获得接收文件block的datanode
然后,客户端按顺序将文件逐个block传递给相应的datanode
最后,由接收到block的datanode负责向其他datanode复制block的副本
读数据的流程
首先,客户端将要读取的文件路径发送给namenode
然后,namenode获取文件的元信息(主要是block的存放位置信息)返回给客户端
最后,客户端根据返回的信息找到相应datanode逐个获取文件的block并在客户端本地进行数据追加合并从而获得整个文件
8. HDFS常用功能
1.元数据
Metadata,维护文件和目录信息,分为内存元数据和元数据文件
NameNode主要存储元数据镜像文件Fsimage和日志文件Edits
Fsimage记录某一永久性检查点时整个HDFS的元信息
Edits所有对HDFS的写操作都会记录在此文件
2.检查点
定期对NameNode中的文件进行备份,NameNode启动时会将最新的Fsimage加载到内存中
由secondary namenode完成namenode备份,后者损坏后前者将fsimage拷贝到namenode工作目录,恢复其元数据
触发条件分为两次检查点间隔时间和两次检查点操作数两种
3.DataNode功能
存储管理用户的文件块数据,默认128M/block
定期汇报块信息给namenode,默认3600000ms(1小时一次)
---------------------
作者:翱翔的江鸟
来源:CSDN
原文:https://blog.csdn.net/wxfghy/article/details/80430685  

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-4-27 10:20

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表