当前位置: 代码网 > 科技>人工智能>数据分析 > HDFS的文件块大小(重点)

HDFS的文件块大小(重点)

2024年08月02日 数据分析 我要评论
对于一般硬盘来说,传输速率为100M/s,一般设置块的大小128M,因为128是2的7次方,最接近于100M。比如,块的大小是1TB,传输这个1TB的数据会非常慢,并且程序处理这个1TB的数据时,也非常的慢。不是的,它只占用文件本身大小的空间,其它空间别的文件也可以用,所以这128M的含义是HDFS数据块的大小,和每个文件的大小没有关系。HDFS的块设置太小,会增加寻址时间。例如,块的大小是1KB,文件大小是100KB,这时候要分100个块来存储文件,读取文件时要找到100个块的地址,会大大增加寻址时间。

hdfs 中的文件在物理上是分块存储 (block ) , 块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在hadoop2.x/3.x版本中是128m,1.x版本中是64m。

如果一个文件文件小于128m,该文件会占用128m的空间吗?不是的,它只占用文件本身大小的空间,其它空间别的文件也可以用,所以这128m的含义是hdfs数据块的大小,和每个文件的大小没有关系。

把下图的流程过一下

 

思考:为什么块的大小不能设置太小,也不能设置太大?

hdfs的块设置太小,会增加寻址时间。例如,块的大小是1kb,文件大小是100kb,这时候要分100个块来存储文件,读取文件时要找到100个块的地址,会大大增加寻址时间。
如果块设置的太大,从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。导致程序在处理这块数据时,会非常慢。比如,块的大小是1tb,传输这个1tb的数据会非常慢,并且程序处理这个1tb的数据时,也非常的慢。
总结:hdfs块的大小设置主要取决于磁盘传输速率。对于一般硬盘来说,传输速率为100m/s,一般设置块的大小128m,因为128是2的7次方,最接近于100m。固态硬盘一般传输速率为200m/s~300m/s,可以设置块大小为256m。在企业,128m和256m是常用的块大小。

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com