博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Hadoop I/O操作原理整理
阅读量:6911 次
发布时间:2019-06-27

本文共 1463 字,大约阅读时间需要 4 分钟。

I/O操作中的数据检查

  校验和方式是检查数据完整性的重要方式。一般会通过对比新旧校验和来确定数据情况,如果两者不同则说明数据已经损坏。比如,在传输数据前生成了一个校验和,将数据传输到目的主机时再次计算校验和,如果两次的校验结果不同,则说明数据已经损坏。因为Hadoop采用HDFS作为默认的文件系统,因此具有两方面的数据完整性。

1、本地文件I/O的检查

   本地文件系统的数据完整性由客户端负责,重点是在存储和读取文件时进行校验和的处理。每当Hadoop创建文件a时,Hadoop就会同时在同一文件夹下创建隐藏文件a.crc,这个文件记录了文件a的校验和。针对数据文件的大小,每512字节Hadoop就会生成一个32位的校验和(4字节)。

2、对HDFS的I/O数据进行检查

  DataNode接收数据后,存储数据前。它接收数据一般有两种情况:一是用户从客户端上传数据;二是DataNode从其他DataNode上接收数据。Hadoop不会在数据每流动到一个DataNode时都检查校验和,它只会在数据流动到最后一个节点时检验校验和。

3、在MapReduce程序中使用压缩

  设置Map处理后数据的压缩代码示例如下:

JobConf conf = new JobConf();conf.setBoolean("mapred.compree.map.output",true);//设置output输出压缩conft.setBoolean("mapred.output.compress",true);conf.setClass("mapred.output.compression.codec",GzipCodec.class,CompressionCodec.class);

4、数据的I/O中序列化操作

  序列化是将对象转化为字节流的方法,或者说用字节流描述对象的方法。与序列化相对的是反序列化,反序列化是将字节流转化为对象的方法。序列化有两个目的:进程间通信;数据持久性存储

Hadoop采用RPC来实现进程间通信,一般而言,RPC的序列化机制有以下特点:

  紧凑:紧凑的格式可以充分利用带宽,加快传输速度。

  快速:能减少序列化和反序列化的开销,这会有效减少进程间通信的时间。

  可扩展:可以逐步改变。

  在Hadoop中,并没有采用JAVA提供的序列化机制,而是自己重新写了一个序列化机制Writables。Writables具有紧凑、快速的优点。但不易拓展。

Text

   这是Hadoop中对string类型的重写,但是又与其有一些不同。Text使用标准的UTF-8编码,同时Hadoop使用变长类型VInt来存储字符串,其存储上线是2GB。Text类型与String类型的主要差别在于:

  1、 Stirng的长度定义为String包含的字符个数;Text的长度定义为UTF-8编码的字节数。

  2、String内的indexOf()方法返回的是char类型字符的索引。Text的find()方法返回的是字节偏移量。

  3、String的charAt()方法返回的是指定位置的char字符;而Text的charAT()方法需要指定偏移量。

SequenceFile类

  SequenceFile记录的是key/value对的列表,是序列化之后的二进制文件,因此是不能直接查看的。可通过:hadoop fs -text mySequenceFile查看

 

参考:《Hadoop实战》

转载地址:http://mkbcl.baihongyu.com/

你可能感兴趣的文章
Android BaseAdapter使用介绍
查看>>
react 使用 fetch 向spring mvc后台发起ajax 请求 options 403
查看>>
Android_TextSwitcher和ImageSwitcher
查看>>
五,JavaWeb简略的谈下前端技术<二>CSS层叠样式表
查看>>
LinkedBlockingQueue源码学习笔记
查看>>
SolrCloud 6.6.2 之 Collection API
查看>>
运用Oltu框架搭建OAuth的Demo工程
查看>>
优化Android应用内存的若干方法
查看>>
ajax get和post跨域问题解决方法
查看>>
Android库和项目收集
查看>>
组织机构构建说明
查看>>
gitlab安装包下载的两种方法
查看>>
深入理解Loadrunner中的Browser Emulation
查看>>
mysql 中文按照拼音排序
查看>>
Python的函数参数
查看>>
android开发之安全防护
查看>>
使用AnimationListener设置应用开启时的欢迎界面
查看>>
shell脚本编程学习之路-字符串测试表达式
查看>>
memcache,php装载memcache模块
查看>>
H3C的简单使用方法
查看>>