`
357236417
  • 浏览: 8804 次
  • 性别: Icon_minigender_1
  • 来自: 长沙
社区版块
存档分类
最新评论

大数据之路(一)

阅读更多

大数据之路()hadoop

所谓的hadoop,是Apache公司引入的一个分布式系统框架,它实现了一个分布式文件系统(HDFS),可以以流的形式访问系统数据,hadoop的有点有很多,比如可靠性、高效性、可伸缩性、高容错性和提供开源代码。

hadoop基本架构

由两部分组成分布式文件系统HDFS和分布式系统框架MapReduce

HDFS组件:

Client:提供文件系统接口,与NamenodeDataNode交互访问HDFS中的文件

 

NameNode:整个集群中只有一个,管理目录树元数据并以“fsimage(元数据镜像文件)editlog(HDFS文件改动日志)的形式存放在本地磁盘,此外,它还监控DataNode健康状态

 

SecondaryNameNode:定期合并fsimageedits并存储

 

DataNode每个slave节点有一个,存储实际数据,并定期汇报给NameNode,以默认64M大小的block为单位组织文件

 

 

MapReduce组件:

Client提交MR程序到JobTracker端,可供用户产看作业运行状态

 

JobTracker负责资源监控和作业调度

 

TaskTracker将本节点的资源使用情况和任务运行情况汇报给JobTracker,执行JobTracker发来的命令

 

Task分为Map TaskReduce Task以“split”为单位进行处理,Map Taskslip迭代解析成一个个key/value对,交由map()进行处理,最终临时数据被分成若干partition交由Reduce Task处理,Reduce Task处理再对读取数据,对key/value进行排序,读取<key,value list>,调用reduce()函数处理,并将结果存储在HDFS

hadoop平台搭建

要想使用hadoop,先要搭建平台,前人给我们留下了宝贵博客

http://weixiaolu.iteye.com/blog/1401931,里面有详尽的搭建过程,

安装过程中注意配置好hadoop/conf目录下的hadoop-env.shcore-site.xmlmapred-site.xmlhdfs-site.xml文件,再在masters和slaves文件中填写localhost(因为是单机版)。搭建好之后在单机上运行过程如下:cd /usr/local/hadoop

bin/hadoop namenode -format  (格式化hdfs文件系统)

bin/start-all.sh

最后用jps检测是否启动成功 启动成功应该有下面几个进程

NameNode SecondaryNameNode TaskTracker DataNode JobTracker Jps

hadoop命令

hadoop fs对HDFS进行操作的命令

ls 列出目录及文件信息

lsr 循环列出目录、子目录及文件信息 

put 复制文件

cat 查看文件内容

rm 删除文件

rmr 删除目录以及子目录

copyFromLocal 从本地系统复制文件到HDFS系统

copyToLocal 从HDFS复制文件到本地

chmod 修改权限

du 显示该目录中每个文件或目录的大小 

text 显示文件内容,当文件为压缩文件时会先解压缩

MR接口体系

MapReduce接口体系结构包括InputFormat、Mapper、Partitioner、Reducer和OutputFormat

Mapper/Reducer解析

Mapper/Reducer中封装了应用程序的数据处理逻辑。为了简化接口,MapReduce要求所有存储在底层分布式文件系统上的数据要解析成key/value的形式,并交给map reduce函数处理,产生另外的key/value,Mapper的类图如下:



 

 

包括初始化、Map操作清理三部分

 

初始化:Mapper继承JobConfigurable接口。该接口中的configure方法通过JobConf参数对Mapper进行初始化

 

Map操作:MapReduce框架通过InputFormatRecordReaderInputSplit获取一个个key/value对,并交给下面的map()函数处理

void map(K1 key, V1 value, OutPutCollector<K2, V2> output, Reporter reporter) throws IOException;

OutPutCollectorReporter两个类型的参数用来输出结果和修改Counter值。 

清理:Mapper通过继承Closeable接口获得close方法,用户通过实现该方法对Mapper进行清理。

 

 

Hadoop MapReduce自带的Mapepr/Reducer实现的类层次图

 

 

ChainMapper:支持链式作业

IdentityMapper/Reducer:直接将输入的key/value输出

InvertMapper:交换keyvalue的位置

RegexMapper:正则表达式字符串匹配

TokenMapper:将字符串分割成若干个token

LongSumReduce:以key为组,对long类型的value求累加和

新版API改动:

1.Mapper由接口变为抽象类,不继承JobConfigurableCloseable两个接口,添加setupcleanup两个方法进行初始化和清理工作。

2.参数封装到Context对象中

3.添加run方法,方便用户定制map()函数调用方法

4.Reducer遍历value的迭代器类型变为java.lang.Iterable,使用户能采用“foreach”形式遍历所有value

  • 大小: 66.7 KB
  • 大小: 32.1 KB
分享到:
评论

相关推荐

    阿里巴巴 大数据之路

    阿里巴巴,作为距离大数据最近的公司之一,近几年对大数据却鲜有...《大数据之路:阿里巴巴大数据实践》就是在这个过程中,由阿里巴巴数据技术及产品部沉淀下来的大数据知识与实践,值得每一位与大数据相关的人阅读。

    Redis大数据之路-dtcc-唐福林

    一本描述Redis的书籍《Redis大数据之路》

    尚硅谷大数据之flink教程1

    尚硅谷大数据技术之 Flink第一章 Flink 简介 初识 FlinkFlink 起源于 Stratosphere 项目,Stratosphere 是在 2

    大数据技术之一“数据标识”.pdf

    该文通过导入大数据概念,解释大数据包 含的二元概念,分析 "大统计" 与 "大数据" 的区别,引出大数据技术之一 "数据标识" 方法与应用,用以标识人类行为数据和医学 大数据开发应用的方法,文章进一步阐明 "数据标识" 的...

    大数据Epub文档

    本书是国内绝大多数高校采用的知名教材《云计算》(1~3版)的姊妹篇,是中国大数据专家委员会刘鹏教授联合国内多位专家历时两年的心血之作。大数据领域一直缺乏一本权威教材,希望本书能够填补空白。本书系统地介绍...

    大数据综合实验一 实现简易浏览推荐系统.pdf

    大数据综合实验一 实现简易浏览推荐系统.pdf

    大数据时代观后感.doc

    《大数据时代》读后感 一、本书的主要内容 《大数据时代》这本书主要描述的是大数据时代到临人们生活、工作与思维各方面所 遇到的重大变革。..."大数据令人着迷之处还 在于,它正在尝试着引导人们用科学的办法对

    删除:大数据取舍之道

    《删除:大数据取舍之道》开启了一场关于“遗忘”的热烈讨论,让我们始终记得遗忘的美德。《删除:大数据取舍之道》告诉我们,在大数据时代,面对海量信息人类该如何取舍,怎样才能构建一个积极而安全的未来。

    大数据之Redis笔记.pdf

    大数据之Redis笔记.pdf,这是一份关于Redis方面的文档,希望可以帮助学习者

    大数据技术参考架构

    大数据参考架构围绕代表...IT价值链表示大数据作为一种新兴的数据应用范式为IT技术产生的新需求带来的价值,其核心价值通过为大数据应用提供存储和运行大数据的网络、基础设施、平台、应用工具以及其他IT服务实现。

    大数据云计算教程 大数据基础入门学习课程 大数据导论课程系列 全套PPT课件 共45个章节.rar

    5.7 一种基于Hadoop的数据仓库之一 5.8 一种基于Hadoop的数据仓库之二 5.9 一种基于Hadoop的数据仓库之三 6.1 一种并行编程模型-MapReduce-之一 6.2 一种并行编程模型-MapReduce-之二 6.3 一种并行编程模型-...

    尚硅谷大数据技术之模板虚拟机环境准备1

    尚硅谷大数据技术之模板虚拟机环境准备(作者:尚硅谷大数据研发部)版本:V3.3第1章 VMware1.1 VMware安装一台电脑本身是可以装多个操作系统的,但

    大数据导论:认识大数据.pdf

    包括两个部分,首先第一章是认识大数据,讨论大数据在 信息技术产业的发展趋势,给出详细的相关大数据的概念,包含 3V、数据源、数据类 型和大数据的应用。较广泛地解释当今相关大数据的各种职业机会。第二章是...

    大数据治理系列 第一部分 大数据治理统一流程模型概述和明确元数据管理策略.pdf

    大数据治理系列 第一部分 大数据治理统一流程模型概述和明确元数据管理策略.pdf大数据治理系列 第一部分 大数据治理统一流程模型概述和明确元数据管理策略.pdf大数据治理系列 第一部分 大数据治理统一流程模型概述和...

    大数据简历项目 关于两个联通大数据项目和一个爬虫项目

    项目一:联通大数据项目 项目名称: 移动终端上网数据实时分析处理系统; 开发环境: IDEA+eclipse+maven+jdk 系统架构: hadoop+zookeeper+flume+Spark+hive+mysql+sqoop+Oracle 项目二:联通大数据项目 项目名称:...

    01.《大数据》配套PPT之一:第1章 大数据概念与应用

    01.《大数据》配套PPT之一:第1章 大数据概念与应用。01.《大数据》配套PPT之一:第1章 大数据概念与应用

    大数据技术之Kafka.pdf

    大数据技术之Kafka.pdf文档,本文档介绍了大数据技术之Kafka,是一份比较不错的文档

    大数据技术之Maven

    大数据技术之MavenMaven是干什么用的?这是很多同学在学完这个课程后最大的问题。之所以会提出这个问题,是因为即使不使用Maven我们仍然可以进行B/S结构项目的开发。从表述层、业务逻辑层到持久化层再到数据库都有...

    理解大数据实践大数据概述.pptx

    大数据产生的背景 数据的爆发式增长和社会化趋势,新摩尔定律 大数据已经成为一种自然资源 机器数据日益重要 大数据不被利用就是成本 理解大数据实践大数据概述全文共49页,当前为第4页。 大数据产生的背景 现有的...

    大数据基础练习题一.pdf

    大数据基础练习题一.pdf大数据基础练习题一.pdf大数据基础练习题一.pdf大数据基础练习题一.pdf大数据基础练习题一.pdf大数据基础练习题一.pdf大数据基础练习题一.pdf大数据基础练习题一.pdf大数据基础练习题一.pdf

Global site tag (gtag.js) - Google Analytics