大数据书籍之《精通 HADOOP》Pro Hadoop的中文版下载
精通 HADOOP(Pro Hadoop中文版) 1-2章1
初识Hadoop
单个低端硬件通常不能满足应用程序对资源的需求。许多企业发现安装他们使用的业务软件的计算机并不具有较好的性价比。对于他们来说,一个简单的解决方案就是购买具有更多内存和CPU的高端硬件,这通常需要巨额资金。只要你能买到最高端的硬件,这个解决方案能够达到理想的效果,但是通常来说,预算是最主要的问题。我们有另外一个可选方案,那就是构建一个高性能的集群。一个集群能够模拟成为一个单个计算机,然而,它需要专业的安装和管理服务。现今,存在着许多专有的高性能的并且造价昂贵的集群。
幸运的是,一个更经济的解决方案是通过云计算来获得必要的计算资源。这里是一个典型的应用场景,你需要处理一大批数据,这些数据分成若干个项,项与项之间不存在依赖关系,因此,你可以使用单指令多数据(SIMD)算法。Hadoop核心提供了云计算的开源框架和一个分布式文件系统。
Hadoop是阿帕奇软件基金下的一个著名的项目。这本书是一本在Hadoop核心上开发和运行软件的使用指南。本章介绍了Hadoop核心,讲述了如何安装和运行Hadoop。
1.1
MapReduce模型介绍
Hadoop完全支持MapReduce模型,MapReduce模型是谷歌公司为了在廉价的计算机集群上处理以P数量级计算的大数据集而提出的一个解决方案。这个解决方案把解决问题分成两个不同的步骤:
Map: 初始化数据的读入和转换,在此期间,框架对互不依赖的输入记录进行并行处理。
Reduce: 处理数据的组合和抽样,有关联的数据必须通过一个模块进行集中处理。
Hadoop中MapReduce的核心概念是把输入的数据分成不同的逻辑块,Map任务首先并行的对每一块进行单独的处理。这些逻辑块的处理结果会被重新组合成不同的排序的集合,这些集合最后由Reduce任务进行处理。图表1-1阐述了MapReduce模型的工作原理。
**** Hidden Message *****
谢谢楼主分享。 学习中需要资料谢谢 学习中需要资料谢谢 软件定义存储:大数据所必须
以后是大数据时代了,值得学习下 很喜欢,O(∩_∩)O谢谢分享啊 大数据书籍之《精通 HADOOP》Pro Hadoop的中文版下载 谢谢楼主分享 对本帖的评价 G00d! 新人报到,请各位大虾多多指导