每周学点大数据 | No.63 Hadoop MapReduce 实践—环境搭建(下)

摘要: 本书为哈尔滨工业大学著名教授王宏志老师的扛鼎力作,以对话的形式深入浅出的从何为大数据说到大数据算法再到大数据技术的应用

12-11 05:56 王宏志 首页 灯塔大数据

转载声明

本文为灯塔大数据原创内容,欢迎个人转载至朋友圈,其他机构转载请在文章开头标注:

转自:灯塔大数据;微信:DTbigdata

编者按:灯塔大数据将每周持续推出《从零开始学大数据算法》的连载,本书为哈尔滨工业大学著名教授王宏志老师的扛鼎力作,以对话的形式深入浅出的从何为大数据说到大数据算法再到大数据技术的应用,带我们在大数据技术的海洋里徜徉~每周五定期更新

上期回顾&查看方式

在上一期,我们学习了Hadoop MapReduce 实践—环境搭建的上半部分相关内容。PS:了解了上期详细内容,请在自定义菜单栏中点击“灯塔数据”—“技术连载”进行查看;或者滑到文末【往期推荐】查看。

NO.63

 Hadoop MapReduce 实践—环境搭建(下)

Mr. 王:vim 是Linux 下开源的文本编辑器,它的功能非常强大,受到广大编程爱好者的欢迎,非常适合用来编写程序代码等,它提供了自动的代码高亮功能。如果你经常在Linux 下写程序的话,则可以尝试学习文本编辑器的使用,在文本编辑器中最著名的是vim 和emacs,它们都是非常不错的文本编辑器。好了,打开.bashrc 之后,可以对其进行修改,注意不要破坏其他部分。

在文件的尾部添加:

其中,# 号后面的内容都是注释,是为了方便我们以后找到它。后面的三行方便系统找到Java 运行环境、开发环境和工程,其中包含的冒号是分隔符,

注意不要丢掉CLASSPATH 的第一个“.”,否则容易出现找不到类的错误。

接下来输入:

终端会返回类似下面的信息:

这是Java 的版本信息。如果终端能够正常地输出版本信息的话,则说明Java 运行环境已经可以正常使用了。

然后输入:

终端会返回javac 的版本信息。如果终端能够正常地输出版本信息的话,则说明Java 的编译器已经可以正常使用了。网络上关于Java 的安装教程是非常多的,如果在安装中和环境变量配置中出现问题,在网络上的一些博客和论坛中可以找到答案。


小可在自己的计算机上敲了一会儿,看着屏幕上输出的版本信息,说:嗯,我都已经配置。好了,现在就可以安装Hadoop 了吧。


Mr. 王:别急,我们还要安装一个SSH。SSH 即安全外壳协议的缩写,是为了远程登录和

网络服务的一个安全通信协议。


小可:这是因为Hadoop MapReduce 是提供多台计算机并行计算的平台,所以需要一个网络通信安全协议吧?


Mr. 王:是的。SSH 的安装并不是必要的,但是一般使用它来进行网络连接服务的安全代理;否则,当操作一批计算机时,每次进行连接都要输入目标机器的密码,这样使用起来非常不方便,我们可以用SSH 协议来避免这个麻烦。下面是安装SSH 的命令,前面的apt-get install 也是在Ubuntu 下安装很多软件的方法。

安装好之后,我们用SSH 来建立一个公密钥对,公密钥对相当于一组钥匙和锁头的关系。

为了方便寻找,建议路径为 ~/.ssh/id_dsa。然后将这个公钥放到授权的公钥文件中。我们复制~/.ssh/id_dsa.pub 里面的全部内容,将其放入authorized_keys 中。

现在执行命令:

小可:返回了一些登录信息。


Mr. 王:这说明,我们已经可以用SSH 协议免密码登录到本机了。当我们用Hadoop 平台操作大量的计算机时,一般要将这些计算机设为免密码登录。


小可:现在是不是可以安装Hadoop 了?


Mr. 王:现在下载Hadoop 的压缩包,其名字一般是Hadoop 和它的版本号,比如Hadoop-1.0.1.tar.gz,我们将其放在用户目录下,然后将其解压缩成一个文件夹。


首先我们登录Hadoop 的官方网站:https://hadoop.apach.org。

Hadoop 的标识是一个非常可爱的小象加上蓝色的Hadoop 字样。在这里我们可以找到

Hadoop 的很多发行版本和资料。

目前Hadoop 包含以下几个基本的组成部分。

●  Hadoop Common :这是Hadoop 运行的依赖基础,是一些用于支持Hadoop 运行的各种底层模块。

●  HDFS :这就是我们前面提到的Hadoop 分布式文件系统。为了能让文件分散存储在多台


计算机组成的机群上,我们需要一种机制使得所有计算机的磁盘可以有机地结合成一个

可以存放大量文件的文件系统,在Hadoop 中这个文件系统就是HDFS。

●  YARN :带有YARN 的Hadoop 一般也被称作新一代的Hadoop,或者YARN。其实YARN 是一个机群资源管理系统和任务表编排的框架,它的出现使得Hadoop 的运行效率和稳定性得到了很大的提升。

●  MapReduce :这就是我们熟悉的MapReduce,也就是使用Hadoop 进行并行数据处理的核心框架。


另外,Hadoop 也提供了大量的适用于各种不同任务的组件包和工具包。

●  Hive :基于Hadoop 的数据仓库工具。

●  Mahout :一个用于机器学习、数据挖掘的库。

●  HBase :分布式数据库系统。

●  Chukwa :用于监控大型分布式系统的数据收集系统。

●  Pig :为用户提供多种接口的大数据分析平台。

●  ZooKeeper :一个分布式的应用程序协调服务。

●  还有我们在后面要讲到的Spark。


Mr. 王:好了,我们回到Hadoop 上来。首先要下载一个Hadoop 的组件包。在首页中点击Release 或者Download 就可以找到很多Hadoop 版本。对于我们使用的级别,整体来讲差别不大。来到Hadoop 的下载页面,可以很容易地找到Hadoop 发布版本

选择下载之后,Apache 会向我们推荐镜像位置,选择推荐的镜像位置就可以了。下载之后,将其解压缩到一个我们能够找到的目录就可以了。


小可:嗯,我已经解压缩好了!

下期精彩预告

经过学习,我们研究了环境搭建涉及到的一些具体问题。在下一期中,我们将进一步了解配置Hadoop的相关内容。更多精彩内容,敬请关注灯塔大数据,每周五不见不散呦!

文章作者:王宏志

文章编辑:秦革

往期推荐:

每周学点大数据 | No.62 Hadoop MapReduce 实践—环境搭建(上)

每周学点大数据 | No.61磁盘算法实践(下)

每周学点大数据 | No.60磁盘算法实践

每周学点大数据 | No.59协同过滤模型(下)

每周学点大数据 | No.58协同过滤模型(上)

每周学点大数据 | No.57基于内容的推荐方法

每周学点大数据 | No.56推荐系统概述

每周学点大数据 | No.55分类算法——Naive Bayes

每周学点大数据 | No.54聚类算法——k-means

每周学点大数据 | No.53数据挖掘概述与分类

【灯塔大数据】微信公众号介绍:中国电信北京研究院通过整合电信自有数据、互联网数据和线下数据,创建了业内领先的“灯塔”大数据行业应用平台,致力于与行业合作伙伴共同打造大数据行业应用生态圈。


  微信公众号【灯塔大数据】关键字信息:


【人工智能】获取人工智能时代的发展思考 ppt


【半月刊】下载大数据瞭望半月刊


【网络安全】获取国民网络安全报告全文


【23个理由】下载《大数据让你兴奋的23个理由》电子书


【思维导图】下载12种工具的获取方式


【 灯塔 】 查看更多关键字回复

点击

阅读原文

了解更多详情


首页 - 灯塔大数据 的更多文章: