从HDFS和MapReduce两方面了解Hadoop
副标题[/!--empirenews.page--]
简介 Hadoop 是一个能够对大量数据进行分布式处理的软件框架,框架最核心的设计就是:HDFS 和 MapReduce。HDFS 为海量的数据提供了存储,而 MapReduce 则为海量的数据提供了计算。这篇文章就主要从 HDFS 和 MapReuce 两个大的方面展开对 Hadoop 讲解,当然为了直观的测试 HDFS 提供的丰富的 API 以及我们编写的 MapReduce 程序,在阅读下面的内容之前,你需要准备一台安装了 Hadoop 的机器(也可以是虚拟机),如果你还没有安装的话,可以参考《在 Ubuntu 上安装 Hadoop》。 HDFS HDFS 概念 在说 HDFS 之前我们先来解释一下什么是 DFS,DFS 的全称是 Distributed File System,翻译过来就是分布式文件系统,而 HDFS 就是 Hadoop 自带的分布式文件系统。 相关名词 为了后面大家更容易理解文章,这里使用一定的篇幅来简单的介绍一下与 HDFS 相关的一些组件或者名词的概念。
特性 下面我们就一起来看下 HDFS 有哪些特性:
HDFS 的命令行操作 命令行接口是 HDFS 所有类型的接口中最简单的,也是每个开发者都必须要掌握的。下面我们就列举几个简单的命令行操作,但是在操作前你必须按照第一章的内容安装好了 Hadoop,并且启动了 HDFS。 创建目录。
查看目录。
上传文件,紧跟-put 后面的 test.txt 是要推送到 HDFS 中的文件,/test 是指定要推送到 HDFS 上哪个目录下面。
删除文件。
其实通过上面例举的几个命令我们可以看出 HDFS 的文件操作命令几乎和 Linux 上的命令一致,这样我们使用起来会很容易上手。 HDFS 的 JavaAPI 在 Java 项目中使用 HDFS 提供的 API 我们需要依赖 hadoop-common 和 hadoop-hdfs 两个包,,为了方便测试,我们这里还引入了 junit,篇幅原因这里就不对项目本身做太多的讲解,这里附上项目源码地址供大家参考。 读取 HDFS 中文件的内容。
(编辑:好传媒网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |