96SEO 2026-02-19 12:13 14
。

而Hadoop就是一个用于处理海量数据的框架#xff0c;它既可以为海量数据提供可靠的存储#xff1b;也可以为海量数据提供高效的处理。
大数据是来源于众多不同数据源的集合通常由5个特征来描述包括大量Volume、真实Veracity、多样Variety、低价值密度Value和高速Velocity这5个特征称为大数据的5V特征。
随着Hadoop的不断发展Hadoop生态体系越来越完善现如今已经发展成一个庞大的生态体系。
HDFS分布式文件系统HDFS是Hadoop的分布式文件系统它是Hadoop生态系统中的核心项目之一是分布式计算中数据存储管理基础。
MapReduce分布式计算框架MapReduce是一种计算模型用于大规模数据集大于1TB的并行运算。
Yarn资源管理框架YarnYet
2.0中的资源管理器它可为上层应用提供统一的资源管理和调度。
Sqoop数据迁移工具Sqoop是一款开源的数据导入导出工具主要用于在Hadoop与传统的数据库间进行数据的转换。
Mahout数据挖掘算法库Mahout是Apache旗下的一个开源项目它提供了一些可扩展的机器学习领域经典算法的实现旨在帮助开发人员方便快捷地创建智能应用程序。
HBase分布式存储系统HBase是Google
Bigtable克隆版它是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。
Zookeeper分布式协作服务Zookeeper是一个分布式的开放源码的分布式应用程序协调服务是Google的Chubby一个开源的实现是Hadoop和HBase的重要组件。
Hive基于Hadoop的数据仓库Hive是基于Hadoop的一个分布式数据仓库工具可以将结构化的数据文件映射为一张数据库表将SQL语句转换为MapReduce任务进行运行。
Flume日志收集工具Flume是Cloudera提供的一个高可用的高可靠的分布式的海量日志采集、聚合和传输的系统Flume支持在日志系统中定制各类数据发送方用于收集数据同时Flume提供对数据进行简单处理并写到各种数据接受方可定制的能力。
Hadoop1.0内核主要由分布式存储系统HDFS和分布式计算框架MapReduce两个系统组成而Hadoop2.x版本主要新增了资源管理框架Yarn以及其他工作机制的改变。
3.x是基于JDK1.8开发的较其他两个版本而言在功能和优化方面发生了很大的变化其中包括HDFS
Hadoop3.3.5安装教程_单机/伪分布式配置_Hadoop3.3.5/Ubuntu22.04
一般而言开展大数据实验需要在虚拟机中安装各种大数据软件至少需要消耗40GB磁盘空间因此建议把磁盘空间设置为50GB~100GB且内存为4G以上。
Ubuntu终端复制粘贴快捷键在Ubuntu终端窗口中复制粘贴的快捷键需要加上
sudo最后注销当前用户返回登陆界面。
在登陆界面中选择刚创建的
但这样登陆是需要每次输入密码的我们需要配置成SSH无密码登陆比较方便。
SHA256:OhgJuRKQaCQF6TcJroolvsUdd4CX35H8cAOk1cS8HIU
Hadoop3.3.5需要JDK版本在1.8及以上。
需要按照下面步骤来自己手动安装JDK1.8。
我们需要从windows向虚拟机上面安装的ubuntu进行大数据文件的传输这时候我们不能通过VMTools来进行传输否则会导致VM工具的错误所以这时候我们需要一个第三方的软件来进行大数据文件的传输。
这里选择FileZilla。
首先在Windows端下载FileZilla安装打开后输入下面四个框的信息进行连接
可以看到该压缩文件已经保存在“/home/hadoop/Downloads”目录下。
在Linux命令行界面中执行如下Shell命令注意当前登录用户名是hadoop
注意区分大小写字母刚才已经通过FTP软件把JDK安装包传到该目录下
/usr/lib/jvmJDK文件解压缩以后可以执行如下命令到/usr/lib/jvm目录查看一下
~/.bashrc上面命令使用vim编辑器打开了hadoop这个用户的环境变量配置文件请在这个文件的开头位置添加如下几行内容
JAVA_HOME/usr/lib/jvm/jdk1.8.0_371
CLASSPATH.:${JAVA_HOME}/lib:${JRE_HOME}/lib
PATH${JAVA_HOME}/bin:$PATH先按i进入插入模式后使用
保存.bashrc文件并退出vim编辑器。
然后继续执行如下命令让.bashrc文件的配置立即生效
mode)至此就成功安装了Java环境。
下面就可以进入Hadoop的安装。
~/Downloads/hadoop-3.3.5.tar.gz
hadoopHins-vm:/usr/local/hadoop$
https://github.com/apache/hadoop.git
706d88266abcee09ed78fbaa0ad5f74d818ab0e9
/usr/local/hadoop/share/hadoop/common/hadoop-common-3.3.5.jar3.6
独立模式一种在单台计算机的单个JVM进程中模拟Hadoop集群的工作模式此模式部署的Hadoop通常用于快速安装体验Hadoop的功能并不适用于实际生产环境。
伪分布式模式一种在单台计算机的不同JVM进程中运行Hadoop集群的工作模式此模式部署的Hadoop通常用于在开发环境中进行测试和调试并不适用于实际生产环境。
完全分布式模式一种在多台计算机的JVM进程中运行Hadoop集群的工作模式Hadoop集群的每个守护进程都运行在不同的计算机中此模式部署的Hadoop通常作为实际生产环境的基础。
默认模式为非分布式模式独立模式无需进行其他配置即可运行。
非分布式即单
./share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.5.jar
./share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.5.jar
查看运行结果执行成功后如下所示输出了作业的相关信息输出的结果是符合正则的单词
configurationpropertynamehadoop.tmp.dir/namevaluefile:/usr/local/hadoop/tmp/valuedescriptionAbase
directories./description/propertypropertynamefs.defaultFS/namevaluehdfs://localhost:9000/value/property
configurationpropertynamedfs.replication/namevalue1/value/propertypropertynamedfs.namenode.name.dir/namevaluefile:/usr/local/hadoop/tmp/dfs/name/value/propertypropertynamedfs.datanode.data.dir/namevaluefile:/usr/local/hadoop/tmp/dfs/data/value/property
时会读取配置文件因此如果需要从伪分布式模式切换回非分布式模式需要删除
参数则默认使用的临时在重启时有可能被系统清理掉导致必须重新执行
dfs.datanode.data.dir否则在接下来的步骤中可能会出错。
start-dfs.sh是个完整的可执行文件中间没有空格启动完成后可以通过命令
那就是配置不成功请仔细检查之前步骤或通过查看启动日志排查原因。
hadoopHins-vm:/usr/local/hadoop$
作业的方式跟单机模式相同区别在于伪分布式读取的是HDFS中的文件可以将单机步骤中创建的本地
./share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.5.jar
output/*结果如下注意到刚才我们已经更改了配置文件所以运行结果不同。
“org.apache.hadoop.mapred.FileAlreadyExistsException:
hdfs://localhost:9000/user/hadoop/output
文件夹在实际开发应用程序时可考虑在程序中加上如下代码能在每次运行时自动删除输出目录避免繁琐的命令行操作
outputPath.getFileSystem(conf).delete(outputPath,
OK以上就是本期知识点“Hadoop概述与搭建环境”的知识啦~~
作为专业的SEO优化服务提供商,我们致力于通过科学、系统的搜索引擎优化策略,帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。
| 服务项目 | 基础套餐 | 标准套餐 | 高级定制 |
|---|---|---|---|
| 关键词优化数量 | 10-20个核心词 | 30-50个核心词+长尾词 | 80-150个全方位覆盖 |
| 内容优化 | 基础页面优化 | 全站内容优化+每月5篇原创 | 个性化内容策略+每月15篇原创 |
| 技术SEO | 基本技术检查 | 全面技术优化+移动适配 | 深度技术重构+性能优化 |
| 外链建设 | 每月5-10条 | 每月20-30条高质量外链 | 每月50+条多渠道外链 |
| 数据报告 | 月度基础报告 | 双周详细报告+分析 | 每周深度报告+策略调整 |
| 效果保障 | 3-6个月见效 | 2-4个月见效 | 1-3个月快速见效 |
我们的SEO优化服务遵循科学严谨的流程,确保每一步都基于数据分析和行业最佳实践:
全面检测网站技术问题、内容质量、竞争对手情况,制定个性化优化方案。
基于用户搜索意图和商业目标,制定全面的关键词矩阵和布局策略。
解决网站技术问题,优化网站结构,提升页面速度和移动端体验。
创作高质量原创内容,优化现有页面,建立内容更新机制。
获取高质量外部链接,建立品牌在线影响力,提升网站权威度。
持续监控排名、流量和转化数据,根据效果调整优化策略。
基于我们服务的客户数据统计,平均优化效果如下:
我们坚信,真正的SEO优化不仅仅是追求排名,而是通过提供优质内容、优化用户体验、建立网站权威,最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系,共同成长。
Demand feedback