96SEO 2026-02-23 14:37 11
VMware虚拟机部署步骤一安装MySQL数据库步骤2配置Hadoop步骤3下载解压Hive步骤4提供MySQL

Driver包步骤5配置Hive步骤6初始化元数据库步骤7启动Hive使用Hadoop用户
对数据进行统计分析SQL是目前最为方便的编程工具大数据体系中充斥着非常多的统计分析场景所以使用SQL去处理数据在大数据中也是有极大的需求的
MapReduce支持程序开发Java、Python等但不支持SQL开发Apache
基于Hive为用户提供了分布式SQL计算的能力写的是SQL、执行的是MapReduce
操作接口采用类SQL语法提供快速开发的能力简单、容易上手底层执行MapReduce可以完成分布式海量数据的SQL处理
总结构建数据库首先需要拥有元数据管理功能即数据位置、数据结构、对数据进行描述
SQL分析SQL到MapReduce程序的转换提交MapReduce程序运行并收集执行结果
至此一款基于MapReduce的分布式SQL执行引擎的基础构建完成。
核心组件需要有
元数据管理帮助记录各类元数据SQL解析器完成SQL到MapReduce程序的转换
Driver驱动程序包括语法解析器、计划编译器、优化器、执行器功能完成
查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。
生成的查询计划存储在
中并在随后有执行引擎调用执行。
这部分内容不是具体的服务进程而是封装在Hive所依赖的Jar文件即Java代码中。
interface)为shell命令行Hive中的Thrift服务器允许外部客户端通过网络与Hive进行交互类似于JDBC或ODBC协议。
WebGUI是通过浏览器访问Hive
Hive是分布式运行的框架还是单机运行的Hive是单机工具只需要部署在一台服务器即可。
Hive虽然是单机的但是它可以提交分布式运行的MapReduce程序运行
Hive是单机工具需要准备一台服务器供Hive使用即可。
同时Hive需要使用元数据服务即需要提供一个关系型数据库我们也选择一台服务器安装关系型数据库即可。
这里展示课件中的MYSQL5.7安装方式和使用MySQL8.版本的操作请按照喜欢选择
https://repo.mysql.com/RPM-GPG-KEY-mysql-2022#
http://repo.mysql.com//mysql57-community-release-el7-7.noarch.rpm#
第一次启动mysql会在日志文件中生成root用户的一个随机密码使用下面命令查看该密码
然后就可以用简单密码了课程中使用简单密码为了方便生产中不要这样
privileges;在node1节点使用yum在线安装MySQL8.版本
https://dev.mysql.com/get/mysql80-community-release-el7-3.noarch.rpm安装
Hive的运行依赖于HadoopHDFS、MapReduce、YARN都依赖同时涉及到HDFS文件系统的访问所以需要配置Hadoop的代理用户即设置hadoop用户允许代理模拟其它用户。
配置如下内容在Hadoop的core-site.xml中并分发到其它节点且重启HDFS集群
propertynamehadoop.proxyuser.hadoop.hosts/namevalue*/value
propertynamehadoop.proxyuser.hadoop.groups/namevalue*/value
hadoop下载Hive安装包打开apache归档网址点击公共软件版本档案CtrlF查找hive打开目录找到3.1.3版本进行下载
解压到node1服务器的/export/server/内tar
/export/server/apache-hive-3.1.3-bin/
mysql-connector-java-8.0.30.jar
/export/server/hive/lib/步骤5配置Hive
在Hive的conf目录内新建hive-env.sh文件填入以下环境变量内容
HADOOP_HOME/export/server/hadoop
HIVE_CONF_DIR/export/server/hive/conf
HIVE_AUX_JARS_PATH/export/server/hive/lib在Hive的conf目录内新建hive-site.xml文件填入以下内容【注意修改Mysql连接密码为自己的密码】
configurationpropertynamejavax.jdo.option.ConnectionURL/namevaluejdbc:mysql://node1:3306/hive?createDatabaseIfNotExisttrueamp;useSSLfalseamp;useUnicodetrueamp;characterEncodingUTF-8/value/propertypropertynamejavax.jdo.option.ConnectionDriverName/namevaluecom.mysql.cj.jdbc.Driver/value/propertypropertynamejavax.jdo.option.ConnectionUserName/namevalueroot/value/propertypropertynamejavax.jdo.option.ConnectionPassword/namevaluexxxx/value/propertypropertynamehive.server2.thrift.bind.host/namevaluenode1/value/propertypropertynamehive.metastore.uris/namevaluethrift://node1:9083/value/propertypropertynamehive.metastore.event.db.notification.api.auth/namevaluefalse/value/property
Hive的配置已经完成现在在启动Hive前需要先初始化Hive所需的元数据库在MySQL中新建数据库hive
-verbos初始化成功后会在MySQL的hile库中新建74张元数据管理的表
确保Hive文件夹所属为hadoop用户创建一个hive的日志文件夹mkdir
/export/server/hive/logs启动元数据管理服务必须启动否则无法工作
ThriftServer方式不可直接写SQL需要外部客户端链接使用
Hive的数据存储在HDFS的/user/hive/warehouse中
在Linux系统中安装了JDK可以在JDK的安装路径下的bin目录中找到
ToolJava虚拟机进程状态工具的缩写。
它是Java开发工具包中的一个命令行工具用于列出当前系统中所有正在运行的Java进程的相关信息。
jps
命令可以列出正在运行的Java进程的进程IDPID以及这些进程的主类名。
它可以帮助开发人员确定系统中正在运行的Java进程及其状态特别是在进行多进程调试或监控的情况下。
ps
jps列出并显示所有正在运行的Java进程的进程ID和主类名。
jps
--verbose显示进程ID、主类名、传递给主类的参数以及JVM的启动参数。
jps
--m显示进程ID、主类名、传递给主类的参数以及传递给JVM的参数。
jps
在启动Hive的时候除了必备的Metastore服务外还有2种方式使用Hive
HiveServer2是Hive内置的一个ThriftServer服务提供Thrift端口供其它客户端链接.可以连接ThriftServer的客户端有Hive内置的
beeline客户端工具命令行工具第三方的图形化SQL工具如DataGrip、DBeaver、Navicat等
在hive安装的服务器上首先启动metastore服务然后启动hiveserver2服务
在node1上使用beeline客户端进行连接访问。
需要注意hiveserver2服务启动之后需要稍等一会才可以对外提供服务。
#
bin/beelineBeeline是JDBC的客户端通过JDBC协议和Hiveserver2服务进行通信协议的地址是jdbc:hive2://node1:10000
Client等可以在Windows、MAC平台中通过JDBC连接HiveServer2的图形界面工具这类工具往往专门针对SQL类软件进行开发优化、页面美观大方操作简洁更重要的是SQL编辑环境优雅SQL语法智能提示补全、关键字高亮、查询结果智能显示、按钮操作大于命令操作
DataGrip是由JetBrains公司推出的数据库管理软件DataGrip支持几乎所有主流的关系数据库产品如DB2、Derby、
Server等也支持几乎所有主流的大数据生态圈SQL软件并且提供了简单易用的界面。
作为专业的SEO优化服务提供商,我们致力于通过科学、系统的搜索引擎优化策略,帮助企业在百度、Google等搜索引擎中获得更高的排名和流量。我们的服务涵盖网站结构优化、内容优化、技术SEO和链接建设等多个维度。
| 服务项目 | 基础套餐 | 标准套餐 | 高级定制 |
|---|---|---|---|
| 关键词优化数量 | 10-20个核心词 | 30-50个核心词+长尾词 | 80-150个全方位覆盖 |
| 内容优化 | 基础页面优化 | 全站内容优化+每月5篇原创 | 个性化内容策略+每月15篇原创 |
| 技术SEO | 基本技术检查 | 全面技术优化+移动适配 | 深度技术重构+性能优化 |
| 外链建设 | 每月5-10条 | 每月20-30条高质量外链 | 每月50+条多渠道外链 |
| 数据报告 | 月度基础报告 | 双周详细报告+分析 | 每周深度报告+策略调整 |
| 效果保障 | 3-6个月见效 | 2-4个月见效 | 1-3个月快速见效 |
我们的SEO优化服务遵循科学严谨的流程,确保每一步都基于数据分析和行业最佳实践:
全面检测网站技术问题、内容质量、竞争对手情况,制定个性化优化方案。
基于用户搜索意图和商业目标,制定全面的关键词矩阵和布局策略。
解决网站技术问题,优化网站结构,提升页面速度和移动端体验。
创作高质量原创内容,优化现有页面,建立内容更新机制。
获取高质量外部链接,建立品牌在线影响力,提升网站权威度。
持续监控排名、流量和转化数据,根据效果调整优化策略。
基于我们服务的客户数据统计,平均优化效果如下:
我们坚信,真正的SEO优化不仅仅是追求排名,而是通过提供优质内容、优化用户体验、建立网站权威,最终实现可持续的业务增长。我们的目标是与客户建立长期合作关系,共同成长。
Demand feedback