插件窝干货文章使用宝塔面板搭建Hadoop、Spark等大数据平台

使用宝塔面板搭建Hadoop、Spark等大数据平台

Hadoop Spark local 配置 225 来源： 2025-04-18

使用宝塔面板搭建Hadoop/Spark大数据平台指南

虽然宝塔面板主要用于Web服务器管理，但也可以用来辅助搭建大数据平台。以下是详细步骤：

准备工作

服务器要求：
- 建议至少4核CPU、8GB内存、100GB存储
- 多台服务器组成集群效果更佳（至少3台）
系统要求：
- CentOS 7/8 或 Ubuntu 18.04/20.04
- 已安装宝塔面板（最新版本）

安装Java环境

通过宝塔面板"软件商店"安装：
- 搜索"Java"并安装OpenJDK 1.8或11

或手动安装：

# CentOS
yum install java-1.8.0-openjdk-devel

# Ubuntu
apt install openjdk-8-jdk

配置环境变量：

echo 'export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk' >> /etc/profile
echo 'export PATH=$JAVA_HOME/bin:$PATH' >> /etc/profile
source /etc/profile

Hadoop集群安装

1. 下载并解压Hadoop

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
tar -xzvf hadoop-3.3.1.tar.gz -C /usr/local/
mv /usr/local/hadoop-3.3.1 /usr/local/hadoop

2. 配置Hadoop环境

编辑 /usr/local/hadoop/etc/hadoop/hadoop-env.sh：

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk

3. 配置核心文件

编辑 /usr/local/hadoop/etc/hadoop/core-site.xml：

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://主节点IP:9000</value>
    </property>
</configuration>

编辑 /usr/local/hadoop/etc/hadoop/hdfs-site.xml：

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/usr/local/hadoop/data/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/usr/local/hadoop/data/datanode</value>
    </property>
</configuration>

4. 配置从节点

编辑 /usr/local/hadoop/etc/hadoop/workers，添加所有从节点IP或主机名。

5. 启动HDFS

# 格式化NameNode（仅在首次启动时执行）
hdfs namenode -format

# 启动HDFS
start-dfs.sh

Spark安装配置

1. 下载并解压Spark

wget https://downloads.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz
tar -xzvf spark-3.1.2-bin-hadoop3.2.tgz -C /usr/local/
mv /usr/local/spark-3.1.2-bin-hadoop3.2 /usr/local/spark

2. 配置Spark环境

编辑 /usr/local/spark/conf/spark-env.sh：

export SPARK_MASTER_HOST=主节点IP
export SPARK_WORKER_MEMORY=4g
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop

3. 配置从节点

编辑 /usr/local/spark/conf/workers，添加所有从节点IP或主机名。

4. 启动Spark集群

/usr/local/spark/sbin/start-all.sh

宝塔面板相关配置

端口开放：
- Hadoop: 9000, 50070, 50075, 8088
- Spark: 7077, 8080, 8081
- 在宝塔"安全"页面开放这些端口
计划任务：
- 可以设置开机自启动脚本
- 添加大数据组件监控任务
文件管理：
- 使用宝塔文件管理器查看日志文件
- /usr/local/hadoop/logs
- /usr/local/spark/logs

验证安装

验证Hadoop：
```
hdfs dfs -mkdir /test
hdfs dfs -ls /
```
验证Spark：
```
/usr/local/spark/bin/spark-shell
```
Web UI访问：
- Hadoop NameNode: http://服务器IP:50070
- Spark Master: http://服务器IP:8080

注意事项

多节点配置时，确保所有节点：
- 时间同步（使用ntp）
- 配置SSH免密登录
- 相同的目录结构
资源分配：
- 根据服务器配置调整YARN资源分配
- 编辑/usr/local/hadoop/etc/hadoop/yarn-site.xml
安全考虑：
- 大数据平台不建议直接暴露在公网
- 使用VPN或内网访问
- 配置防火墙规则

常见问题解决

端口冲突：
- 使用netstat -tulnp查看占用端口
- 修改冲突组件的端口配置
权限问题：
- 确保所有节点使用相同用户操作
- 检查目录权限
内存不足：
- 调整JVM参数
- 减少各组件内存分配

如需更复杂的生产环境部署，建议使用专业的大数据平台管理工具如Ambari或Cloudera Manager。

上一篇：如何使用宝塔面板进行全站加速

下一篇：宝塔面板：轻松搭建网站的利器