插件窝 干货文章 使用宝塔面板搭建Hadoop、Spark等大数据平台

使用宝塔面板搭建Hadoop、Spark等大数据平台

Hadoop Spark local 配置 225    来源:    2025-04-18

使用宝塔面板搭建Hadoop/Spark大数据平台指南

虽然宝塔面板主要用于Web服务器管理,但也可以用来辅助搭建大数据平台。以下是详细步骤:

准备工作

  1. 服务器要求

    • 建议至少4核CPU、8GB内存、100GB存储
    • 多台服务器组成集群效果更佳(至少3台)
  2. 系统要求

    • CentOS 7/8 或 Ubuntu 18.04/20.04
    • 已安装宝塔面板(最新版本)

安装Java环境

  1. 通过宝塔面板"软件商店"安装:

    • 搜索"Java"并安装OpenJDK 1.8或11
  2. 或手动安装:

    # CentOS
    yum install java-1.8.0-openjdk-devel
    
    # Ubuntu
    apt install openjdk-8-jdk
    
  3. 配置环境变量:

    echo 'export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk' >> /etc/profile
    echo 'export PATH=$JAVA_HOME/bin:$PATH' >> /etc/profile
    source /etc/profile
    

Hadoop集群安装

1. 下载并解压Hadoop

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz
tar -xzvf hadoop-3.3.1.tar.gz -C /usr/local/
mv /usr/local/hadoop-3.3.1 /usr/local/hadoop

2. 配置Hadoop环境

编辑 /usr/local/hadoop/etc/hadoop/hadoop-env.sh

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk

3. 配置核心文件

编辑 /usr/local/hadoop/etc/hadoop/core-site.xml

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://主节点IP:9000</value>
    </property>
</configuration>

编辑 /usr/local/hadoop/etc/hadoop/hdfs-site.xml

<configuration>
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/usr/local/hadoop/data/namenode</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/usr/local/hadoop/data/datanode</value>
    </property>
</configuration>

4. 配置从节点

编辑 /usr/local/hadoop/etc/hadoop/workers,添加所有从节点IP或主机名。

5. 启动HDFS

# 格式化NameNode(仅在首次启动时执行)
hdfs namenode -format

# 启动HDFS
start-dfs.sh

Spark安装配置

1. 下载并解压Spark

wget https://downloads.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz
tar -xzvf spark-3.1.2-bin-hadoop3.2.tgz -C /usr/local/
mv /usr/local/spark-3.1.2-bin-hadoop3.2 /usr/local/spark

2. 配置Spark环境

编辑 /usr/local/spark/conf/spark-env.sh

export SPARK_MASTER_HOST=主节点IP
export SPARK_WORKER_MEMORY=4g
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop

3. 配置从节点

编辑 /usr/local/spark/conf/workers,添加所有从节点IP或主机名。

4. 启动Spark集群

/usr/local/spark/sbin/start-all.sh

宝塔面板相关配置

  1. 端口开放

    • Hadoop: 9000, 50070, 50075, 8088
    • Spark: 7077, 8080, 8081
    • 在宝塔"安全"页面开放这些端口
  2. 计划任务

    • 可以设置开机自启动脚本
    • 添加大数据组件监控任务
  3. 文件管理

    • 使用宝塔文件管理器查看日志文件
    • /usr/local/hadoop/logs
    • /usr/local/spark/logs

验证安装

  1. 验证Hadoop:

    hdfs dfs -mkdir /test
    hdfs dfs -ls /
    
  2. 验证Spark:

    /usr/local/spark/bin/spark-shell
    
  3. Web UI访问:

    • Hadoop NameNode: http://服务器IP:50070
    • Spark Master: http://服务器IP:8080

注意事项

  1. 多节点配置时,确保所有节点:

    • 时间同步(使用ntp)
    • 配置SSH免密登录
    • 相同的目录结构
  2. 资源分配:

    • 根据服务器配置调整YARN资源分配
    • 编辑/usr/local/hadoop/etc/hadoop/yarn-site.xml
  3. 安全考虑:

    • 大数据平台不建议直接暴露在公网
    • 使用VPN或内网访问
    • 配置防火墙规则

常见问题解决

  1. 端口冲突

    • 使用netstat -tulnp查看占用端口
    • 修改冲突组件的端口配置
  2. 权限问题

    • 确保所有节点使用相同用户操作
    • 检查目录权限
  3. 内存不足

    • 调整JVM参数
    • 减少各组件内存分配

如需更复杂的生产环境部署,建议使用专业的大数据平台管理工具如Ambari或Cloudera Manager。