Skip to main content

环境搭建

准备工作

  • 准备一台Mac电脑(当前脚本只在Mac下进行测试,后续可能会支持其他平台)
  • 按照官方文档安装Orbstack
  • 下载安装包并解压。可参考如下包名按需下载(注意根据自己的平台X86、ARM进行下载)。
    .
    ├── apache-airflow-2.8.2
    ├── apache-hive-3.1.3-bin
    ├── apache-zookeeper-3.8.4-bin
    ├── hadoop-3.3.6
    ├── clickhouse-24.2.2.71
    │ ├── clickhouse-client
    │ ├── clickhouse-common-static
    │ └── clickhouse-server
    ├── elasticsearch-8.13.1
    ├── flink-1.19.1
    ├── hbase-2.5.8-hadoop3
    ├── jdk1.8.0_401
    ├── kafka_2.13-3.7.0
    ├── mongodb-linux-aarch64-ubuntu2204-7.0.8
    ├── mongosh-2.2.3-linux-arm64
    └── spark-3.5.1-bin-hadoop3-scala2.13
  • Clone代码到本地 https://github.com/mqjd/data-engineering

配置修改

env配置

配置文件路径:data-environment/docker/hd/.env, 主要用于配置数据组件安装包路径和名称

  • 修改BASE_PACKAGE_PATH为自己的安装包目录
  • 修改以DIR结尾的变量名称,调整为自己下载的组件解压后的文件夹名称
  • 其他参数根据自己需求进行修改

hosts配置

追加data-environment/hosts中的内容到本地hosts文件

server配置

打开data-environment/bin/servers.yml,根据自己需求取消行注释

镜像构建

环境构建相关脚本在项目data-environment目录

./de.sh -hd build

启动集群

# 构建并启动HD
./de.sh -hd up -d

# 停止HD并删除
./de.sh -hd down