环境搭建
准备工作
- 准备一台Mac电脑(当前脚本只在Mac下进行测试,后续可能会支持其他平台)
- 按照官方文档安装Orbstack
- 下载安装包并解压。可参考如下包名按需下载(注意根据自己的平台X86、ARM进行下载)。
.
├── apache-airflow-2.8.2
├── apache-hive-3.1.3-bin
├── apache-zookeeper-3.8.4-bin
├── hadoop-3.3.6
├── clickhouse-24.2.2.71
│ ├── clickhouse-client
│ ├── clickhouse-common-static
│ └── clickhouse-server
├── elasticsearch-8.13.1
├── flink-1.19.1
├── hbase-2.5.8-hadoop3
├── jdk1.8.0_401
├── kafka_2.13-3.7.0
├── mongodb-linux-aarch64-ubuntu2204-7.0.8
├── mongosh-2.2.3-linux-arm64
└── spark-3.5.1-bin-hadoop3-scala2.13 - Clone代码到本地 https://github.com/mqjd/data-engineering
配置修改
env配置
配置文件路径:data-environment/docker/hd/.env, 主要用于配置数据组件安装包路径和名称
- 修改BASE_PACKAGE_PATH为自己的安装包目录
- 修改以DIR结尾的变量名称,调整为自己下载的组件解压后的文件夹名称
- 其他参数根据自己需求进行修改
hosts配置
追加data-environment/hosts中的内容到本地hosts文件
server配置
打开data-environment/bin/servers.yml,根据自己需求取消行注释
镜像构建
环境构建相关脚本在项目data-environment目录
./de.sh -hd build
启动集群
# 构建并启动HD
./de.sh -hd up -d
# 停止HD并删除
./de.sh -hd down