Skip to main content

Spark

WebUI

Master网页默认端口8001,参数配置如下:

export SPARK_MASTER_WEBUI_PORT=8001

命令

官方文档

Standalone集群搭建

  • 启动Master
./sbin/start-master.sh
  • 启动Worker
./sbin/start-worker.sh <master-spark-URL>

参数说明:

参数说明
-h HOST, --host HOST要侦听的主机名
-p PORT, --port PORT用于侦听的服务端口(默认值:Master为 7077,Worker为 random)
--webui-port PORTWeb UI 端口(默认:Master为8080 ,Worker为8081)
-c CORES, --cores CORESWorker参数:可使用的CPU核心总数(默认值:全部可用)
-m MEM, --memory MEMWorker参数:可使用的内存总量,格式为 1000M 或 2G(默认:计算机的总 RAM 减去 1 GiB)
-d DIR, --work-dir DIRWorker参数:用于文件暂存和作业日志输出的目录(默认值:SPARK_HOME/work)
--properties-file FILE要加载的自定义Spark配置文件(默认值:conf/spark-defaults.conf)

客户端使用

Submitting Applications

官方文档

# 提交作业到指定Master
spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://hd1:7077 \
--executor-memory 2G \
--total-executor-cores 2 \
$SPARK_HOME/examples/jars/spark-examples_2.13-3.5.1.jar

# 提交作业到Yarn
spark-submit \
--class org.apache.spark.examples.SparkPi \
--master yarn \
--deploy-mode cluster \
--executor-memory 2G \
--num-executors 2 \
$SPARK_HOME/examples/jars/spark-examples_2.13-3.5.1.jar

# 提交pyspark作业到local
spark-submit \
--master local \
$SPARK_HOME/examples/src/main/python/pi.py \
1000