一个Executor对应一个JVM进程。 从Spark的角度看,Executor占用的内存分为两部分:
1 |
|
所以,Spark应用占用集群内存的总大小为:
(executor个数) * (SPARK_EXECUTOR_MEMORY+ spark.yarn.executor.memoryOverhead)+(SPARK_DRIVER_MEMORY+spark.yarn.driver.memoryOverhead)
参数调优建议:
每个Executor进程的内存设置4G~8G较为合适。
每个Executor的CPU core数量设置为2~4个较为合适。
以下是部分建议的参数设置:
1 | --conf "spark.driver.extraJavaOptions=-XX:MaxDirectMemorySize=1024m -Xmn4g -XX:+UseCMSInitiatingOccupancyOnly -XX:CMSInitiatingOccupancyFraction=70 -XX:+UseConcMarkSweepGC -XX:+PrintGCDetails -XX:+PrintGCDateStamps -Xloggc:/tmp/log/run/gc-%t.log" \ |