Support for cloud benchmarks

aehmttw · blp · commit 510dff9e04a2 · 2024-08-16T17:06:39.000-07:00
Signed-off-by: Matei &lt;matei@feldera.com&gt;
diff --git a/scripts/bench-publish.bash b/scripts/bench-publish.bash
@@ -66,9 +66,13 @@ if [ "$SMOKE" = "" ]; then
     git commit -a -m "Added benchmark results for $PR_COMMIT_SHA."
     git push origin main
     cd ..
-    python3 gh-pages/_scripts/compare_nexmark.py --machines ${CI_MACHINE_TYPE} > nexmark_comment.txt
+    if [ "$CI_MACHINE_TYPE" != "cloud" ]; then
+        python3 gh-pages/_scripts/compare_nexmark.py --machines ${CI_MACHINE_TYPE} > nexmark_comment.txt
+    fi
     rm -rf gh-pages
     git clean -f
 else
-    python3 gh-pages/_scripts/compare_nexmark.py --machines ${CI_MACHINE_TYPE} > nexmark_comment.txt
+    if [ "$CI_MACHINE_TYPE" != "cloud" ]; then
+        python3 gh-pages/_scripts/compare_nexmark.py --machines ${CI_MACHINE_TYPE} > nexmark_comment.txt
+    fi
 fi
diff --git a/scripts/bench.bash b/scripts/bench.bash
@@ -22,81 +22,105 @@ mkdir -p ${RESULTS_DIR}
 
 # Run nexmark benchmark
 MAX_EVENTS=100000000
-GENERATORS=8
-CORES=6
 if [ "$SMOKE" != "" ]; then
   MAX_EVENTS=1000000
 fi
 
-FILES=( "q0" "q1" "q2" "q3" "q4" "q5" "q6" "q7" "q8" "q9" "q12" "q13" "q14" "q15" "q16" "q17" "q18" "q19" "q20" "q21" "q22" )
-for FILE in "${FILES[@]}"
-  do cargo bench --bench nexmark -- --max-events=${MAX_EVENTS} --cpu-cores ${CORES}  --num-event-generators ${GENERATORS} --source-buffer-size 10000 --input-batch-size 40000 --csv ${NEXMARK_CSV_FILE} --query $FILE
-done
-mkdir -p ${NEXMARK_RESULTS_DIR}
-mv crates/nexmark/${NEXMARK_CSV_FILE} $NEXMARK_RESULTS_DIR
+if [ "$CLOUD" = "" ]; then
+  GENERATORS=8
+  CORES=6
+  FILES=( "q0" "q1" "q2" "q3" "q4" "q5" "q6" "q7" "q8" "q9" "q12" "q13" "q14" "q15" "q16" "q17" "q18" "q19" "q20" "q21" "q22" )
+  for FILE in "${FILES[@]}"
+    do cargo bench --bench nexmark -- --max-events=${MAX_EVENTS} --cpu-cores ${CORES}  --num-event-generators ${GENERATORS} --source-buffer-size 10000 --input-batch-size 40000 --csv ${NEXMARK_CSV_FILE} --query $FILE
+  done
+  mkdir -p ${NEXMARK_RESULTS_DIR}
+  mv crates/nexmark/${NEXMARK_CSV_FILE} $NEXMARK_RESULTS_DIR
+fi
 
-# Run nexmark SQL benchmark
-# This test requires a running instance of redpanda and pipeline-manager.
+# Run SQL benchmarks
+# These require a running instance of redpanda (if they don't use nexmark connector) and pipeline-manager.
 # The Earthfile should run those.
-# 100M events causes out of memory problems with SQL tests
-MAX_EVENTS=100000000
-if [ "$SMOKE" != "" ]; then
-  MAX_EVENTS=1000000
-fi
-KAFKA_BROKER=localhost:9092
 
+KAFKA_BROKER=localhost:9092
 FELDERA_API=http://localhost:8080
+
+if [ "$CLOUD" != "" ]; then
+  FELDERA_API=$API_URL
+  KAFKA_BROKER='${secret:demo-bootstrap-servers}'
+  CLOUD_OPTIONS='-O security.protocol=${secret:demo-security-protocol} 
+      -O ssl.ca.pem=${secret:demo-ssl-ca-pem} 
+      -O ssl.certificate.pem=${secret:demo-ssl-certificate-pem}
+      -O ssl.key.pem=${secret:demo-ssl-key-pem}
+      -O ssl.key.password=${secret:demo-ssl-key-password}
+      -O ssl.endpoint.identification.algorithm=${secret:demo-ssl-endpoint-identification-algorithm} 
+      -O sasl.mechanism=${secret:demo-sasl-mechanism}
+      -O sasl.username=${secret:demo-sasl-username}
+      -O sasl.password=${secret:demo-sasl-password}
+      --api-key '${API_KEY}
+fi
+
 sql_benchmark() {
     mkdir -p $RESULTS_DIR/$name
     local csv=$1 metrics=$2; shift; shift
     python3 benchmark/feldera-sql/run.py \
-	    --api-url $FELDERA_API \
-	    --events $MAX_EVENTS \
-	    -O bootstrap.servers=$KAFKA_BROKER \
-	    --csv "$RESULTS_DIR/$name/$csv" \
-	    --csv-metrics "$RESULTS_DIR/$name/$metrics" \
-	    --metrics-interval 1 \
-	    --poller-threads 10 \
-	    "$@"
+      --api-url $FELDERA_API \
+      --events $MAX_EVENTS \
+      -O bootstrap.servers=$KAFKA_BROKER \
+      --csv "$RESULTS_DIR/$name/$csv" \
+      --csv-metrics "$RESULTS_DIR/$name/$metrics" \
+      --metrics-interval 1 \
+      --poller-threads 10 \
+      "$@"
 }
 
 DIR="benchmark/feldera-sql/benchmarks/"
-for test in $DIR/*; do
+TESTS=${DIR}/*
+if [ "$CLOUD" != "" ]; then
+  TESTS=${DIR}/nexmark
+fi
+
+for test in ${TESTS}; do
   if test -e ${test}/generate.bash; then
       rpk topic -X brokers=$KAFKA_BROKER delete -r '.*'
       source ${test}/generate.bash
   fi
   name=$(basename $test)
   sql_benchmark "sql_${name}_results.csv" "sql_${name}_metrics.csv" --folder benchmarks/${name}
-  sql_benchmark "sql_storage_${name}_results.csv" "sql_storage_${name}_metrics.csv" --storage --folder benchmarks/${name}
+  # We are currently skipping running storage benchmarks on cloud until we can get a
+  # better disk for cloud.
+  if [ "$CLOUD" = "" ]; then
+    sql_benchmark "sql_storage_${name}_results.csv" "sql_storage_${name}_metrics.csv" --storage --folder benchmarks/${name}
+  fi
 done
 
-# Run galen benchmark
-cargo bench --bench galen -- --workers 10 --csv ${GALEN_CSV_FILE}
-mkdir -p ${GALEN_RESULTS_DIR}
-mv crates/dbsp/${GALEN_CSV_FILE} ${GALEN_RESULTS_DIR}
+if [ "$CLOUD" = "" ]; then
+  # Run galen benchmark
+  cargo bench --bench galen -- --workers 10 --csv ${GALEN_CSV_FILE}
+  mkdir -p ${GALEN_RESULTS_DIR}
+  mv crates/dbsp/${GALEN_CSV_FILE} ${GALEN_RESULTS_DIR}
 
-# Run ldbc benchmarks
-DATASET_SMALL='graph500-22'
-DATASET_MEDIUM='datagen-8_4-fb'
-if [ "$SMOKE" != "" ]; then
-    DATASET_SMALL='wiki-Talk'
-    DATASET_MEDIUM='kgs'
-fi
-#cargo bench --bench ldbc-graphalytics -- bfs ${DATASET_SMALL} --threads 1 --csv ${LDBC_CSV_FILE}
-#cargo bench --bench ldbc-graphalytics -- bfs ${DATASET_MEDIUM} --threads 6 --csv ${LDBC_CSV_FILE}
-#cargo bench --bench ldbc-graphalytics -- pagerank ${DATASET_SMALL} --threads 1 --csv ${LDBC_CSV_FILE}
-#cargo bench --bench ldbc-graphalytics -- pagerank ${DATASET_MEDIUM} --threads 6 --csv ${LDBC_CSV_FILE}
-#mkdir -p ${LDBC_RESULTS_DIR}
-#mv crates/dbsp/${LDBC_CSV_FILE} ${LDBC_RESULTS_DIR}
+  # Run ldbc benchmarks
+  DATASET_SMALL='graph500-22'
+  DATASET_MEDIUM='datagen-8_4-fb'
+  if [ "$SMOKE" != "" ]; then
+      DATASET_SMALL='wiki-Talk'
+      DATASET_MEDIUM='kgs'
+  fi
+  #cargo bench --bench ldbc-graphalytics -- bfs ${DATASET_SMALL} --threads 1 --csv ${LDBC_CSV_FILE}
+  #cargo bench --bench ldbc-graphalytics -- bfs ${DATASET_MEDIUM} --threads 6 --csv ${LDBC_CSV_FILE}
+  #cargo bench --bench ldbc-graphalytics -- pagerank ${DATASET_SMALL} --threads 1 --csv ${LDBC_CSV_FILE}
+  #cargo bench --bench ldbc-graphalytics -- pagerank ${DATASET_MEDIUM} --threads 6 --csv ${LDBC_CSV_FILE}
+  #mkdir -p ${LDBC_RESULTS_DIR}
+  #mv crates/dbsp/${LDBC_CSV_FILE} ${LDBC_RESULTS_DIR}
 
-# Run nexmark benchmark with persistence
-MAX_EVENTS=3000000
-CORES=1
-if [ "$SMOKE" != "" ]; then
-  MAX_EVENTS=100000
-fi
-cargo bench --bench nexmark -- --max-events=${MAX_EVENTS} --cpu-cores ${CORES} --num-event-generators 6 --source-buffer-size 10000 --input-batch-size 40000 --csv ${NEXMARK_DRAM_CSV_FILE}
-mv crates/nexmark/${NEXMARK_DRAM_CSV_FILE} $NEXMARK_RESULTS_DIR 
-#cargo bench --bench nexmark --features persistence -- --max-events=${MAX_EVENTS} --cpu-cores ${CORES} --num-event-generators 6 --source-buffer-size 10000 --input-batch-size 40000 --csv ${NEXMARK_PERSISTENCE_CSV_FILE}
-#mv crates/nexmark/${NEXMARK_PERSISTENCE_CSV_FILE} $NEXMARK_RESULTS_DIR 
+  # Run nexmark benchmark with persistence
+  MAX_EVENTS=3000000
+  CORES=1
+  if [ "$SMOKE" != "" ]; then
+    MAX_EVENTS=100000
+  fi
+  cargo bench --bench nexmark -- --max-events=${MAX_EVENTS} --cpu-cores ${CORES} --num-event-generators 6 --source-buffer-size 10000 --input-batch-size 40000 --csv ${NEXMARK_DRAM_CSV_FILE}
+  mv crates/nexmark/${NEXMARK_DRAM_CSV_FILE} $NEXMARK_RESULTS_DIR 
+  #cargo bench --bench nexmark --features persistence -- --max-events=${MAX_EVENTS} --cpu-cores ${CORES} --num-event-generators 6 --source-buffer-size 10000 --input-batch-size 40000 --csv ${NEXMARK_PERSISTENCE_CSV_FILE}
+  #mv crates/nexmark/${NEXMARK_PERSISTENCE_CSV_FILE} $NEXMARK_RESULTS_DIR 
+fi
diff --git a/scripts/clone-gh-pages.bash b/scripts/clone-gh-pages.bash