feat: add MinIO S3 CSV seeder for Spark integration tests (#950)

devin-ai-integration[bot] · haritamar · web-flow · commit 66ad06ae4d7d · 2026-03-02T13:35:08.000+02:00
* feat: add MinIO S3 CSV seeder for Spark integration tests

- Add MinIO service to docker-compose-spark.yml with bucket setup
- Add hadoop-aws and aws-java-sdk-bundle jars to Spark Dockerfile
- Configure S3A filesystem in spark-defaults.conf for MinIO endpoint
- Implement SparkS3CsvSeeder that uploads CSVs to MinIO and creates
  external Spark tables via CREATE TABLE ... USING CSV
- Uses PyHive directly (not AdapterQueryRunner) to avoid corrupting
  dbt global state
- NULL values written as empty CSV cells, Spark reads them as SQL NULL
- Bypasses dbt seed entirely, avoiding the _fix_binding NULL bug in
  dbt-spark's session adapter
- Add boto3 to requirements.txt for S3 uploads
- Add MinIO health check to CI workflow

Co-Authored-By: Itamar Hartstein &lt;haritamar@gmail.com&gt;

* address CodeRabbit review: connection reuse, error handling, compose deps

- Reuse single PyHive connection per seed operation (context manager)
- Add empty data guard with clear ValueError
- Harden _read_profile_schema with explicit error context
- Validate MinIO setup exit code in CI workflow
- Use completion-based depends_on for minio-setup in docker-compose

Co-Authored-By: Itamar Hartstein &lt;haritamar@gmail.com&gt;

* add missing docstrings to improve coverage (70% -&gt; 80%)

Co-Authored-By: Itamar Hartstein &lt;haritamar@gmail.com&gt;

* address CodeRabbit nitpicks: set -e, env-configurable credentials, shared type inference

Co-Authored-By: Itamar Hartstein &lt;haritamar@gmail.com&gt;

* address CodeRabbit: empty-seed guard in DbtDataSeeder, immutable class maps

Co-Authored-By: Itamar Hartstein &lt;haritamar@gmail.com&gt;

* fix: clean up local CSV after seed to prevent dbt compilation errors

Co-Authored-By: Itamar Hartstein &lt;haritamar@gmail.com&gt;

* fix: move try/finally to cover upload + table creation for CSV cleanup

Co-Authored-By: Itamar Hartstein &lt;haritamar@gmail.com&gt;

* fix: use QUOTE_ALL in CSV writer to prevent Spark skipping blank lines for NULL rows

Co-Authored-By: Itamar Hartstein &lt;haritamar@gmail.com&gt;

* refactor: rename BaseDirectSeeder to BaseSqlInsertSeeder for clarity

Co-Authored-By: Itamar Hartstein &lt;haritamar@gmail.com&gt;

---------

Co-authored-by: Devin AI &lt;158243242+devin-ai-integration[bot]@users.noreply.github.com&gt;
Co-authored-by: Itamar Hartstein &lt;haritamar@gmail.com&gt;
diff --git a/.github/workflows/test-warehouse.yml b/.github/workflows/test-warehouse.yml
@@ -106,6 +106,13 @@ jobs:
         run: |
           docker compose -f docker-compose-spark.yml build
           docker compose -f docker-compose-spark.yml up -d
+          echo "Waiting for MinIO setup to complete..."
+          timeout 60 bash -c '
+            until [ "$(docker inspect -f "{{.State.Status}}" spark-minio-setup 2>/dev/null)" = "exited" ]; do sleep 2; done
+            EXIT_CODE=$(docker inspect -f "{{.State.ExitCode}}" spark-minio-setup 2>/dev/null)
+            if [ "$EXIT_CODE" != "0" ]; then echo "MinIO setup failed with exit code $EXIT_CODE"; exit 1; fi
+          '
+          echo "MinIO is ready."
           echo "Waiting for Spark Thrift Server to become healthy..."
           timeout 180 bash -c 'until [ "$(docker inspect -f {{.State.Health.Status}} spark-thrift 2>/dev/null)" = "healthy" ]; do sleep 5; done'
           echo "Spark Thrift Server is healthy."
diff --git a/integration_tests/docker-compose-spark.yml b/integration_tests/docker-compose-spark.yml
@@ -10,7 +10,10 @@ services:
       - "10000:10000"
       - "4040:4040"
     depends_on:
-      - spark-hive-metastore
+      spark-hive-metastore:
+        condition: service_started
+      minio-setup:
+        condition: service_completed_successfully
     command: >
       --class org.apache.spark.sql.hive.thriftserver.HiveThriftServer2
       --name Thrift JDBC/ODBC Server
@@ -36,6 +39,40 @@ services:
       - POSTGRES_PASSWORD=dbt
       - POSTGRES_DB=metastore
 
+  minio:
+    image: minio/minio:latest
+    container_name: spark-minio
+    ports:
+      - "9000:9000"
+      - "9001:9001"
+    environment:
+      - MINIO_ROOT_USER=minioadmin
+      - MINIO_ROOT_PASSWORD=minioadmin
+    command: ["server", "/data", "--console-address", ":9001"]
+    healthcheck:
+      test: ["CMD-SHELL", "mc ready local || exit 1"]
+      interval: 5s
+      timeout: 5s
+      retries: 10
+      start_period: 5s
+    volumes:
+      - minio-data:/data
+
+  minio-setup:
+    image: minio/mc
+    container_name: spark-minio-setup
+    depends_on:
+      minio:
+        condition: service_healthy
+    entrypoint: >
+      /bin/sh -c "
+      set -e;
+      mc alias set myminio http://minio:9000 minioadmin minioadmin;
+      mc mb --ignore-existing myminio/spark-seeds;
+      echo 'MinIO bucket spark-seeds created.';
+      "
+
 volumes:
   spark-warehouse:
   hive-metastore:
+  minio-data:
diff --git a/integration_tests/docker/spark/Dockerfile b/integration_tests/docker/spark/Dockerfile
@@ -4,6 +4,8 @@ FROM eclipse-temurin:${OPENJDK_VERSION}-jre
 ARG SPARK_VERSION=3.3.2
 ARG HADOOP_VERSION=3
 ARG DELTA_VERSION=2.2.0
+ARG HADOOP_FULL_VERSION=3.3.2
+ARG AWS_SDK_VERSION=1.11.1026
 
 ENV SPARK_HOME /usr/spark
 ENV PATH="/usr/spark/bin:/usr/spark/sbin:${PATH}"
@@ -19,6 +21,10 @@ RUN apt-get update && \
          -P /usr/spark/jars/ && \
     wget -q "https://repo1.maven.org/maven2/io/delta/delta-storage/${DELTA_VERSION}/delta-storage-${DELTA_VERSION}.jar" \
          -P /usr/spark/jars/ && \
+    wget -q "https://repo1.maven.org/maven2/org/apache/hadoop/hadoop-aws/${HADOOP_FULL_VERSION}/hadoop-aws-${HADOOP_FULL_VERSION}.jar" \
+         -P /usr/spark/jars/ && \
+    wget -q "https://repo1.maven.org/maven2/com/amazonaws/aws-java-sdk-bundle/${AWS_SDK_VERSION}/aws-java-sdk-bundle-${AWS_SDK_VERSION}.jar" \
+         -P /usr/spark/jars/ && \
     apt-get remove -y wget && \
     apt-get autoremove -y && \
     apt-get clean
diff --git a/integration_tests/docker/spark/spark-defaults.conf b/integration_tests/docker/spark/spark-defaults.conf
@@ -12,3 +12,11 @@ spark.sql.shuffle.partitions           2
 spark.default.parallelism              2
 spark.ui.enabled                       false
 spark.sql.adaptive.enabled             true
+
+# S3A configuration for MinIO
+spark.hadoop.fs.s3a.endpoint           http://minio:9000
+spark.hadoop.fs.s3a.access.key         minioadmin
+spark.hadoop.fs.s3a.secret.key         minioadmin
+spark.hadoop.fs.s3a.path.style.access  true
+spark.hadoop.fs.s3a.impl               org.apache.hadoop.fs.s3a.S3AFileSystem
+spark.hadoop.fs.s3a.connection.ssl.enabled  false
diff --git a/integration_tests/requirements.txt b/integration_tests/requirements.txt
@@ -4,6 +4,7 @@ pytest-parametrization
 pytest-html
 filelock
 tenacity
+boto3>=1.26.0
 # urllib3>=2.2.2 fixes CVE-2023-45803 and CVE-2024-37891
 # Upper bound <3.0.0 prevents breaking changes from future major versions
 urllib3>=2.2.2,<3.0.0
diff --git a/integration_tests/tests/data_seeder.py b/integration_tests/tests/data_seeder.py
diff --git a/integration_tests/tests/dbt_project.py b/integration_tests/tests/dbt_project.py