S-guchi
diff --git a/‎dataflow/conftest.py‎
Lines changed: 272 additions & 6 deletions b/‎dataflow/conftest.py‎
Lines changed: 272 additions & 6 deletions
diff --git a/‎dataflow/run-inference/.gitignore‎
Lines changed: 1 addition & 0 deletions b/‎dataflow/run-inference/.gitignore‎
Lines changed: 1 addition & 0 deletions
@@ -12,9 +12,9 @@
 
 from __future__ import annotations
 
-from collections.abc import Callable, Iterable
+from collections.abc import Callable, Iterator
 from dataclasses import dataclass
-from google.api_core.exceptions import NotFound
+from datetime import datetime
 import itertools
 import json
 import logging
@@ -27,16 +27,276 @@
 from typing import Any
 import uuid
 
+from google.api_core import retry
 import pytest
 
+TIMEOUT_SEC = 30 * 60  # 30 minutes (in seconds)
+
+
+@pytest.fixture(scope="session")
+def project() -> str:
+    # This is set by the testing infrastructure.
+    project = os.environ["GOOGLE_CLOUD_PROJECT"]
+    run_cmd("gcloud", "config", "set", "project", project)
+
+    # Since everything requires the project, let's confiugre and show some
+    # debugging information here.
+    run_cmd("gcloud", "version")
+    run_cmd("gcloud", "config", "list")
+    return project
+
+
+@pytest.fixture(scope="session")
+def location() -> str:
+    # Override for local testing.
+    return os.environ.get("GOOGLE_CLOUD_LOCATION", "us-central1")
+
+
+@pytest.fixture(scope="session")
+def unique_id() -> str:
+    id = uuid.uuid4().hex[0:6]
+    print(f"unique_id: {id}")
+    return id
+
+
+@pytest.fixture(scope="session")
+def unique_name(test_name: str, unique_id: str) -> str:
+    return f"{test_name.replace('/', '-')}-{unique_id}"
+
+
+@pytest.fixture(scope="session")
+def bucket_name(test_name: str, location: str, unique_id: str) -> Iterator[str]:
+    # Override for local testing.
+    if "GOOGLE_CLOUD_BUCKET" in os.environ:
+        bucket_name = os.environ["GOOGLE_CLOUD_BUCKET"]
+        print(f"bucket_name: {bucket_name} (from GOOGLE_CLOUD_BUCKET)")
+        yield bucket_name
+        return
+
+    from google.cloud import storage
+
+    storage_client = storage.Client()
+    bucket_name = f"{test_name.replace('/', '-')}-{unique_id}"
+    bucket = storage_client.create_bucket(bucket_name, location=location)
+
+    print(f"bucket_name: {bucket_name}")
+    yield bucket_name
+
+    # Try to remove all files before deleting the bucket.
+    # Deleting a bucket with too many files results in an error.
+    try:
+        run_cmd("gsutil", "-m", "rm", "-rf", f"gs://{bucket_name}/*")
+    except RuntimeError:
+        # If no files were found and it fails, ignore the error.
+        pass
+
+    # Delete the bucket.
+    bucket.delete(force=True)
+
+
+@pytest.fixture(scope="session")
+def pubsub_topic(
+    test_name: str, project: str, unique_id: str
+) -> Iterator[Callable[[str], str]]:
+    from google.cloud import pubsub
+
+    publisher = pubsub.PublisherClient()
+    created_topics = []
+
+    def create_topic(name: str) -> str:
+        unique_name = f"{test_name.replace('/', '-')}-{name}-{unique_id}"
+        topic_path = publisher.topic_path(project, unique_name)
+        topic = publisher.create_topic(name=topic_path)
+
+        print(f"pubsub_topic created: {topic.name}")
+        created_topics.append(topic.name)
+        return topic.name
+
+    yield create_topic
+
+    for topic_path in created_topics:
+        publisher.delete_topic(topic=topic_path)
+        print(f"pubsub_topic deleted: {topic_path}")
+
+
+@pytest.fixture(scope="session")
+def pubsub_subscription(
+    test_name: str, project: str, unique_id: str
+) -> Iterator[Callable[[str, str], str]]:
+    from google.cloud import pubsub
+
+    subscriber = pubsub.SubscriberClient()
+    created_subscriptions = []
+
+    def create_subscription(name: str, topic_path: str) -> str:
+        unique_name = f"{test_name.replace('/', '-')}-{name}-{unique_id}"
+        subscription_path = subscriber.subscription_path(project, unique_name)
+        subscription = subscriber.create_subscription(
+            name=subscription_path, topic=topic_path
+        )
+
+        print(f"pubsub_subscription created: {subscription.name}")
+        created_subscriptions.append(subscription.name)
+        return subscription.name
+
+    yield create_subscription
+
+    for subscription_path in created_subscriptions:
+        subscriber.delete_subscription(subscription=subscription_path)
+        print(f"pubsub_subscription deleted: {subscription_path}")
+
+
+def pubsub_publish(topic_path: str, messages: list[str]) -> None:
+    from google.cloud import pubsub
+
+    publisher = pubsub.PublisherClient()
+    futures = [publisher.publish(topic_path, msg.encode("utf-8")) for msg in messages]
+    _ = [future.result() for future in futures]  # wait synchronously
+    print(f"pubsub_publish {len(messages)} message(s) to {topic_path}:")
+    for msg in messages:
+        print(f"- {repr(msg)}")
+
+
+@retry.Retry(retry.if_exception_type(ValueError), timeout=TIMEOUT_SEC)
+def pubsub_wait_for_messages(subscription_path: str) -> list[str]:
+    from google.cloud import pubsub
+
+    subscriber = pubsub.SubscriberClient()
+    with subscriber:
+        response = subscriber.pull(subscription=subscription_path, max_messages=10)
+        messages = [m.message.data.decode("utf-8") for m in response.received_messages]
+        if not messages:
+            raise ValueError("pubsub_wait_for_messages no messages received")
+
+        print(f"pubsub_receive got {len(messages)} message(s)")
+        for msg in messages:
+            print(f"- {repr(msg)}")
+
+        ack_ids = [m.ack_id for m in response.received_messages]
+        subscriber.acknowledge(subscription=subscription_path, ack_ids=ack_ids)
+        print(f"pubsub_receive ack messages")
+    return messages
+
+
+def dataflow_job_url(project: str, location: str, job_id: str) -> str:
+    return f"https://console.cloud.google.com/dataflow/jobs/{location}/{job_id}?project={project}"
+
+
+@retry.Retry(retry.if_exception_type(LookupError), timeout=TIMEOUT_SEC)
+def dataflow_find_job_by_name(project: str, location: str, job_name: str) -> str:
+    from google.cloud import dataflow_v1beta3 as dataflow
+
+    # https://cloud.google.com/python/docs/reference/dataflow/latest/google.cloud.dataflow_v1beta3.services.jobs_v1_beta3.JobsV1Beta3Client#google_cloud_dataflow_v1beta3_services_jobs_v1_beta3_JobsV1Beta3Client_list_jobs
+    dataflow_client = dataflow.JobsV1Beta3Client()
+    request = dataflow.ListJobsRequest(
+        project_id=project,
+        location=location,
+    )
+    for job in dataflow_client.list_jobs(request):
+        if job.name == job_name:
+            return job.id
+    raise LookupError(f"dataflow_find_job_by_name job name not found: {job_name}")
+
+
+@retry.Retry(retry.if_exception_type(ValueError), timeout=TIMEOUT_SEC)
+def dataflow_wait_until_running(project: str, location: str, job_id: str) -> str:
+    from google.cloud import dataflow_v1beta3 as dataflow
+    from google.cloud.dataflow_v1beta3.types import JobView, JobState
+
+    # https://cloud.google.com/python/docs/reference/dataflow/latest/google.cloud.dataflow_v1beta3.services.jobs_v1_beta3.JobsV1Beta3Client#google_cloud_dataflow_v1beta3_services_jobs_v1_beta3_JobsV1Beta3Client_get_job
+    dataflow_client = dataflow.JobsV1Beta3Client()
+    request = dataflow.GetJobRequest(
+        project_id=project,
+        location=location,
+        job_id=job_id,
+        view=JobView.JOB_VIEW_SUMMARY,
+    )
+    response = dataflow_client.get_job(request)
+
+    job_url = dataflow_job_url(project, location, job_id)
+    state = response.current_state
+    if state == JobState.JOB_STATE_FAILED:
+        raise RuntimeError(f"Dataflow job failed unexpectedly\n{job_url}")
+    if state != JobState.JOB_STATE_RUNNING:
+        raise ValueError(f"Dataflow job is not running, state: {state.name}\n{job_url}")
+    return state.name
+
+
+def dataflow_num_workers(project: str, location: str, job_id: str) -> int:
+    from google.cloud import dataflow_v1beta3 as dataflow
+    from google.cloud.dataflow_v1beta3.types import JobMessageImportance
+
+    # https://cloud.google.com/python/docs/reference/dataflow/latest/google.cloud.dataflow_v1beta3.services.messages_v1_beta3.MessagesV1Beta3Client#google_cloud_dataflow_v1beta3_services_messages_v1_beta3_MessagesV1Beta3Client_list_job_messages
+    dataflow_client = dataflow.MessagesV1Beta3Client()
+    request = dataflow.ListJobMessagesRequest(
+        project_id=project,
+        location=location,
+        job_id=job_id,
+        minimum_importance=JobMessageImportance.JOB_MESSAGE_BASIC,
+    )
+
+    response = dataflow_client.list_job_messages(request)._response
+    num_workers = [event.current_num_workers for event in response.autoscaling_events]
+    if num_workers:
+        return num_workers[-1]
+    return 0
+
+
+def dataflow_cancel_job(project: str, location: str, job_id: str) -> None:
+    from google.cloud import dataflow_v1beta3 as dataflow
+    from google.cloud.dataflow_v1beta3.types import Job, JobState
+
+    # https://cloud.google.com/python/docs/reference/dataflow/latest/google.cloud.dataflow_v1beta3.services.jobs_v1_beta3.JobsV1Beta3Client#google_cloud_dataflow_v1beta3_services_jobs_v1_beta3_JobsV1Beta3Client_update_job
+    dataflow_client = dataflow.JobsV1Beta3Client()
+    request = dataflow.UpdateJobRequest(
+        project_id=project,
+        location=location,
+        job_id=job_id,
+        job=Job(requested_state=JobState.JOB_STATE_CANCELLED),
+    )
+    response = dataflow_client.update_job(request=request)
+    print(response)
+
+
+@retry.Retry(retry.if_exception_type(AssertionError), timeout=TIMEOUT_SEC)
+def wait_until(condition: Callable[[], bool], message: str) -> None:
+    assert condition(), message
+
+
+def run_cmd(*cmd: str) -> subprocess.CompletedProcess:
+    try:
+        print(f"run_cmd: {cmd}")
+        start = datetime.now()
+        p = subprocess.run(
+            cmd,
+            check=True,
+            stdout=subprocess.PIPE,
+            stderr=subprocess.PIPE,
+        )
+        print(p.stderr.decode("utf-8").strip())
+        print(p.stdout.decode("utf-8").strip())
+        elapsed = (datetime.now() - start).seconds
+        minutes = int(elapsed / 60)
+        seconds = elapsed - minutes * 60
+        print(f"-- run_cmd `{cmd[0]}` finished in {minutes}m {seconds}s")
+        return p
+    except subprocess.CalledProcessError as e:
+        # Include the error message from the failed command.
+        print(e.stderr.decode("utf-8"))
+        print(e.stdout.decode("utf-8"))
+        raise RuntimeError(f"{e}\n\n{e.stderr.decode('utf-8')}") from e
+
+
+# ---- FOR BACKWARDS COMPATIBILITY ONLY, prefer fixture-style ---- #
+
 # Default options.
 UUID = uuid.uuid4().hex[0:6]
 PROJECT = os.environ["GOOGLE_CLOUD_PROJECT"]
 REGION = "us-central1"
 
-TIMEOUT_SEC = 30 * 60  # 30 minutes in seconds
 POLL_INTERVAL_SEC = 60  # 1 minute in seconds
 LIST_PAGE_SIZE = 100
+TIMEOUT_SEC = 30 * 60  # 30 minutes in seconds
 
 HYPHEN_NAME_RE = re.compile(r"[^\w\d-]+")
 UNDERSCORE_NAME_RE = re.compile(r"[^\w\d_]+")
@@ -73,6 +333,11 @@ def wait_until(
 
     @staticmethod
     def storage_bucket(name: str) -> str:
+        if bucket_name := os.environ.get("GOOGLE_CLOUD_BUCKET"):
+            logging.warning(f"Using bucket from GOOGLE_CLOUD_BUCKET: {bucket_name}")
+            yield bucket_name
+            return  # don't delete
+
         from google.cloud import storage
 
         storage_client = storage.Client()
@@ -100,6 +365,7 @@ def bigquery_dataset(
         project: str = PROJECT,
         location: str = REGION,
     ) -> str:
+        from google.api_core.exceptions import NotFound
         from google.cloud import bigquery
 
         bigquery_client = bigquery.Client()
@@ -148,7 +414,7 @@ def bigquery_table_exists(
             return False
 
     @staticmethod
-    def bigquery_query(query: str, region: str = REGION) -> Iterable[dict[str, Any]]:
+    def bigquery_query(query: str, region: str = REGION) -> Iterator[dict[str, Any]]:
         from google.cloud import bigquery
 
         bigquery_client = bigquery.Client()
@@ -332,7 +598,7 @@ def dataflow_job_url(
     @staticmethod
     def dataflow_jobs_list(
         project: str = PROJECT, page_size: int = 30
-    ) -> Iterable[dict]:
+    ) -> Iterator[dict]:
         from googleapiclient.discovery import build
 
         dataflow = build("dataflow", "v1b3")
@@ -390,7 +656,7 @@ def dataflow_jobs_wait(
         project: str = PROJECT,
         region: str = REGION,
         target_states: set[str] = {"JOB_STATE_DONE"},
-        timeout_sec: str = TIMEOUT_SEC,
+        timeout_sec: int = TIMEOUT_SEC,
         poll_interval_sec: int = POLL_INTERVAL_SEC,
     ) -> str | None:
         """For a list of all the valid states:
 
@@ -0,0 +1 @@
+state_dict.pt