[python] Add methods and types for retrieving pipeline statistics.

blp · blp · commit e09e6efe2517 · 2025-07-03T17:41:32.000Z
Signed-off-by: Ben Pfaff &lt;blp@feldera.com&gt;
diff --git a/python/feldera/pipeline.py b/python/feldera/pipeline.py
@@ -17,6 +17,7 @@
 from feldera._helpers import ensure_dataframe_has_columns, chunk_dataframe
 from feldera.rest.sql_table import SQLTable
 from feldera.rest.sql_view import SQLView
+from feldera.stats import PipelineStatistics
 
 
 class Pipeline:
@@ -69,6 +70,11 @@ def status(self) -> PipelineStatus:
             else:
                 raise err
 
+    def stats(self) -> PipelineStatistics:
+        """Gets the pipeline metrics and performance counters."""
+
+        return PipelineStatistics.from_dict(self.client.get_pipeline_stats(self.name))
+
     def input_pandas(self, table_name: str, df: pandas.DataFrame, force: bool = False):
         """
         Push all rows in a pandas DataFrame to the pipeline.
@@ -309,17 +315,12 @@ def wait_for_completion(
                     }s, timeout: {timeout_s}s"
                 )
 
-            metrics: dict = self.client.get_pipeline_stats(self.name).get(
-                "global_metrics"
-            )
-            pipeline_complete: bool = metrics.get("pipeline_complete")
-
+            pipeline_complete: bool = self.stats().global_metrics.pipeline_complete
             if pipeline_complete is None:
                 raise RuntimeError(
                     "received unknown metrics from the pipeline, pipeline_complete is None"
                 )
-
-            if pipeline_complete:
+            elif pipeline_complete:
                 break
 
             time.sleep(1)
@@ -436,16 +437,14 @@ def wait_for_idle(
             now_s = time.monotonic()
 
             # Metrics retrieval
-            metrics: dict = self.client.get_pipeline_stats(self.name).get(
-                "global_metrics"
-            )
-            total_input_records: int | None = metrics.get("total_input_records")
-            total_processed_records: int | None = metrics.get("total_processed_records")
-            if total_input_records is None:
+            metrics = self.stats().global_metrics
+            total_input_records = metrics.total_input_records
+            total_processed_records = metrics.total_processed_records
+            if metrics.total_input_records is None:
                 raise RuntimeError(
                     "total_input_records is missing from the pipeline metrics"
                 )
-            if total_processed_records is None:
+            if metrics.total_processed_records is None:
                 raise RuntimeError(
                     "total_processed_records is missing from the pipeline metrics"
                 )
diff --git a/python/feldera/stats.py b/python/feldera/stats.py
@@ -0,0 +1,149 @@
+from typing import Mapping, Any, Optional, List
+from feldera.enums import PipelineStatus
+from datetime import datetime
+import uuid
+
+
+class PipelineStatistics:
+    """
+    Represents statistics reported by a pipeline's "/stats" endpoint.
+    """
+
+    def __init__(self):
+        """
+        Initializes as an empty set of statistics.
+        """
+
+        self.global_metrics: GlobalPipelineMetrics = GlobalPipelineMetrics()
+        self.suspend_error: Optional[Any] = None
+        self.inputs: Mapping[List[InputEndpointStatus()]] = {}
+        self.outputs: Mapping[List[OutputEndpointStatus]] = {}
+
+    @classmethod
+    def from_dict(cls, d: Mapping[str, Any]):
+        pipeline = cls()
+        pipeline.global_metrics = GlobalPipelineMetrics.from_dict(d["global_metrics"])
+        pipeline.inputs = [
+            InputEndpointStatus.from_dict(input) for input in d["inputs"]
+        ]
+        pipeline.inputs = [
+            OutputEndpointStatus().from_dict(output) for output in d["outputs"]
+        ]
+        return pipeline
+
+
+class GlobalPipelineMetrics:
+    """Represents the "global_metrics" object within the pipeline's
+    "/stats" endpoint reply.
+    """
+
+    def __init__(self):
+        """
+        Initializes as an empty set of metrics.
+        """
+        self.state: Optional[PipelineStatus] = None
+        self.bootstrap_in_progress: Optional[bool] = None
+        self.rss_bytes: Optional[int] = None
+        self.cpu_msecs: Optional[int] = None
+        self.start_time: Optional[datetime] = None
+        self.incarnation_uuid: Optional[uuid] = None
+        self.storage_bytes: Optional[int] = None
+        self.storage_mb_secs: Optional[int] = None
+        self.runtime_elapsed_msecs: Optional[int] = None
+        self.buffered_input_records: Optional[int] = None
+        self.total_input_records: Optional[int] = None
+        self.total_processed_records: Optional[int] = None
+        self.total_completed_records: Optional[int] = None
+        self.pipeline_complete: Optional[bool] = None
+
+    @classmethod
+    def from_dict(cls, d: Mapping[str, Any]):
+        metrics = cls()
+        metrics.__dict__.update(d)
+        metrics.state = PipelineStatus.from_str(d["state"])
+        metrics.incarnation_uuid = uuid.UUID(d["incarnation_uuid"])
+        metrics.start_time = datetime.fromtimestamp(d["start_time"])
+        return metrics
+
+
+class InputEndpointStatus:
+    """Represents one member of the "inputs" array within the
+    pipeline's "/stats" endpoint reply.
+    """
+
+    def __init__(self):
+        """Initializes an empty status."""
+        self.endpoint_name: Optional[str] = None
+        self.config: Optional[Mapping] = None
+        self.metrics: Optional[InputEndpointMetrics] = None
+        self.fatal_error: Optional[str] = None
+        self.paused: Optional[bool] = None
+        self.barrier: Optional[bool] = None
+
+    @classmethod
+    def from_dict(cls, d: Mapping[str, Any]):
+        status = cls()
+        status.__dict__.update(d)
+        status.metrics = InputEndpointMetrics.from_dict(d["metrics"])
+        return status
+
+
+class InputEndpointMetrics:
+    """Represents the "metrics" member within an input endpoint status
+    in the pipeline's "/stats" endpoint reply.
+    """
+
+    def __init__(self):
+        self.total_bytes: Optional[int] = None
+        self.total_records: Optional[int] = None
+        self.buffered_records: Optional[int] = None
+        self.num_transport_errors: Optional[int] = None
+        self.num_parse_errors: Optional[int] = None
+        self.end_of_input: Optional[bool] = None
+
+    @classmethod
+    def from_dict(cls, d: Mapping[str, Any]):
+        metrics = cls()
+        metrics.__dict__.update(d)
+        return metrics
+
+
+class OutputEndpointStatus:
+    """Represents one member of the "outputs" array within the
+    pipeline's "/stats" endpoint reply.
+    """
+
+    def __init__(self):
+        """Initializes an empty status."""
+        self.endpoint_name: Optional[str] = None
+        self.config: Optional[Mapping] = None
+        self.metrics: Optional[OutputEndpointMetrics] = None
+        self.fatal_error: Optional[str] = None
+
+    @classmethod
+    def from_dict(cls, d: Mapping[str, Any]):
+        status = cls()
+        status.__dict__.update(d)
+        status.metrics = OutputEndpointMetrics.from_dict(d["metrics"])
+        return status
+
+
+class OutputEndpointMetrics:
+    """Represents the "metrics" member within an output endpoint status
+    in the pipeline's "/stats" endpoint reply.
+    """
+
+    def __init__(self):
+        self.transmitted_records: Optional[int] = None
+        self.transmitted_bytes: Optional[int] = None
+        self.queued_records: Optional[int] = None
+        self.queued_batches: Optional[int] = None
+        self.num_encode_errors: Optional[int] = None
+        self.num_transport_errors: Optional[int] = None
+        self.total_processed_input_records: Optional[int] = None
+
+    @classmethod
+    def from_dict(cls, d: Mapping[str, Any]):
+        metrics = cls()
+        metrics.__dict__.update(d)
+        return metrics