google
diff --git a/‎src/google/adk/cli/cli_tools_click.py‎
Lines changed: 34 additions & 5 deletions b/‎src/google/adk/cli/cli_tools_click.py‎
Lines changed: 34 additions & 5 deletions
diff --git a/‎src/google/adk/cli/conformance/_conformance_test_google_llm.py‎
Lines changed: 122 additions & 0 deletions b/‎src/google/adk/cli/conformance/_conformance_test_google_llm.py‎
Lines changed: 122 additions & 0 deletions
diff --git a/‎src/google/adk/cli/conformance/_generate_markdown_utils.py‎
Lines changed: 76 additions & 28 deletions b/‎src/google/adk/cli/conformance/_generate_markdown_utils.py‎
Lines changed: 76 additions & 28 deletions
diff --git a/‎src/google/adk/cli/conformance/_generated_file_utils.py‎
Lines changed: 12 additions & 3 deletions b/‎src/google/adk/cli/conformance/_generated_file_utils.py‎
Lines changed: 12 additions & 3 deletions
@@ -35,6 +35,7 @@
 from . import cli_create
 from . import cli_deploy
 from .. import version
+from ..agents.run_config import StreamingMode
 from ..evaluation.constants import MISSING_EVAL_DEPENDENCIES_MESSAGE
 from ..features import FeatureName
 from ..features import override_feature_enabled
@@ -230,10 +231,21 @@ def conformance():
         exists=True, dir_okay=True, file_okay=False, resolve_path=True
     ),
 )
+@click.argument(
+    "streaming-mode",
+    type=click.Choice(
+        [str(m.value) for m in StreamingMode], case_sensitive=False
+    ),
+    callback=lambda ctx, param, value: next(
+        (m for m in StreamingMode if str(m.value).lower() == value.lower()),
+        value,
+    ),
+)
 @click.pass_context
 def cli_conformance_record(
     ctx,
     paths: tuple[str, ...],
+    streaming_mode: StreamingMode,
 ):
   """Generate ADK conformance test YAML files from TestCaseInput specifications.
 
@@ -273,7 +285,7 @@ def cli_conformance_record(
 
   # Default to tests/ directory if no paths provided
   test_paths = [Path(p) for p in paths] if paths else [Path("tests").resolve()]
-  asyncio.run(run_conformance_record(test_paths))
+  asyncio.run(run_conformance_record(test_paths, streaming_mode))
 
 
 @conformance.command("test", cls=HelpfulCommand)
@@ -309,13 +321,28 @@ def cli_conformance_record(
         " directory."
     ),
 )
+@click.option(
+    "--streaming-mode",
+    type=click.Choice(
+        [str(m.value) for m in StreamingMode], case_sensitive=False
+    ),
+    callback=lambda ctx, param, value: next(
+        (m for m in StreamingMode if str(m.value).lower() == value.lower()),
+        value,
+    )
+    if value is not None
+    else None,
+    required=False,
+    default=None,
+)
 @click.pass_context
 def cli_conformance_test(
     ctx,
     paths: tuple[str, ...],
     mode: str,
     generate_report: bool,
     report_dir: Optional[str] = None,
+    streaming_mode: Optional[StreamingMode] = None,
 ):
   """Run conformance tests to verify agent behavior consistency.
 
@@ -342,9 +369,11 @@ def cli_conformance_test(
   \b
   category/
     test_name/
-      spec.yaml                    # Test specification
-      generated-recordings.yaml    # Recorded interactions (replay mode)
-      generated-session.yaml       # Session data (replay mode)
+      spec.yaml                     # Test specification
+      generated-recordings.yaml     # Recorded interactions (replay mode)
+      generated-session.yaml        # Session data (replay mode)
+      generated-recordings-sse.yaml # Recorded SSE interactions (replay mode)
+      generated-session-sse.yaml    # SSE Session data (replay mode)
 
   REPORT GENERATION:
 
@@ -377,7 +406,6 @@ def cli_conformance_test(
   # Generate a test report in a specific directory
   adk conformance test --generate_report --report_dir=reports
   """
-
   try:
     from .conformance.cli_test import run_conformance_test
   except ImportError as e:
@@ -403,6 +431,7 @@ def cli_conformance_test(
           mode=mode.lower(),
           generate_report=generate_report,
           report_dir=report_dir,
+          streaming_mode=streaming_mode,
       )
   )
 
 
@@ -0,0 +1,122 @@
+# Copyright 2026 Google LLC
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+
+from __future__ import annotations
+
+import logging
+from typing import Any
+from typing import AsyncGenerator
+from typing import TYPE_CHECKING
+
+from ...models.google_llm import Gemini
+
+if TYPE_CHECKING:
+  from ...models.llm_request import LlmRequest
+  from ...models.llm_response import LlmResponse
+
+logger = logging.getLogger('google_adk.' + __name__)
+
+
+class ReplayVerificationError(Exception):
+  """Exception raised when replay verification fails."""
+
+
+class _ConformanceTestGemini(Gemini):
+  """A mocked Gemini model for conformance test replay mode.
+
+  This class is used to mock the Gemini model in conformance test replay mode.
+  It is a subclass of Gemini and overrides the `generate_content_async`` method to
+  return a mocked response from the provided recordingss.
+  """
+
+  def __init__(
+      self,
+      *,
+      config: dict[str, Any],
+      **kwargs: Any,
+  ) -> None:
+    super().__init__(**kwargs)
+    recordings = config.get('_adk_replay_recordings')
+    self._user_message_index = config.get('user_message_index')
+    self._agent_name = config.get('agent_name')
+    self._replay_index = config.get('current_replay_index')
+    # Pre-filter LLM recordings for this agent and message index
+    self._agent_llm_recordings = [
+        recording.llm_recording
+        for recording in recordings.recordings
+        if recording.agent_name == self._agent_name
+        and recording.user_message_index == self._user_message_index
+        and recording.llm_recording
+    ]
+
+  async def generate_content_async(
+      self, llm_request: LlmRequest, stream: bool = False
+  ) -> AsyncGenerator[LlmResponse, None]:
+    """Replay LLM response from recordings instead of making real call."""
+    logger.debug(
+        'Replaying LLM response for agent %s (index %d)',
+        self._agent_name,
+        self._replay_index,
+    )
+
+    if self._replay_index >= len(self._agent_llm_recordings):
+      raise ReplayVerificationError(
+          'Runtime sent more LLM requests than expected for agent'
+          f" '{self._agent_name}' at user_message_index"
+          f' {self._user_message_index}. Expected'
+          f' {len(self._agent_llm_recordings)}, but got request at index'
+          f' {self._replay_index}'
+      )
+
+    recording = self._agent_llm_recordings[self._replay_index]
+
+    # Verify request matches
+    self._verify_llm_request_match(
+        recording.llm_request, llm_request, self._replay_index
+    )
+
+    for response in recording.llm_responses:
+      yield response
+
+  def _verify_llm_request_match(
+      self,
+      recorded_request: LlmRequest,
+      current_request: LlmRequest,
+      replay_index: int,
+  ) -> None:
+    """Verify that the current LLM request exactly matches the recorded one."""
+    # Comprehensive exclude dict for all fields that can differ between runs
+    excluded_fields = {
+        'live_connect_config': True,
+        'config': {  # some config fields can vary per run
+            'http_options': True,
+            'labels': True,
+        },
+    }
+
+    # Compare using model dumps with nested exclude dict
+    recorded_dict = recorded_request.model_dump(
+        exclude_none=True, exclude=excluded_fields, exclude_defaults=True
+    )
+    current_dict = current_request.model_dump(
+        exclude_none=True, exclude=excluded_fields, exclude_defaults=True
+    )
+
+    if recorded_dict != current_dict:
+      raise ReplayVerificationError(
+          f"""LLM request mismatch in turn {self._user_message_index} for agent '{self._agent_name}' (index {replay_index}):
+recorded: {recorded_dict}
+current: {current_dict}"""
+      )
@@ -29,7 +29,7 @@
 
 def generate_markdown_report(
     version_data: dict[str, Any],
-    summary: _ConformanceTestSummary,
+    summaries: list[_ConformanceTestSummary],
     report_dir: Optional[str],
 ) -> None:
   """Generates a Markdown report of the test results."""
@@ -44,46 +44,94 @@ def generate_markdown_report(
     report_path = Path(report_dir) / report_name
     report_path.parent.mkdir(parents=True, exist_ok=True)
 
+  # Collect all test results
+  test_results = {}
+  test_descriptions = {}
+  streaming_modes = []
+
+  for summary in summaries:
+    mode_name = (
+        str(summary.streaming_mode.value)
+        if summary.streaming_mode.value is not None
+        else "none"
+    )
+    streaming_modes.append(mode_name)
+    for result in summary.results:
+      key = (result.category, result.name)
+      if key not in test_results:
+        test_results[key] = {}
+      test_results[key][mode_name] = result
+      if result.description:
+        test_descriptions[key] = result.description
+
+  streaming_modes.sort()
+
   with open(report_path, "w") as f:
     f.write("# ADK Python Conformance Test Report\n\n")
-
-    # Summary
     f.write("## Summary\n\n")
     f.write(f"- **ADK Version**: {server_version}\n")
-    f.write(f"- **Language**: {language} {language_version}\n")
-    f.write(f"- **Total Tests**: {summary.total_tests}\n")
-    f.write(f"- **Passed**: {summary.passed_tests}\n")
-    f.write(f"- **Failed**: {summary.failed_tests}\n")
-    f.write(f"- **Success Rate**: {summary.success_rate:.1f}%\n\n")
+    f.write(f"- **Language**: {language} {language_version}\n\n")
 
-    # Table
-    f.write("## Test Results\n\n")
-    f.write("| Status | Category | Test Name | Description |\n")
-    f.write("| :--- | :--- | :--- | :--- |\n")
+    f.write(
+        "| Streaming Mode | Total Tests | Passed | Failed | Success Rate |\n"
+    )
+    f.write("| :--- | :--- | :--- | :--- | :--- |\n")
 
-    for result in summary.results:
-      status_icon = "✅ PASS" if result.success else "❌ FAIL"
-      description = (
-          result.description.replace("\n", " ") if result.description else ""
+    for summary in summaries:
+      mode_name = (
+          str(summary.streaming_mode.value)
+          if summary.streaming_mode.value is not None
+          else "none"
       )
       f.write(
-          f"| {status_icon} | {result.category} | {result.name} |"
-          f" {description} |\n"
+          f"| {mode_name} | {summary.total_tests} |"
+          f" {summary.passed_tests} | {summary.failed_tests} |"
+          f" {summary.success_rate:.1f}% |\n"
+      )
+    f.write("\n")
+
+    # Table
+    f.write("## Test Results\n\n")
+    headers = ["Category", "Test Name", "Description"] + streaming_modes
+    f.write("| " + " | ".join(headers) + " |\n")
+    f.write("| " + " | ".join([":---"] * len(headers)) + " |\n")
+
+    sorted_keys = sorted(test_results.keys())
+    for category, name in sorted_keys:
+      description = test_descriptions.get((category, name), "").replace(
+          "\n", " "
       )
+      row = [category, name, description]
+      for mode in streaming_modes:
+        result = test_results[(category, name)].get(mode)
+        if result:
+          status_icon = "✅ PASS" if result.success else "❌ FAIL"
+        else:
+          status_icon = "N/A"
+        row.append(status_icon)
+      f.write("| " + " | ".join(row) + " |\n")
 
     f.write("\n")
 
     # Failed Tests Details
-    if summary.failed_tests > 0:
+    has_failures = any(s.failed_tests > 0 for s in summaries)
+    if has_failures:
       f.write("## Failed Tests Details\n\n")
-      for result in summary.results:
-        if not result.success:
-          f.write(f"### {result.category}/{result.name}\n\n")
-          if result.description:
-            f.write(f"**Description**: {result.description}\n\n")
-          f.write("**Error**:\n")
-          f.write("```\n")
-          f.write(f"{result.error_message}\n")
-          f.write("```\n\n")
+      for summary in summaries:
+        if summary.failed_tests > 0:
+          mode_name = (
+              str(summary.streaming_mode.value)
+              if summary.streaming_mode.value is not None
+              else "none"
+          )
+          for result in summary.results:
+            if not result.success:
+              f.write(f"### {result.category}/{result.name} ({mode_name})\n\n")
+              if result.description:
+                f.write(f"**Description**: {result.description}\n\n")
+              f.write("**Error**:\n")
+              f.write("```\n")
+              f.write(f"{result.error_message}\n")
+              f.write("```\n\n")
 
   click.secho(f"\nReport generated at: {report_path.resolve()}", fg="blue")
@@ -23,6 +23,7 @@
 import click
 import yaml
 
+from ...agents.run_config import StreamingMode
 from ...sessions.session import Session
 from .test_case import TestSpec
 
@@ -35,9 +36,17 @@ def load_test_case(test_case_dir: Path) -> TestSpec:
   return TestSpec.model_validate(data)
 
 
-def load_recorded_session(test_case_dir: Path) -> Optional[Session]:
-  """Load recorded session data from generated-session.yaml file."""
-  session_file = test_case_dir / "generated-session.yaml"
+def load_recorded_session(
+    test_case_dir: Path, streaming_mode: StreamingMode
+) -> Optional[Session]:
+  """Load recorded session data from YAML file."""
+  if streaming_mode == StreamingMode.SSE:
+    session_file = test_case_dir / "generated-session-sse.yaml"
+  elif streaming_mode == StreamingMode.NONE:
+    session_file = test_case_dir / "generated-session.yaml"
+  else:
+    raise ValueError(f"Unsupported streaming mode: {streaming_mode}")
+
   if not session_file.exists():
     return None