google · kubikb · Jun 24, 2025 · Jun 24, 2025 · Jun 24, 2025 · Jun 24, 2025
diff --git a/src/google/adk/evaluation/agent_evaluator.py b/src/google/adk/evaluation/agent_evaluator.py
@@ -96,6 +96,7 @@ async def evaluate_eval_set(
       criteria: dict[str, float],
       num_runs=NUM_RUNS,
       agent_name=None,
+      log_detailed_results: bool = False,
   ):
     """Evaluates an agent using the given EvalSet.
 
@@ -109,6 +110,7 @@ async def evaluate_eval_set(
       num_runs: Number of times all entries in the eval dataset should be
         assessed.
       agent_name: The name of the agent.
+      log_detailed_results: Logs detailed results. All invocation results will be logged if true.
     """
     eval_case_responses_list = await EvaluationGenerator.generate_responses(
         eval_set=eval_set,
@@ -139,6 +141,15 @@ async def evaluate_eval_set(
             )
         )
 
+        if log_detailed_results:
+          logger.info(f"Detailed results for {metric_name} for {agent_module}:")
+          for per_invocation_result in evaluation_result.per_invocation_results:
+            logger.info(f"Actual invocation: '{per_invocation_result.actual_invocation}'")
+            logger.info(f"Expected invocation: '{per_invocation_result.expected_invocation}'")
+            logger.info(f"Score: {per_invocation_result.score}")
+            logger.info(f"Eval Status: {per_invocation_result.eval_status}")
+            logger.info("-" * 100)
+
         assert evaluation_result.overall_eval_status == EvalStatus.PASSED, (
             f"{metric_name} for {agent_module} Failed. Expected {threshold},"
             f" but got {evaluation_result.overall_score}."
@@ -151,6 +162,7 @@ async def evaluate(
       num_runs: int = NUM_RUNS,
       agent_name: Optional[str] = None,
       initial_session_file: Optional[str] = None,
+      log_detailed_results: bool = False,
   ):
     """Evaluates an Agent given eval data.
 
@@ -166,6 +178,7 @@ async def evaluate(
       agent_name: The name of the agent.
       initial_session_file: File that contains initial session state that is
         needed by all the evals in the eval dataset.
+      log_detailed_results: Logs detailed results. All invocation results will be logged if true.
     """
     test_files = []
     if isinstance(eval_dataset_file_path_or_dir, str) and os.path.isdir(
@@ -192,6 +205,7 @@ async def evaluate(
           criteria=criteria,
           num_runs=num_runs,
           agent_name=agent_name,
+          log_detailed_results=log_detailed_results,
       )
 
   @staticmethod