evals: show average excluding <= 1.0 scores

jahooma · jahooma · commit 8be1e0de8aeb · 2025-10-31T15:45:50.000-07:00
diff --git a/evals/buffbench/run-buffbench.ts b/evals/buffbench/run-buffbench.ts
@@ -359,6 +359,7 @@ export async function runBuffBench(options: {
       agentId,
       runs: [],
       averageScore: 0,
+      averageScoreExcludingFailures: 0,
       averageCost: 0,
       averageDuration: 0,
     }
@@ -422,6 +423,18 @@ export async function runBuffBench(options: {
           validRuns.length
         : 0
 
+    // Calculate average excluding huge failures (scores ≤1.0)
+    const runsExcludingFailures = validRuns.filter(
+      (r) => r.judging.overallScore > 1.0,
+    )
+    agentData.averageScoreExcludingFailures =
+      runsExcludingFailures.length > 0
+        ? runsExcludingFailures.reduce(
+            (sum, r) => sum + r.judging.overallScore,
+            0,
+          ) / runsExcludingFailures.length
+        : 0
+
     agentData.averageCost =
       validRuns.length > 0
         ? validRuns.reduce((sum, r) => sum + r.cost, 0) / validRuns.length
@@ -507,8 +520,14 @@ export async function runBuffBench(options: {
     const validRuns = data.runs.filter(
       (r) => !commitShasWithErrors.has(r.commitSha),
     )
+    const runsExcludingFailures = validRuns.filter(
+      (r) => r.judging.overallScore > 1.0,
+    )
     console.log(`\n${agentId}:`)
     console.log(`  Average Score: ${data.averageScore.toFixed(2)}/10`)
+    console.log(
+      `  Average Score (excluding failures ≤1.0): ${data.averageScoreExcludingFailures.toFixed(2)}/10 (${runsExcludingFailures.length}/${validRuns.length} runs)`,
+    )
     console.log(`  Average Cost: ${data.averageCost.toFixed(4)}`)
     console.log(
       `  Average Duration: ${(data.averageDuration / 1000).toFixed(1)}s`,
diff --git a/evals/buffbench/types.ts b/evals/buffbench/types.ts
@@ -77,6 +77,7 @@ export interface AgentEvalResults {
   agentId: string
   runs: EvalRun[]
   averageScore: number
+  averageScoreExcludingFailures: number
   averageCost: number
   averageDuration: number
 }

Original file line number	Diff line number	Diff line change
`@@ -77,6 +77,7 @@ export interface AgentEvalResults {`
`77`	`77`	`agentId: string`
`78`	`78`	`runs: EvalRun[]`
`79`	`79`	`averageScore: number`
	`80`	`+ averageScoreExcludingFailures: number`
`80`	`81`	`averageCost: number`
`81`	`82`	`averageDuration: number`
`82`	`83`	`}`