Add benchmarks scripts for Torch MultiQueue benchmarks

luszczewskakasia1 · luszczewskakasia1 · commit 7e5023c9dd72 · 2025-11-18T08:38:50.000Z
diff --git a/devops/scripts/benchmarks/benches/compute.py b/devops/scripts/benchmarks/benches/compute.py
@@ -315,6 +315,38 @@ def createRrBench(variant_name: str, **kwargs):
                 ),
             ]
 
+        for runtime in RUNTIMES:
+            if runtime != RUNTIMES.UR:
+
+                def createTorchMultiQueueBench(variant_name: str, **kwargs):
+                    return TorchMultiQueue(
+                        self,
+                        runtime,
+                        variant_name,
+                        PROFILERS.TIMER,
+                        **kwargs,
+                    )
+
+                benches += [
+                    createTorchMultiQueueBench(
+                        "large",
+                        workgroupCount=4096,
+                        workgroupSize=512,
+                        kernelsPerQueue=20,
+                    ),
+                    createTorchMultiQueueBench(
+                        "medium",
+                        workgroupCount=512,
+                        workgroupSize=256,
+                        kernelsPerQueue=10,
+                    ),
+                    createTorchMultiQueueBench(
+                        "small",
+                        workgroupCount=256,
+                        workgroupSize=124,
+                        kernelsPerQueue=4,
+                    ),
+                ]
         # Add UR-specific benchmarks
         benches += [
             # TODO: multithread_benchmark_ur fails with segfault
@@ -735,6 +767,48 @@ def _bin_args(self, run_trace: TracingType = TracingType.NONE) -> list[str]:
         return [f"--{k}={v}" for k, v in self._rr_params.items()]
 
 
+class TorchMultiQueue(ComputeBenchmark):
+    def __init__(
+        self, suite, runtime: RUNTIMES, variant_name: str, profiler_type, **kwargs
+    ):
+        self._variant_name = variant_name
+        self._smq_params = kwargs
+        self._iterations_regular = 1000
+        self._iterations_trace = 10
+        super().__init__(
+            suite,
+            f"torch_benchmark_{runtime.value}",
+            "KernelSubmitMultiQueue",
+            runtime,
+            profiler_type,
+        )
+
+    def explicit_group(self):
+        return f"{self._test} {self._variant_name}"
+
+    def display_name(self) -> str:
+        return f"{self.explicit_group()}_{self._runtime.value}"
+
+    def get_tags(self):
+        return [runtime_to_tag_name(self._runtime)]
+
+    def name(self):
+        ret = []
+        for k, v in self._smq_params.items():
+            ret.append(f"{k} {v}")
+        ret.sort()
+        return self._bench_name + " " + ", ".join(ret)
+
+    def _supported_runtimes(self) -> list[RUNTIMES]:
+        return super()._supported_runtimes() + [RUNTIMES.SYCL_PREVIEW]
+
+    def _bin_args(self, run_trace: TracingType = TracingType.NONE) -> list[str]:
+        iters = self._get_iters(run_trace)
+        return [f"--iterations={iters}"] + [
+            f"--{k}={v}" for k, v in self._smq_params.items()
+        ]
+
+
 class QueueInOrderMemcpy(ComputeBenchmark):
     def __init__(self, bench, isCopyOnly, source, destination, size, profiler_type):
         self._is_copy_only = isCopyOnly
diff --git a/devops/scripts/benchmarks/tests/test_integration.py b/devops/scripts/benchmarks/tests/test_integration.py
@@ -188,6 +188,26 @@ def test_submit_kernel(self):
             {"L0", "latency", "micro", "submit"},
         )
 
+    def test_torch_l0(self):
+        self._checkCase(
+            "torch_benchmark_l0 kernelsPerQueue 20, workgroupCount 4096, workgroupSize 512",
+            "KernelSubmitMultiQueue large",
+            {"L0"},
+        )
+
+    def test_torch_sycl(self):
+        self._checkCase(
+            "torch_benchmark_sycl kernelsPerQueue 20, workgroupCount 4096, workgroupSize 512",
+            "KernelSubmitMultiQueue large",
+            {"SYCL"},
+        )
+
+    def test_torch_syclpreview(self):
+        self._checkCase(
+            "torch_benchmark_syclpreview kernelsPerQueue 20, workgroupCount 4096, workgroupSize 512",
+            "KernelSubmitMultiQueue large",
+            {"SYCL"},
+        )
 
 if __name__ == "__main__":
     unittest.main()