Support AWS-neuron device and device-core allocation (#1238)

archlitchi · web-flow · commit 2ccf4129f056 · 2025-08-01T18:41:44.000+08:00
Implement aws-neuron device sharing and topology-awareness

Signed-off-by: limengxuan &lt;mengxuan.li@dynamia.ai&gt;
diff --git a/charts/hami/templates/scheduler/configmap.yaml b/charts/hami/templates/scheduler/configmap.yaml
@@ -57,6 +57,12 @@ data:
                     },
                     {{- end }}
                     {{- end }}
+                    {{- range .Values.devices.awsneuron.customresources }}
+                    {
+                      "name": "{{ . }}",
+                      "ignoredByScheduler": true
+                    },
+                    {{- end }}
                     {
                         "name": "{{ .Values.resourceName }}",
                         "ignoredByScheduler": true
diff --git a/charts/hami/templates/scheduler/configmapnew.yaml b/charts/hami/templates/scheduler/configmapnew.yaml
@@ -82,4 +82,8 @@ data:
         ignoredByScheduler: true
       {{- end }}
       {{- end }}
+      {{- range .Values.devices.awsneuron.customresources }}
+      - name: {{ . }}
+        ignoredByScheduler: true
+      {{- end }}
 {{- end }}
diff --git a/charts/hami/templates/scheduler/device-configmap.yaml b/charts/hami/templates/scheduler/device-configmap.yaml
@@ -111,6 +111,9 @@ data:
       resourceCoreName: {{ .Values.iluvatarResourceCore }}
     kunlun:
       resourceCountName: {{ .Values.kunlunResourceName }}
+    awsneuron:
+      resourceCountName: "aws.amazon.com/neuron"
+      resourceCoreName: "aws.amazon.com/neuroncore"
     vnpus:
     - chipName: 910B
       commonWord: Ascend910A
diff --git a/charts/hami/values.yaml b/charts/hami/values.yaml
@@ -335,6 +335,10 @@ devicePlugin:
 #        memory: 100Mi
 
 devices:
+  awsneuron:
+    customresources:
+      - aws.amazon.com/neuron
+      - aws.amazon.com/neuroncore
   kunlun:
     enabled: true
     customresources:
diff --git a/cmd/scheduler/metrics.go b/cmd/scheduler/metrics.go
@@ -221,7 +221,7 @@ func (cc ClusterManagerCollector) Collect(ch chan<- prometheus.Metric) {
 						ctrvGPUdeviceAllocatedMemoryDesc,
 						prometheus.GaugeValue,
 						float64(ctrdevval.Usedmem)*float64(1024)*float64(1024),
-						val.Namespace, val.NodeID, val.Name, fmt.Sprint(ctridx), ctrdevval.UUID, fmt.Sprint(ctrdevval.Usedcores))
+						val.Namespace, val.NodeID, val.Name, fmt.Sprint(ctridx), ctrdevval.UUID)
 					ch <- prometheus.MustNewConstMetric(
 						ctrvGPUdeviceAllocatedCoreDesc,
 						prometheus.GaugeValue,
diff --git a/examples/awsneuron/allocate_core.yaml b/examples/awsneuron/allocate_core.yaml
@@ -0,0 +1,18 @@
+apiVersion: v1
+kind: Pod
+metadata:
+  name: npod
+spec:
+  restartPolicy: Never
+  containers:
+    - name: npod
+      command: ["sleep","infinity"]
+      image: public.ecr.aws/neuron/pytorch-inference-neuron:1.13.1-neuron-py310-sdk2.20.2-ubuntu20.04
+      resources:
+        limits:
+          cpu: "4"
+          memory: 4Gi
+          aws.amazon.com/neuroncore: 1
+        requests:
+          cpu: "1"
+          memory: 1Gi
diff --git a/examples/awsneuron/allocate_dev.yaml b/examples/awsneuron/allocate_dev.yaml
@@ -0,0 +1,18 @@
+apiVersion: v1
+kind: Pod
+metadata:
+  name: nuropod
+spec:
+  restartPolicy: Never
+  containers:
+    - name: nuropod
+      command: ["sleep","infinity"]
+      image: public.ecr.aws/neuron/pytorch-inference-neuron:1.13.1-neuron-py310-sdk2.20.2-ubuntu20.04
+      resources:
+        limits:
+          cpu: "4"
+          memory: 4Gi
+          aws.amazon.com/neuron: 1
+        requests:
+          cpu: "1"
+          memory: 1Gi
diff --git a/examples/awsneuron/multi_containers.yaml b/examples/awsneuron/multi_containers.yaml
@@ -0,0 +1,28 @@
+apiVersion: v1
+kind: Pod
+metadata:
+  name: npod
+spec:
+  restartPolicy: Never
+  containers:
+    - name: npod1
+      command: ["sleep","infinity"]
+      image: public.ecr.aws/neuron/pytorch-inference-neuron:1.13.1-neuron-py310-sdk2.20.2-ubuntu20.04
+      resources:
+        limits:
+          cpu: "4"
+          memory: 4Gi
+          aws.amazon.com/neuroncore: 1
+        requests:
+          cpu: "1"
+    - name: npod
+      command: ["sleep","infinity"]
+      image: public.ecr.aws/neuron/pytorch-inference-neuron:1.13.1-neuron-py310-sdk2.20.2-ubuntu20.04
+      resources:
+        limits:
+          cpu: "4"
+          memory: 4Gi
+          aws.amazon.com/neuroncore: 1
+        requests:
+          cpu: "1"
+          memory: 1Gi
diff --git a/pkg/device/awsneuron/device.go b/pkg/device/awsneuron/device.go
diff --git a/pkg/device/awsneuron/device_test.go b/pkg/device/awsneuron/device_test.go
diff --git a/pkg/device/devices.go b/pkg/device/devices.go
diff --git a/pkg/device/devices_test.go b/pkg/device/devices_test.go