Merge pull request #5975 from bcgov/feat/5934

junminahn · web-flow · commit 07dc652cda7a · 2025-07-03T09:22:01.000-07:00
feat(5879): investigate retrieval of cluster-level resource status on…
diff --git a/app/app/api/v1/private-cloud/metrics/route.ts b/app/app/api/v1/private-cloud/metrics/route.ts
@@ -0,0 +1,46 @@
+import { z } from 'zod';
+import { GlobalRole } from '@/constants';
+import createApiHandler from '@/core/api-handler';
+import { OkResponse } from '@/core/responses';
+import { Cluster } from '@/prisma/client';
+import { queryCapacity, queryAllocatable, queryCpuRequests, queryCpuUsage } from '@/services/k8s/metrics/core';
+
+const queryParamSchema = z.object({
+  cluster: z.nativeEnum(Cluster),
+});
+
+export const GET = createApiHandler({
+  roles: [GlobalRole.Admin],
+  useServiceAccount: true,
+  validations: { queryParams: queryParamSchema },
+})(async ({ queryParams }) => {
+  const { cluster } = queryParams;
+
+  // See https://docs.redhat.com/en/documentation/openshift_container_platform/4.19/html/nodes/nodes-dashboard-using
+  const [capacityRes, allocatableRes, requestsRes, usageRes] = await Promise.all([
+    queryCapacity(cluster),
+    queryAllocatable(cluster),
+    queryCpuRequests(cluster),
+    queryCpuUsage(cluster),
+  ]);
+
+  const capacity = Number(capacityRes[0]?.value[1] || 0);
+  const allocatable = Number(allocatableRes[0]?.value[1] || 0);
+  const requests = Number(requestsRes[0]?.value[1] || 0);
+  const usage = Number(usageRes[0]?.value[1] || 0);
+
+  // | Term            | Meaning                                                            |
+  // | --------------- | ------------------------------------------------------------------ |
+  // | **Capacity**    | The full amount of a resource on the node (e.g., total CPU/memory) |
+  // | **Allocatable** | The portion of that resource Kubernetes allows for pod scheduling  |
+  // | **Requests**    | The amount of resource that pods ask for                           |
+  // | **Usage**       | The actual usage by running containers                             |
+  return OkResponse({
+    capacity,
+    allocatable,
+    requests,
+    usage,
+    requestUtilization: (requests / allocatable) * 100,
+    usageEfficiency: (usage / requests) * 100,
+  });
+});
diff --git a/app/services/k8s/metrics/core.ts b/app/services/k8s/metrics/core.ts
@@ -44,8 +44,68 @@ export async function queryPrometheus(query: string, cluster: Cluster) {
 
   const response = await axios.get<PrometheusQueryResponse>(`${METRICS_URL}/api/v1/query`, {
     headers: { Authorization: `Bearer ${METRICS_TOKEN}` },
-    params: { query },
+    params: { query: query.trim() },
   });
 
   return response.data.data.result;
 }
+
+export function queryCapacity(cluster: Cluster) {
+  return queryPrometheus(
+    `
+  sum
+  (
+    kube_node_status_capacity{resource="cpu", unit="core"}
+    and on(node) kube_node_role{role="worker"}
+  )
+`,
+    cluster,
+  );
+}
+
+export function queryAllocatable(cluster: Cluster) {
+  return queryPrometheus(
+    `
+  sum
+  (
+    kube_node_status_allocatable{resource="cpu", unit="core"}
+    and on(node) kube_node_role{role="worker"}
+  )
+`,
+    cluster,
+  );
+}
+
+export function queryCpuRequests(cluster: Cluster) {
+  return queryPrometheus(
+    `
+  sum
+  (
+    (
+      kube_pod_container_resource_requests{resource="cpu", unit="core"}
+      * on(namespace, pod) group_left()
+      max(kube_pod_status_phase{phase=~"Running|Pending"} == 1) by (namespace, pod)
+    )
+    and on(node) kube_node_role{role="worker"}
+  )
+`,
+    cluster,
+  );
+}
+
+export function queryCpuUsage(cluster: Cluster) {
+  return queryPrometheus(
+    `
+  sum
+  (
+    (
+      rate(container_cpu_usage_seconds_total{container!="", image!=""}[5m])
+      * on(namespace, pod) group_left()
+      max(kube_pod_status_phase{phase=~"Running|Pending"} == 1) by (namespace, pod)
+    )
+    and on(node) kube_node_role{role="worker"}
+  )
+`,
+    cluster,
+  );
+}