使用 ONNX Runtime 與 DirectML 加速 ResNet50 影像分類推理

Posted on Fri 12 January 2024 in Machine Learning

背景

由於最近生成式 AI 的興起，如 ChatGPT 與 DALL·E，微軟攜手廠商們開始推廣 AI PC。因此，客戶端 ( 邊緣 ) 裝置的 AI 模型推理速度變得很重要。為了實現加速推理各種的 AI 模型，ONNX Runtime 是微軟與 Meta 等公司主推的 AI 加速方案。所以我這裡就來測試如何使用 ONNX Runtime 實現對 ResNet50 分類器的加速推理。

ONNX Runtime

ONNX Runtime 是一種跨平台的 AI 加速框架，支援主流的作業系統與程式語言，以及主流的深度學習框架所訓練出來的模型，如 PyTorch 與 TensorFlow。 ONNX 支援多種的加速方式 (Execution Providers, EP)，常見的像是 CPU, CUDA, DirectML 等等，其餘的 EP 與細節可以參考官方的文件。這裡以 DirectML EP 來實作，因為 DirectML 理論上可以支援所有相容 DirectX 12 的 GPU，應該在 Windows 上有最好的泛用性。

實作

這裡以官方的 ResNet50 C# 範例為基礎來實作。由於範例的文件比較舊，我做了一些修改以適用最新版本的 ONNX 與執行環境。

環境準備

安裝 Visual Studio 2022 (VS) 或更新的版本。
在 VS 中創建一個 C# Console App，.NET 版本選擇 6.0 或更高。
在方案的相依性安裝支援 DirectML 的 ONNX Runtime。
安裝前處理用的相依性。
下載 ONNX 模型檔案。
下載一張待推理的影像，或其他影像。

程式碼

先準備分類標籤。
主程式 Program.cs：

using System;
using System.Collections.Generic;
using System.Linq;
using Microsoft.ML.OnnxRuntime.Tensors;
using SixLabors.ImageSharp;
using SixLabors.ImageSharp.PixelFormats;
using SixLabors.ImageSharp.Processing;
using static System.Net.Mime.MediaTypeNames;

namespace Microsoft.ML.OnnxRuntime.ResNet50v2Sample
{
    class Program
    {
        public static void Main(string[] args)
        {
            // Read paths
            string modelFilePath = "Path\\to\\model\\resnet50-v2-7.onnx";
            string imageFilePath = "Path\\to\\image\\dog.jpeg";

            // Read image
            using Image<Rgb24> image = SixLabors.ImageSharp.Image.Load<Rgb24>(imageFilePath);

            // Resize image
            image.Mutate(x =>
            {
                x.Resize(new ResizeOptions
                {
                    Size = new Size(224, 224),
                    Mode = ResizeMode.Crop
                });
            });

            // Preprocess image
            Tensor<float> input = new DenseTensor<float>(new[] { 1, 3, 224, 224 });
            var mean = new[] { 0.485f, 0.456f, 0.406f };
            var stddev = new[] { 0.229f, 0.224f, 0.225f };
            image.ProcessPixelRows(accessor =>
            {
                for (int y = 0; y < accessor.Height; y++)
                {
                    Span<Rgb24> pixelSpan = accessor.GetRowSpan(y);
                    for (int x = 0; x < accessor.Width; x++)
                    {
                        input[0, 0, y, x] = ((pixelSpan[x].R / 255f) - mean[0]) / stddev[0];
                        input[0, 1, y, x] = ((pixelSpan[x].G / 255f) - mean[1]) / stddev[1];
                        input[0, 2, y, x] = ((pixelSpan[x].B / 255f) - mean[2]) / stddev[2];
                    }
                }
            });

            // Setup inputs
            var inputs = new List<NamedOnnxValue>
            {
                NamedOnnxValue.CreateFromTensor("data", input)
            };

            // Enable the DirectML EP
            SessionOptions sessionOptions = new SessionOptions();
            sessionOptions.GraphOptimizationLevel = GraphOptimizationLevel.ORT_ENABLE_ALL;
            sessionOptions.AppendExecutionProvider_DML(0);

            // Run inference
            using var session = new InferenceSession(modelFilePath, sessionOptions);
            using IDisposableReadOnlyCollection<DisposableNamedOnnxValue> results = session.Run(inputs);

            // Postprocess to get softmax vector
            IEnumerable<float> output = results.First().AsEnumerable<float>();
            float sum = output.Sum(x => (float)Math.Exp(x));
            IEnumerable<float> softmax = output.Select(x => (float)Math.Exp(x) / sum);

            // Extract top 10 predicted classes
            IEnumerable<Prediction> top10 = softmax.Select((x, i) => new Prediction { Label = LabelMap.Labels[i], Confidence = x })
                               .OrderByDescending(x => x.Confidence)
                               .Take(10);

            // Print results to console
            Console.WriteLine("Top 10 predictions for ResNet50 v2...");
            Console.WriteLine("--------------------------------------------------------------");
            foreach (var t in top10)
            {
                Console.WriteLine($"Label: {t.Label}, Confidence: {t.Confidence}");
            }
        }
    }

    internal class Prediction
    {
        public string Label { get; set; }
        public float Confidence { get; set; }
    }
}

輸出結果：

Top 10 predictions for ResNet50 v2...
--------------------------------------------------------------
Label: Golden Retriever, Confidence: 0.70073485
Label: Kuvasz, Confidence: 0.17292742
Label: Otterhound, Confidence: 0.019890321
Label: Clumber Spaniel, Confidence: 0.018660849
Label: Saluki, Confidence: 0.011093369
Label: Sussex Spaniel, Confidence: 0.0072962483
Label: Labrador Retriever, Confidence: 0.007059277
Label: Pyrenean Mountain Dog, Confidence: 0.006370869
Label: Tibetan Terrier, Confidence: 0.006168284
Label: English Setter, Confidence: 0.004178419

心得

經過測試，此範例在 NVIDIA RTX 4070、Intel Iris Xe Graphics (Intel Core i5-11300H)，甚至是高通的 Adreno 8CX Gen 3 (Microsoft SQ 3)，雖然在 SQ3 上會回報未知的 ARM CPU，但都可以順利執行加速推理。在這個簡單的分類器範例，DirectML 的相容性看起來不錯，希望微軟持續維護 DirectML EP。

背景

ONNX Runtime

實作

環境準備

程式碼

心得

你可能也感興趣