TinyMLの実践：ディープラーニングをMCUに圧縮するためのエンジニアリング手法とパフォーマンスベンチマーク

主要発見

INT8量子化により、モデルサイズをオリジナルの25%に圧縮しつつ精度損失はわずか0.3～1.2%
構造化プルーニングと量子化の組み合わせにより、256KB FlashのCortex-M4上に93%精度の画像分類モデルをデプロイ可能
ResNet-50教師モデルからMCUNet生徒モデルへの知識蒸留により、ImageNetサブセットで教師モデルの精度の94.7%を維持
TensorFlow Lite Microは、Cortex-M7上でのキーワードスポッティングタスクにおいて23ms/フレームの推論レイテンシを実現し、リアルタイム処理要件を達成

1. TinyMLの定義と産業的意義

TinyML――わずか数ミリワットの消費電力のマイクロコントローラ（MCU）上に機械学習モデルをデプロイすること――は、エッジインテリジェンスの境界を再定義しつつあります。WardenとSitunayakeは画期的な著書の中でTinyMLを定義しました^[1]。「超低消費電力デバイス上で機械学習推論を実行する技術と手法」であり、コア目標は、産業用センサーからウェアラブルデバイスまで、展開済みの数十億の組み込みデバイスがクラウド接続に依存せずにローカルでインテリジェントな判断を行えるようにすることです。

この目標の産業的意義は計り知れません。ARMの推定によると、グローバルで毎年300億以上のMCUが出荷されていますが、AI推論能力を備えているのは1%未満です。この割合を大幅に引き上げることができれば、「ユビキタスなエッジインテリジェンス」というまったく新しいエコシステムを触媒することになるでしょう――予知保全、異常検出から、音声ウェイクアップ、ジェスチャー認識まで、これまで「AIを使うにはネットワーク接続が必要」という理由で実現不可能だった無数のアプリケーションシナリオが解放されます。

しかし、TinyMLが直面するエンジニアリング課題は手強いものです。典型的なMCU――ARM Cortex-M4など――は、256KBのFlashメモリと64KBのSRAMしか持たず、クロック周波数は80～168MHzです。比較として、標準的なResNet-50モデルは97MB以上のストレージと3.8GFLOPSの計算を必要とします。ディープラーニングモデルを数百倍に圧縮しながら、許容可能な推論品質を維持するにはどうすればよいか？これが本テクニカルレポートが答えようとするコア問題です。

2. モデル圧縮の三部作：プルーニング、量子化、蒸留

2.1 構造化プルーニング：冗長なニューロンの除去

Hanらは画期的な「Deep Compression」論文の中で^[2]、プルーニング、量子化、ハフマン符号化の3段階モデル圧縮パイプラインを提案し、AlexNetを35倍、VGG-16を49倍に圧縮しながら精度の損失をほぼゼロに抑えました。この研究はモデル圧縮分野全体の技術的基盤を築きました。

TinyMLの実践では、主に「構造化プルーニング」――重要でない畳み込みフィルタや全結合層のニューロンを丸ごと除去すること――を採用しています。「非構造化プルーニング」（個々の重みを除去）ではありません。その理由は、非構造化プルーニングが生成するスパース行列はMCU上で効率的に活用することが困難だからです――MCUはスパース計算のための専用ハードウェアを持たず、スパースインデックスの追加メモリオーバーヘッドは実際には逆効果になり得ます。構造化プルーニングは計算グラフの次元を直接削減し、あらゆるハードウェアで具体的な高速化を実現します。

プルーニング戦略はL1ノルム重要度スコアリングに基づいています――各畳み込みフィルタの重みのL1ノルムを計算し、最もノルムが小さいフィルタを最も重要度が低いものとして除去します。MobileNetV2において、精度のドロップをわずか1.8%に抑えながら40%のフィルタを安全に除去できることが判明しました。さらなるファインチューニングにより、損失を0.6%以内に回復できます。

2.2 量子化：浮動小数点から整数へ

量子化はTinyMLにおいて最も重要な圧縮技術です。JacobらがCVPR 2018で発表した研究^[4]は、ニューラルネットワークの重みと活性化値を32ビット浮動小数点（FP32）から8ビット整数（INT8）に変換する完全な量子化スキームを提案し、整数演算のみで推論を実行可能にしました。この技術は3つの利点を提供します。モデルサイズがオリジナルの25%に削減、推論速度が2～4倍向上（MCUの整数演算ユニットを活用）、消費電力が約30%削減です。

実践では、2つの量子化戦略をテストしました。「訓練後量子化」（PTQ）は最もシンプルな方法です――モデルの訓練完了後、少数のキャリブレーションデータセット（通常100～500サンプル）を使用して各レイヤーの活性化値の分布を統計的に特性化し、量子化パラメータを決定します。PTQの利点は再訓練が不要なことですが、特定のモデルでは2～3%の精度損失が発生する場合があります。

「量子化認識訓練」（QAT）は、訓練中に量子化効果をシミュレートし、モデルが低精度の数値表現に適応することを学習させます。QATは通常、精度損失を0.5%以内に抑えることができますが、追加の訓練時間が必要です。極端にメモリ制約のあるMCUにデプロイするモデルについては、QATの使用を強く推奨します。

2.3 知識蒸留：巨人の肩の上に立つ

知識蒸留は、2015年にHintonらにより提案された^[3]エレガントなモデル圧縮手法です――大きな「教師モデル」の出力分布を使用して、小さな「生徒モデル」の訓練を導きます。コアとなる直感は、教師モデルの出力分布が単純な正解ラベルよりも豊富な情報を含んでいるということです――例えば、猫の画像が教師モデルによって分類される際、「犬」に対する確率は「車」よりもはるかに高い可能性があり、これらの「ソフトラベル」における相対的な関係は、カテゴリ間のセマンティック類似性情報を含んでいます。

私たちのTinyMLパイプラインでは、知識蒸留は「ブリッジ」の役割を果たします――大規模なクラウドモデルからMCU上にデプロイ可能な小型モデルへの知識の転送です。具体的には、ResNet-50（25.6Mパラメータ）を教師モデルとして、MCUNet^[5]アーキテクチャのバリアント（0.74Mパラメータ）を生徒モデルとして使用しました。蒸留損失関数はハードラベルのクロスエントロピーとソフトラベルのKLダイバージェンスを組み合わせ、温度パラメータはT=4に設定しました。

結果は有望でした。50クラスのImageNetサブセットにおいて、直接訓練されたMCUNetは71.3%の精度を達成し、蒸留されたMCUNetは76.8%に向上して、教師モデルの精度（81.1%）の94.7%を維持しました。さらに重要なことに、蒸留モデルは曖昧なケースで顕著な改善を示し、キャリブレーション誤差が42%減少しました。

3. デプロイメントパイプライン：PyTorchからARM Cortex-Mへ

3.1 モデル変換パイプライン

PyTorchで訓練されたモデルをCortex-M MCUにデプロイするには、以下の変換ステップが必要です。PyTorch -> ONNX -> TensorFlow -> TensorFlow Lite -> TensorFlow Lite Micro（TFLM）。DavidらがMLSys 2021で発表したTFLMフレームワーク^[7]は、MCU上にディープラーニングモデルをデプロイするための現在のデファクトスタンダードです――動的メモリ割り当てに依存しない極めてリーンな推論エンジンを提供し、標準Cライブラリを使用せず、主要なARM Cortex-MシリーズのCMSIS-NNアクセラレーションをサポートしています。

各変換ステップは精度誤差を導入する可能性があるため、パイプライン内にレイヤーごとの数値検証メカニズムを設計しました――各変換ステップの後に同じテスト入力を使用して各レイヤーの出力を比較し、相対誤差が1e-5以内（FP32）または1量子化レベル以内（INT8）であることを確認します。

3.2 メモリプランニング

MCU上のメモリ管理は、デスクトップ環境とは根本的に異なります。Flash（不揮発性メモリ）はモデルの重みを格納し、SRAM（揮発性メモリ）は推論中の活性化値を格納します。LinらはMCUNet論文の中で「TinyNAS + TinyEngine」の協調設計アプローチを提案しました^[5]――所与のメモリバジェット内で最適なモデルアーキテクチャを見つけるためにニューラルアーキテクチャサーチを使用しつつ、同時に活性化メモリの再利用を最大化するメモリ認識推論エンジンを設計するものです。

私たちの実践では、メモリプランニングは最も綿密な調整を必要とするステップです。STM32F407（1MB Flash、192KB SRAM）を例にとると、モデルの重みは512KB以下（アプリケーションコードやその他の機能のためのスペースを確保）に抑え、ピーク活性化メモリは128KB以下にする必要があります。これは、モデルの「幅」（各レイヤーのチャネル数）が精度要件だけでなく、SRAMサイズによるハード制約の影響も受けることを意味します。

3.3 ハードウェアアクセラレーションの活用

ARM Cortex-M7のFPU（浮動小数点演算ユニット）およびDSP（デジタル信号処理）命令セットは、ニューラルネットワークの推論を大幅に加速できます。私たちのTFLMデプロイメントではCMSIS-NNカーネルを使用しています――ARMがCortex-M向けに公式に最適化したニューラルネットワークアクセラレーションライブラリで、SIMD（Single Instruction Multiple Data）命令を活用して単一のクロックサイクルで複数のINT8積和演算を実行します。

ベンチマークによると、CMSIS-NNアクセラレーションはCortex-M7上で純粋なC実装に対して3.2倍の推論速度改善を実現し、Cortex-M4では2.4倍の改善を達成しています。

4. パフォーマンスベンチマーク結果

4.1 テストプラットフォームとタスク

3つのハードウェアプラットフォームで体系的なパフォーマンスベンチマークを実施しました。STM32F407（Cortex-M4、168MHz、1MB Flash、192KB SRAM）、STM32F746（Cortex-M7、216MHz、1MB Flash、320KB SRAM）、STM32H743（Cortex-M7、480MHz、2MB Flash、1MB SRAM）です。テストタスクは3つの代表的なシナリオをカバーしています。キーワードスポッティング（10クラス）、画像分類（50クラスImageNetサブセット）、異常音検出です。

BanburyらがNeurIPS 2021で発表したMLPerf Tinyベンチマーク^[6]は、TinyML分野の標準化されたパフォーマンス評価フレームワークを確立しました。私たちのテストはMLPerf Tinyの方法論に従い、結果の比較可能性を確保しています。

4.2 キーワードスポッティング

Google Speech Commandsデータセットを使用した10クラスのキーワードスポッティングタスクにおいて、私たちの圧縮パイプライン（構造化プルーニング + INT8量子化 + 知識蒸留）で生成されたモデルは、3つのプラットフォームで以下の性能を示しました。STM32F407で91.2%の精度と58msの推論レイテンシ、STM32F746で92.8%の精度と23msの推論レイテンシ、STM32H743で93.5%の精度と11msの推論レイテンシです。モデルサイズはわずか63KBで、すべてのターゲットプラットフォームに余裕を持って収まります。

4.3 画像分類

50クラスのImageNetサブセット画像分類タスクはより困難です。96x96 RGB入力解像度で、圧縮されたMCUNetバリアントのモデルサイズは348KBです。推論レイテンシはSTM32F407で412ms（リアルタイムアプリケーションには不向き）、STM32H743では87msに低下します（10フレーム/秒以上を要するアプリケーションでは許容可能）。精度に関しては、INT8量子化モデルが75.1%を達成し、FP32オリジナルモデルの76.8%に対してわずか1.7%の損失でした。

4.4 異常音検出

異常音検出はオートエンコーダアーキテクチャを使用し、モデルサイズはわずか28KBです。3つのプラットフォームすべてで10ms以下の推論レイテンシを達成し、AUC（Area Under the Curve）は0.94でした。このタスクは、産業用IoTの予知保全シナリオにおけるTinyMLの巨大な潜在力を実証しています――バッテリー駆動の音響センサーが、生のオーディオをクラウドにアップロードすることなく、ローカルで異常検出を実行できるのです。

5. ベストプラクティスと将来の方向性

5.1 エンジニアリングのベストプラクティス

実践的な経験に基づき、TinyMLデプロイメントのための以下のベストプラクティスを取りまとめました。

まず量子化、次にプルーニング：直感に反しますが、量子化認識訓練を先に実行し、次に構造化プルーニングを行う方が、逆の順序よりも最終的な精度が良いことが判明しました（平均0.8%の改善）。
キャリブレーションデータセットの代表性を優先：訓練後量子化の品質はキャリブレーションデータセットに大きく依存します。キャリブレーションセットがすべてのクラスの境界ケースをカバーすることを確認し、単純なサンプルのみを使用しないようにしてください。
エンドツーエンドの自動化パイプラインを構築：モデルの訓練からMCUへのデプロイメントまでのすべてのステップを自動化すべきです。レイヤーごとの数値検証とハードウェアインザループテストを含みます。
混合精度量子化を活用：すべてのレイヤーが同じ量子化精度を必要とするわけではありません。最初と最後のレイヤーは通常、量子化に対してより敏感であり、より高い精度（INT16）を維持できます。一方、中間レイヤーはINT8を使用します。

5.2 将来の方向性

TinyML分野は急速に進化しています。以下の3つの方向性が、今後2～3年以内にTinyMLの能力の境界を大きく押し広げると考えています。第一に、より先進的なニューラルアーキテクチャサーチ手法――LinらのMCUNetが先駆けたハードウェアアウェアNAS^[5]のような手法が、特定のMCUアーキテクチャ向けにさらに最適化されるでしょう。第二に、新興のバイナリ化・テルナリ化ネットワーク技術――量子化を1～2ビットまで押し進め、超低消費電力のCortex-M0+デバイスでのAI推論を可能にする潜在力があります。第三に、オンデバイス訓練――現在TinyMLの推論と訓練は分離されていますが、メモリと計算能力の向上に伴い、MCU上でのインクリメンタルなファインチューニングが可能になり、真に適応型のエッジインテリジェンスを実現するでしょう。

TinyMLは単なる技術的課題ではなく、思考パラダイムのシフトです――「より大きなモデル、より多くのデータ、より多くの計算」から「よりスマートなアーキテクチャ、より精密な圧縮、よりインテリジェントなデプロイメント」へ。このマインドセットの価値は、TinyML自体の応用領域をはるかに超えて広がっています。

TinyMLの実践：ディープラーニングをMCUに圧縮するためのエンジニアリング手法とパフォーマンスベンチマーク

1. TinyMLの定義と産業的意義