Edge-KI-Defekterkennungssystem: Echtzeit-Qualitatskontrolle auf ARM-Chips

Key Metrics

Inferenzlatenz unter 10 ms — erfullt die Anforderungen der Echtzeiterkennung bei Hochgeschwindigkeitsproduktionslinien mit 120 Bildern pro Sekunde
Defekterkennungsgenauigkeit von 99,2 %, Falsch-Positiv-Rate unter 0,3 % — ubertrifft die Leistung erfahrener Qualitatskontrollmitarbeiter
Modell auf 198 KB komprimiert, erfolgreich auf ARM Cortex-M7 Mikrocontroller (512 KB Flash / 256 KB SRAM) bereitgestellt
Jahresqualitatskosten pro Produktionslinie um rund NT$12 Mio. gesenkt, Amortisationsdauer 4,5 Monate

1. Herausforderung: Echtzeitanforderungen an die Qualitatskontrolle in der Produktionslinie

In Hochgeschwindigkeits-Automatisierungslinien liegt der Kernkonflikt der Qualitatsprufung im Spannungsfeld zwischen „Geschwindigkeit" und „Prazision". Herkommliche maschinelle Bildverarbeitungssysteme — regelbasierte Bildverarbeitungsalgorithmen — sind zwar schnell genug, erreichen bei komplexen Defekttypen (Oberflachenkratzer, Farbabweichungen, Mikrorisse) jedoch haufig unzureichende Genauigkeitsraten. Auf Deep Learning basierende Defekterkennungsmodelle bieten zwar hohe Genauigkeit, benotigen aber typischerweise GPU-Rechenressourcen, was zu hoher Inferenzlatenz, hohen Bereitstellungskosten pro Einheit und damit zu fehlender Skalierbarkeit auf jede Prufstation fuhrt.

Unser Kunde ist ein Hersteller von Prazisionselektronikkomponenten, dessen Produktionslinie eine Geschwindigkeit von 120 Teilen pro Sekunde aufweist. Dies bedeutet, dass das Pruffenster pro Teil lediglich 8,3 ms betragt. Die bestehende manuelle Sichtprufung erreichte lediglich eine Abdeckung von 15 % (Stichproben), wobei die Fehlquote aufgrund von Ermudung des Personals in den spateren Schichtphasen deutlich anstieg. Der Kunde hatte die Moglichkeit evaluiert, GPU-Server neben der Produktionslinie aufzustellen, doch allein die Hardwarekosten pro Prufstation lagen bei uber NT$500.000 — hinzu kamen Kuhl- und Wartungsanforderungen, die einen flachendeckenden Einsatz an allen 40 Prufstationen im Werk unmoglich machten.

Die Anforderung des Kunden war eindeutig: Bei Hardwarekosten von maximal NT$3.000 eine 100-%-Vollprufung jedes Teils realisieren, mit einer Inferenzlatenz unter 10 ms und einer Genauigkeit von mindestens 99 %. Dies legte das Bereitstellungsziel des Erkennungsmodells auf die ARM-Cortex-M-Mikrocontroller-Reihe fest — eine Umgebung mit nur einigen Hundert KB Speicher.

2. Technische Losung: TinyML-Defekterkennungsarchitektur

Die Bereitstellung von Deep-Learning-Modellen auf Mikrocontrollern — bekannt als TinyML — ist eine der anspruchsvollsten Forschungsrichtungen im Bereich Edge-KI der letzten Jahre. Lin et al. zeigten mit ihrer auf der NeurIPS 2020 veroffentlichten Arbeit MCUNet^[1] erstmals die Moglichkeit, neuronale Netze auf ImageNet-Niveau auf Mikrocontrollern mit lediglich 256 KB Speicher auszufuhren. Die Kerninnovation lag in der gleichzeitigen Suche nach optimaler Netzwerkarchitektur und Inferenz-Scheduling.

2.1 Datensatzaufbau und Annotierungsstrategie

Hochwertige Defekterkennung beginnt mit hochwertigen Trainingsdaten. Der von Bergmann et al. veroffentlichte Datensatz MVTec AD^[6] ist der Standard-Benchmark im Bereich der industriellen Defekterkennung und umfasst 15 verschiedene Kategorien industrieller Produkte mit entsprechenden Defektproben. Wir nutzten diesen als methodologische Referenz und erstellten fur den Kunden einen massgeschneiderten Produktdefekt-Datensatz.

Wahrend der dreiwochigen Datenerfassungsphase installierten wir industrielle Hochgeschwindigkeitskameras an der Produktionslinie des Kunden und nahmen mit einer Rate von 200 Bildern pro Sekunde kontinuierlich uber 5 Millionen Produktbilder auf. In enger Zusammenarbeit mit dem Qualitatskontrollteam definierten wir 12 Defekttypen und etablierten einen dreistufigen Annotierungsprozess: Annotierungsmitarbeiter der ersten Ebene markierten verdachtige Defektbereiche, erfahrene Qualitatskontrollmitarbeiter bestatigten die Defektklassifizierung, und Algorithmus-Ingenieure validierten die Annotierungsqualitat. Der finale bereinigte Datensatz umfasste 42.000 annotierte Bilder, wobei der Anteil an Defektproben bei etwa 8 % lag.

2.2 Auswahl des Basismodells

Angesichts der extremen Speicherbeschrankungen von Mikrocontrollern nahmen wir die von Howard et al. vorgeschlagene MobileNet-Architektur^[3] als Ausgangspunkt. Das Design der Depthwise Separable Convolution von MobileNet reduziert den Rechenaufwand einer Standardfaltung um das 8- bis 9-Fache und ist damit eine der am besten fur ressourcenbeschrankte Umgebungen geeigneten Faltungsarchitekturen.

Allerdings erreicht die kleinste Version von Standard-MobileNet V1 (Breitenmultiplikator 0,25) auf ImageNet eine Klassifizierungsgenauigkeit von nur etwa 50 % — weit entfernt von der Anforderung einer 99-%-Genauigkeit bei der industriellen Defekterkennung. Daher verwendeten wir nicht direkt eine bestehende Architektur, sondern kombinierten den Ansatz der Architektursuche von MCUNet mit einer gezielten Neural Architecture Search (NAS) fur die Defektklassifizierungsaufgabe des Kunden, wobei der Suchraum auf das Speicher- und Rechenbudget der Zielhardware beschrankt wurde.

3. Modellkomprimierung: Von PyTorch zum ARM Cortex-M

Selbst nach der Architektursuche uberschritt das gefundene optimale Modell das Speicherbudget der Zielhardware. Die von Han et al. auf der ICLR 2016 veroffentlichte Arbeit Deep Compression^[2] schlug eine dreistufige Kompressions-Pipeline vor — „Pruning — Quantisierung — Huffman-Codierung" — und lieferte uns eine systematische Komprimierungsmethodik.

3.1 Strukturiertes Pruning

Zunachst fuhrten wir ein strukturiertes Pruning des trainierten Modells durch. Im Gegensatz zum unstrukturierten Pruning (bei dem einzelne Gewichte auf Null gesetzt werden) entfernt strukturiertes Pruning ganze Faltungskerne oder Kanale, sodass das beschnittene Modell weiterhin ein standardmassiges dichtes neuronales Netz bleibt und keine spezielle Hardware fur Sparse-Berechnungen erfordert. Wir verwendeten eine gradientenbasierte Wichtigkeitsbewertungsmethode und entfernten schrittweise die Kanale mit dem geringsten Beitrag zur finalen Klassifizierung. Bei einer Modellgroessenreduzierung um 60 % sank die Genauigkeit lediglich um 0,4 %.

3.2 Post-Training-Quantisierung

Das nach dem Pruning verbleibende Modell verwendete weiterhin 32-Bit-Gleitkommazahlen fur Gewichte und Aktivierungswerte. Sze et al. analysieren in ihrem Uberblicksartikel in den Proceedings of the IEEE^[5] eingehend die Auswirkungen verschiedener Quantisierungsstrategien auf Modellperformance und Hardware-Effizienz. Wir setzten eine INT8-symmetrische Quantisierungsstrategie ein, die jedes Gewicht und jeden Aktivierungswert von 32 Bit auf 8 Bit komprimierte — eine weitere 4-fache Reduzierung der Modellgroesse.

Die zentrale Herausforderung bei der Quantisierung liegt in der Kalibrierung — der Bestimmung des Quantisierungsbereichs (Scale und Zero-Point) fur jede Schicht, um den Quantisierungsfehler zu minimieren. Wir verwendeten einen Kalibrierungsdatensatz von rund 1.000 reprasentativen Bildern, der alle Defekttypen und Normalprodukte abdeckte. Nach der Quantisierung betrug der Genauigkeitsverlust auf dem Validierungsdatensatz lediglich 0,2 % — weit innerhalb des akzeptablen Bereichs.

3.3 Bereitstellung auf TensorFlow Lite Micro

David et al. stellten in ihrem auf der MLSys 2021 veroffentlichten Beitrag TensorFlow Lite Micro (TFLM)^[7] eine speziell fur Mikrocontroller konzipierte leichtgewichtige Inferenz-Engine vor. Das Kerndesignprinzip von TFLM ist die vollstandige Vermeidung dynamischer Speicherzuweisung — samtlicher wahrend der Inferenz benotigter Speicher wird bereits zur Kompilierzeit festgelegt, was fur Bare-Metal-Umgebungen ohne Betriebssystem von entscheidender Bedeutung ist.

Wir konvertierten das quantisierte Modell in das TensorFlow Lite FlatBuffer-Format und integrierten es in die Firmware-Entwicklungsumgebung des Kunden. Das final bereitgestellte Modell hatte eine Groesse von 198 KB (einschliesslich Modellgewichten und Inferenz-Engine-Code), mit einer Spitzenspeicherauslastung von 187 KB — vollstandig innerhalb des Ressourcenbudgets des ARM Cortex-M7 (512 KB Flash / 256 KB SRAM).

4. Bereitstellungsergebnisse

Das System ging nach einem zweimonatigen Paralleltestbetrieb auf der Produktionslinie des Kunden (KI-Erkennungsergebnisse und manuelle Sichtprufungsergebnisse wurden gleichzeitig erfasst und kreuzvalidiert) offiziell in Betrieb. Der von Banbury et al. vorgeschlagene MLPerf Tiny Benchmark^[4] lieferte uns eine standardisierte Methodik zur Leistungsmessung. Im Folgenden die tatsachlichen Messergebnisse aus der Produktionsumgebung:

Inferenzlatenz: Inferenzzeit pro Einzelbild 7,8 ms (Durchschnitt), Maximum 9,4 ms — stabil unter der 10-ms-Schwelle. Bei einer Produktionsliniengeschwindigkeit von 120 Teilen pro Sekunde verfugt das System uber ausreichend Zeitreserve.
Erkennungsgenauigkeit: Gesamtgenauigkeit 99,2 %, davon Defekt-Recall 99,5 % und Precision 99,7 %. Im Vergleich dazu lag die durchschnittliche Genauigkeit der manuellen Sichtprufung bei 94,3 % und sank nach 4 Stunden kontinuierlicher Arbeit auf 89,7 %.
Falsch-Positiv-Rate: 0,3 %, d. h. von 1.000 einwandfreien Teilen werden durchschnittlich 3 falschlicherweise als defekt eingestuft. Diese Fehlalarme durchlaufen einen sekundaren manuellen Uberprufungsprozess und verursachen keinen tatsachlichen Verlust.
Hardwarekosten: Die eingebetteten Hardwarekosten pro Prufstation betragen NT$2.800 (einschliesslich MCU-Entwicklungsboard, Industriekameramodul und Verkabelung) — weit unter den NT$500.000+ der GPU-Losung.
Energieverbrauch: Die Leistungsaufnahme einer einzelnen Prufstation betragt lediglich 0,8 W. Ein zusatzliches Kuhlsystem ist nicht erforderlich, sodass ein 7x24-Stunden-Dauerbetrieb moglich ist.

5. Skalierbare Bereitstellung und kontinuierlicher Lernmechanismus

5.1 Werkweite Bereitstellungsstrategie

Basierend auf den validierten Ergebnissen der Pilotstation entschied sich der Kunde fur die flachendeckende Bereitstellung an allen 40 Prufstationen im Werk. Wir entwickelten eine standardisierte Bereitstellungs-Toolchain: Uber einen OTA-Mechanismus (Over-The-Air) zur Firmware-Aktualisierung kann die Modellbereitstellung oder -aktualisierung einer einzelnen Station innerhalb von 15 Minuten abgeschlossen werden, ohne den Produktionsbetrieb zu beeintrachtigen. Die werkweite Bereitstellung wurde innerhalb von zwei Wochen abgeschlossen.

5.2 Kontinuierliches Lernen und Modelliteration

In industriellen Umgebungen bleiben Defekttypen nicht unverandert — neue Rohstoffchargen, Prozessparameteranpassungen und veranderte Umgebungsbedingungen konnen zu neuartigen Defekten fuhren. Wir etablierten einen geschlossenen Kreislauf aus „Edge-Erfassung — Cloud-Training — Edge-Bereitstellung" fur kontinuierliches Lernen:

Edge-Erfassung: Jede Prufstation sammelt automatisch Bilder mit niedrigem Konfidenzwert (Modellausgabewahrscheinlichkeit zwischen 0,3 und 0,7) und markiert sie als zu prufende Proben.
Cloud-Annotation und Neutraining: Wochentlich werden die zu prufenden Proben auf die Cloud-Plattform hochgeladen, vom Qualitatskontrollpersonal annotiert und in den Trainingsdatensatz aufgenommen. Das Modell wird alle zwei Wochen inkrementell trainiert und komprimiert.
OTA-Modellaktualisierung: Nach erfolgter Offline-Validierung (Genauigkeit nicht niedriger als die aktuelle Version) wird das neue Modell uber den OTA-Mechanismus an alle Stationen ausgerollt.

Seit dem Launch vor sechs Monaten hat das Modell bereits 12 Iterationsaktualisierungen durchlaufen. Die Abdeckung der Defekttypen wurde von anfanglich 12 auf 19 erweitert, und die Genauigkeit stieg leicht von 99,2 % auf 99,4 %.

5.3 Wirtschaftlicher Nutzen

Die Jahreseffizienzbewertung nach werkweiter Bereitstellung zeigt: Die qualitatsbezogenen Kosten (einschliesslich Reklamationsbearbeitung fur ubersehene Defektprodukte, Retourenverluste und Personalkosten fur die Qualitatskontrolle) sanken von jahrlich NT$24 Mio. auf NT$12 Mio. — ein Ruckgang um 50 %. Die gesamten Hardwareinvestitionen fur alle 40 Stationen beliefen sich auf NT$112.000; zusammen mit den Entwicklungs- und Integrationskosten ergibt sich eine Gesamtamortisationsdauer von etwa 4,5 Monaten.

Noch bedeutsamer ist, dass die 100-%-Vollpruffahigkeit dem Kunden ermoglichte, seinen Endkunden strengere Qualitatsgarantien anzubieten, was unmittelbar zum Abschluss zweier Grossauftrage fuhrte, deren Vertragswert die Investition in das Qualitatssystem bei Weitem ubersteigt.

Edge-KI-Defekterkennungssystem: Echtzeit-Qualitatskontrolle auf ARM-Chips

1. Herausforderung: Echtzeitanforderungen an die Qualitatskontrolle in der Produktionslinie

2. Technische Losung: TinyML-Defekterkennungsarchitektur