Grundlagenartikel 11.08.2024, 14:00 Uhr

Bilderkennung mit KI: Wie funktioniert das?

Entdecken Sie die Geschichte und die technischen Grundlagen der KI-gestützten Bilderkennung – von den Anfängen bis zu modernen Anwendungen in Medizin, Sicherheit und Industrie.

Bilderkennung KI

Wie erkennt eine KI, ob auf dem Bild ein Rettungsring oder ein Donut abgebildet ist?

Foto: PantherMedia / elenabs

Künstliche Intelligenz und maschinelles Lernen sind heute zentrale Diskussionsthemen und werden in den kommenden Jahren nahezu alle wirtschaftlichen Aktivitäten grundlegend verändern. Eine besonders faszinierende Anwendung von KI ist die Fähigkeit von Maschinen, ähnlich wie das menschliche Gehirn, Bilder zu verarbeiten, zu analysieren und ihnen Bedeutung zuzuordnen: die Bilderkennung. Doch wie funktioniert sie ganz genau? Seit wann gibt es sie und wofür lässt sie sich verwenden? Hier kommen die wichtigsten Antworten rund um KI-gestützte Bilderkennung.

Kurzer Überblick über die Geschichte der Bilderkennung

Die Geschichte der Bilderkennung ist eng mit den Fortschritten in der Neurophysiologie und der Computerentwicklung verbunden. Die ersten wichtigen Schritte in diese Richtung wurden Ende der 1950er Jahre unternommen. Ein wichtiger Meilenstein war die Arbeit der Neurophysiologen David Hubel und Torsten Wiesel, die 1959 die Antworteigenschaften visueller Neuronen im Gehirn von Katzen untersuchten. Sie entdeckten, dass das Erkennen von Bildern mit der Verarbeitung einfacher Strukturen wie Kanten beginnt – ein Prinzip, das noch heute in der Deep-Learning-Technologie Anwendung findet.

Parallel dazu entwickelte Russell Kirsch den ersten digitalen Fotoscanner, der es ermöglichte, Bilder in ein binäres Format umzuwandeln, das von Maschinen verarbeitet werden konnte. Diese Erfindung legte den Grundstein für die moderne digitale Bildverarbeitung.

Stellenangebote im Bereich Softwareentwicklung

Softwareentwicklung Jobs
Frankfurt University of Applied Sciences-Firmenlogo
Professur "Elektrotechnik, insbesondere Nachhaltige intelligente Systeme" Frankfurt University of Applied Sciences
Frankfurt am Main Zum Job 
Frankfurt University of Applied Sciences-Firmenlogo
Professur "Vernetzte Eingebettete Systeme" (w/m/d) Frankfurt University of Applied Sciences
Frankfurt am Main Zum Job 
Otto-von-Guericke-Universität Magdeburg-Firmenlogo
Projektingenieur*in (m/w/d) für Elektro- Fernmelde- und IT-Technik / Verantwortliche Elektrofachkraft VEFK Betriebstechnik Otto-von-Guericke-Universität Magdeburg
Magdeburg Zum Job 
Alhäuser + König Ingenieurbüro GmbH-Firmenlogo
Ingenieur:in für Elektrotechnik / Master / Bachelor /Diplom (m/w/d) Alhäuser + König Ingenieurbüro GmbH
Bonn, Hachenburg Zum Job 
Stadtwerke Rüsselsheim GmbH-Firmenlogo
Messtechniker als Spezialist Gerätemanagement Strom (m/w/d Stadtwerke Rüsselsheim GmbH
Rüsselsheim Zum Job 
Fachhochschule Münster-Firmenlogo
Professur "Medizinische Bildgebung und Mathematik" (w/m/d) Fachhochschule Münster
Steinfurt Zum Job 
Agile Robots SE-Firmenlogo
Senior Projektingenieur - Industrial Automation (m/w/d) Agile Robots SE
München Zum Job 
Universität Münster-Firmenlogo
Ingenieur*in / Techniker*in Elektrotechnik in der Abteilung 4.4 (Elektrische Gebäudeausrüstung) Universität Münster
Münster Zum Job 
Freie Universität Berlin-Firmenlogo
Referatsleiter*in (m/w/d) für die Betriebstechnik und die bauliche Unterhaltung (Ingenieur*in für Aufgaben des technischen Betriebes) Freie Universität Berlin
BG ETEM-Firmenlogo
Aufsichtsperson gemäß des § 18 SGB VII (m/w/d) für ein Aufsichtsgebiet in der Region Dinkelsbühl, Aalen, Schwäbisch-Hall in den Branchenkompetenzen Elektrotechnische Industrie und Feinmechanik BG ETEM
Nürnberg Zum Job 
STOPA Anlagenbau GmbH-Firmenlogo
Ingenieur / Techniker (m/w/d) Elektrotechnik / Automatisierungstechnik für Inbetriebnahme Außendienst (Elektrotechniker, Maschinenbauingenieur o. ä.) STOPA Anlagenbau GmbH
Achern-Gamshurst Zum Job 
Die Autobahn GmbH des Bundes-Firmenlogo
Projektingenieur (w/m/d) Elektrotechnik Die Autobahn GmbH des Bundes
Hamburg Zum Job 
Hochschule Esslingen - University of Applied Sciences-Firmenlogo
Professor:in (W2) für das Lehrgebiet "Automatisierungssysteme in Gebäude-, Energie- und Umwelttechnik" Hochschule Esslingen - University of Applied Sciences
Esslingen am Neckar Zum Job 
Christian-Albrechts-Universität zu Kiel-Firmenlogo
Ingenieur*in der Fachrichtung Versorgungstechnik/ Maschinenbau oder Elektrotechnik Christian-Albrechts-Universität zu Kiel
Broadcast Solutions GmbH-Firmenlogo
Elektroingenieur* in Vollzeit (m/w/d) Broadcast Solutions GmbH
Frankfurt University of Applied Sciences-Firmenlogo
Professur "Software Engineering - Moderne Verfahren" (w/m/d) Frankfurt University of Applied Sciences
Frankfurt am Main Zum Job 
Steinmeyer Mechatronik GmbH-Firmenlogo
Entwicklungsingenieur (m/w/d) Steinmeyer Mechatronik GmbH
Dresden Zum Job 
AbbVie Deutschland GmbH & Co. KG-Firmenlogo
Senior Project Engineer - Capital Investments (all genders) AbbVie Deutschland GmbH & Co. KG
Ludwigshafen am Rhein Zum Job 
Stadtreinigung Hamburg Anstalt des öffentlichen Rechts-Firmenlogo
Ingenieurin (m/w/d) TGA Elektrotechnik Stadtreinigung Hamburg Anstalt des öffentlichen Rechts
Hamburg Zum Job 
Vermögen und Bau Baden-Württemberg - Amt Ulm-Firmenlogo
Diplom-Ingenieur (FH/DH) bzw. Bachelor (w/m/d) der Fachrichtung Elektrotechnik, Versorgungstechnik, Gebäudeklimatik, Gebäude- und Energietechnik Vermögen und Bau Baden-Württemberg - Amt Ulm

In den 1960er Jahren begann Lawrence Roberts mit der Entwicklung von Computer-Vision-Technologien, die dreidimensionale Informationen aus zweidimensionalen Bildern extrahieren konnten. Seine Arbeiten gelten als wegweisend für die heutigen Bilderkennungssysteme.

Offzieller Beginn der KI-basierten Bilderkennung

Ein weiteres wichtiges Ereignis war das „Summer Vision Project“ von Seymour Papert am MIT im Jahr 1966, das trotz seines Scheiterns als offizieller Beginn der KI-basierten Bilderkennung gilt. In den folgenden Jahrzehnten entwickelte sich die Disziplin kontinuierlich weiter, insbesondere durch die Arbeiten von David Marr in den 1980er Jahren, der das hierarchische Modell der Bildverarbeitung entwickelte, und von Kunihiko Fukushima, der das Neocognitron-Netzwerk, einen Vorläufer moderner neuronaler Netze, schuf.

Die Einführung von Imagenet durch Fei-Fei Li im Jahr 2007 und die darauf aufbauende Imagenet Large Scale Visual Recognition Challenge im Jahr 2010 führten schließlich zu großen Durchbrüchen in der Bilderkennung. Insbesondere Alexnet, ein gefaltetes neuronales Netz, das 2012 den Wettbewerb gewann, zeigte das enorme Potenzial dieser Technologie. Seither hat sich die Bilderkennung rasant weiterentwickelt und findet heute breite Anwendung, beispielsweise in sozialen Netzwerken zum automatischen Taggen von Fotos.

Grundlagen der KI und des maschinellen Lernens

Bevor wir uns eingehender mit der KI-gestützten Bilderkennung beschäftigen, hier erst einmal einige Grundlagen zur KI und dem maschinellen Lernen ganz allgemein:

Künstliche Intelligenz (KI) ist ein Teilgebiet der Informatik, das darauf abzielt, Maschinen und Computersysteme zu entwickeln, die in der Lage sind, Aufgaben auszuführen, die normalerweise menschliche Intelligenz erfordern. Dazu gehören unter anderem Problemlösung, Sprachverständnis, Lernen und Mustererkennung – beispielsweise Bilderkennung mit KI. Ein wichtiger Aspekt der KI ist die Fähigkeit, aus Erfahrungen zu lernen und sich an neue Situationen anzupassen. Dies wird oft durch den Einsatz von Algorithmen und Modellen erreicht, die Daten analysieren und daraus Schlussfolgerungen ziehen.

Maschinelles Lernen (ML) ist ein Bereich der KI, der sich mit der Entwicklung von Algorithmen befasst, die es Computern ermöglichen, aus Daten zu lernen und Vorhersagen oder Entscheidungen zu treffen, ohne explizit dafür programmiert zu sein. Der wesentliche Unterschied zwischen KI und ML besteht darin, dass die KI ein breiteres Feld umfasst, während ML sich gezielt auf das Lernen aus Daten konzentriert. ML-Modelle verbessern ihre Leistung durch die Verarbeitung großer Datenmengen und die Anpassung ihrer Parameter auf der Grundlage der analysierten Informationen.

Neuronale Netzwerke spielen eine zentrale Rolle im Bereich des maschinellen Lernens und sind inspiriert von der Funktionsweise des menschlichen Gehirns. Sie bestehen aus Schichten von Neuronen, die miteinander verbunden sind und Informationen verarbeiten. Ein neuronales Netzwerk setzt sich in der Regel aus einer Eingabeschicht, mehreren versteckten Schichten und einer Ausgabeschicht zusammen. Durch den Einsatz von verschiedenen Funktionen können neuronale Netzwerke nichtlineare Beziehungen in den Daten modellieren, was ihre Fähigkeit zur Lösung komplexer Probleme erheblich verbessert.

Technische Grundlagen der Bilderkennung

Ein populärer Typ von neuronalen Netzwerken sind die Convolutional Neural Networks (CNNs), die besonders effektiv bei der Bilderkennung mit KI und deren Verarbeitung sind. CNNs nutzen Faltungsschichten, um Merkmale aus Bildern zu extrahieren, was ihnen ermöglicht, Muster wie Kanten, Texturen und Formen zu erkennen. Diese Merkmale werden dann durch vollständig verbundene Schichten verarbeitet, um eine Bestimmung zu ermöglichen. Die Fähigkeit von CNNs, komplexe visuelle Daten zu analysieren und zu interpretieren, hat sie zu einer Schlüsseltechnologie im Bereich der Bilderkennung mit KI gemacht.

Wichtig für das Training von CNNs sind die Trainingsdaten. Diese bestehen aus einer großen Menge von beschrifteten Bildern, die als Eingabe für das Netzwerk dienen. Während des Trainingsprozesses wird das Netzwerk mit diesen Bildern und den zugehörigen Labels gefüttert. Die Qualität und Quantität der Trainingsdaten sind entscheidend für die Leistung des Netzwerks. Um Überanpassungen (Overfitting) zu vermeiden und die Generalisierungsfähigkeit des Netzwerks zu erhöhen, ist es wichtig, eine vielfältige und umfassende Datensammlung zu verwenden.

Die Datenvorverarbeitung spielt eine wichtige Rolle. Dazu gehören die Normalisierung der Pixelwerte, um sie auf einen einheitlichen Bereich zu skalieren, die Größenanpassung der Bilder auf eine konsistente Dimension und die Anwendung von Datenaugmentationstechniken wie Rotationen, Spiegelungen und zufälligen Zuschnitten, um die Vielfalt der Trainingsdaten zu erhöhen.

Relevant ist zudem die Wahl zwischen überwachten und unüberwachten Lernmethoden. Beim überwachten Lernen, wie es bei den meisten CNN-Anwendungen der Fall ist, werden die Modelle mit beschrifteten Daten trainiert. Das ermöglicht eine direkte Fehlerkorrektur und eine gezielte Verbesserung der Modellleistung. Im Gegensatz dazu basiert unüberwachtes Lernen auf unbeschrifteten Daten, bei denen das Modell selbst Muster und Strukturen in den Daten finden muss. Während unüberwachtes Lernen weniger Datenvorbereitung erfordert und in Szenarien nützlich ist, in denen beschriftete Daten knapp sind, ist es oft schwieriger, die gleiche Präzision und Leistung wie beim überwachten Lernen zu erreichen.

So läuft die Bilderkennung durch KI ab

Die Bilderkennung durch Künstliche Intelligenz (KI) erfolgt in mehreren Schritten:

Datenaufbereitung: Die Datenaufbereitung beginnt mit der Sammlung einer großen Menge von Bilddaten, die für die jeweilige Aufgabe relevant sind. Diese Bilder müssen gekennzeichnet werden. Das kann manuell erfolgen oder durch automatisierte Tools. Anschließend werden die Bilder einheitlich skaliert. Datenaugmentationstechniken erhöhen die Vielfalt der Trainingsdaten und machen das Modell robuster.

Training des Modells: Der Trainingsprozess beginnt mit der Auswahl und Anpassung der Netzwerktopologie. Convolutional Neural Networks (CNNs) werden häufig verwendet, da sie wie bereits erwähnt, besonders gut für die Verarbeitung von Bilddaten geeignet sind. Das Modell wird mit den vorbereiteten Trainingsdaten gefüttert und mittels Backpropagation und Optimierungsalgorithmen trainiert. Während des Trainings passt sich das Modell immer wieder an, um Fehler zu minimieren und die Genauigkeit zu erhöhen.

Validierung und Testen: Nach dem Training wird das Modell anhand eines separaten Validierungsdatensatzes bewertet, um die Leistung zu überprüfen und zu optimieren. Modellanpassungen können erforderlich sein, um die besten Ergebnisse zu erzielen. Anschließend wird das Modell mit einem Testdatensatz getestet, der weder während des Trainings noch während der Validierung verwendet wurde. So soll die Generalisierungsfähigkeit der Bilderkennung durch KI bestätigt werden.

Einsatz und kontinuierliche Verbesserung: Sobald das Modell zufriedenstellende Ergebnisse liefert, wird es in der vorgesehenen Umgebung eingesetzt. Dies umfasst etwa die Integration in Anwendungen oder Systeme, die die Bilderkennung benötigt. Eine kontinuierliche Verbesserung des Modells ist weiterhin notwendig, um die Leistung aufrechtzuerhalten. Das geschieht durch regelmäßige Überwachung der Leistung, durch Sammlung neuer Daten und erneutes Training des Modells.

Anwendungsbeispiele für Bilderkennung durch KI

  • Gesichtserkennung: In sozialen Netzwerken wird eine Gesichtserkennung verwendet, um automatisch Personen auf Fotos zu identifizieren und sie in Bildern zu taggen. Dies vereinfacht die Organisation und Suche nach Bildern von bestimmten Personen. Weitere Einsatzmöglichkeiten von Gesichtserkennung sind Sicherheitskontrollen. Die Bilderkennung durch KI hilft bei der Identitätsprüfung an Flughäfen oder bei Zugangskontrollen in gesicherten Bereichen. Auch die Polizei nutzt bei Fahndungen mitunter KI.
  • Objekterkennung: Beispielsweise wird in der Automobilindustrie die Objekterkennung genutzt, um autonome Fahrzeuge zu unterstützen. Sie hilft dabei, Objekte wie Fußgänger, andere Fahrzeuge und Verkehrszeichen zu klassifizieren, was für die Navigation und Sicherheitsfunktionen entscheidend ist. Im Einzelhandel oder in der Logistik ermöglicht die Bilderkennung mit KI die automatische Erfassung und Verwaltung von Lagerbeständen durch visuelle Überprüfung in Regalen oder Lagerräumen. Die Landwirtschaft nutzt die Objekterkennung zur Überwachung und Identifizierung von Pflanzenschädlingen oder Reifegraden von Feldfrüchten durch Drohnen mit eingebauten Kameras.
  • Medizinische Bildanalyse: In der medizinischen Bilderkennung wird KI beispielsweise zur Tumoridentifizierung verwendet. Bildgebende Verfahren wie MRT- oder CT-Scans werden analysiert, um Anomalien oder Tumore frühzeitig zu erkennen und die Diagnose und Behandlung zu unterstützen. Die medizinische Bilderkennung mit KI hilft zudem bei der Diagnose der diabetischen Retinopathie oder anderen Augenerkrankungen durch Analyse von Netzhautbildern. In der Analyse von Röntgenaufnahmen wird sie zur Identifikation von Knochenbrüchen oder -anomalien eingesetzt.
  • Sicherheit und Überwachung: Durch CCTV-Kameras wird KI-gesteuerte Bilderkennung eingesetzt, um ungewöhnliche Aktivitäten oder verdächtige Personen in Überwachungsaufnahmen zu identifizieren. Dies verbessert die Sicherheitsmaßnahmen und hilft bei der präventiven Überwachung. Eine automatische Nummernschilderkennung zur Überwachung von Verkehr und zur Verhinderung von Verkehrsverstößen ist ebenso möglich. Sie wird beispielsweise auch in Parkhäusern genutzt.

Herausforderungen und Grenzen der Bilderkennung durch KI

Die Bilderkennung durch KI steht vor mehreren Herausforderungen und Grenzen, die ihre Effektivität und Anwendbarkeit beeinträchtigen können. Eine davon ist die Notwendigkeit großer und diverser Datensätze. Um ein KI-Modell für die Bilderkennung erfolgreich zu trainieren, benötigt man umfassende und vielfältige Bilddaten, die die gesamte Bandbreite an Variationen und Szenarien abdecken, die im realen Einsatz vorkommen könnten. Dazu zählen unterschiedliche Lichtverhältnisse, Perspektiven, Bildqualitäten und -größen sowie verschiedene Variationen von Objekten oder Gesichtern. Fehlen diese Daten oder sind sie nicht repräsentativ, kann das Modell in der Erkennung versagen.

Weitere Probleme sind Bias und Fairness in den Daten. Wenn die Trainingsdaten nicht ausgewogen sind oder bestimmte Gruppen unterrepräsentiert sind, kann das Modell Vorurteile oder diskriminierende Muster lernen. Bias in den Daten kann unbeabsichtigt verstärkt werden und dazu führen, dass KI-Systeme unfaire oder ungenaue Entscheidungen treffen, was insbesondere in sensiblen Bereichen wie der Gesichtserkennung oder der medizinischen Bildanalyse problematisch ist.

Zusätzlich gibt es technische Herausforderungen wie Rechenleistung und Speicherkapazität. Das Training komplexer Modelle, insbesondere tiefer neuronaler Netzwerke wie CNNs, erfordert erhebliche Rechenressourcen. Hochleistungsfähige Grafikkarten oder spezialisierte Hardware sind notwendig, um die Berechnungen effizient durchzuführen. Das verursacht hohe Kosten und ist für viele Organisationen eine Hürde, Bilderkennung durch KI nutzen zu können. Der Speicherbedarf für große Datensätze und Modelle ist ebenfalls erheblich, was weitere Kosten für die Infrastruktur mit sich bringt.

Ein Beitrag von:

  • Dominik Hochwarth

    Redakteur beim VDI Verlag. Nach dem Studium absolvierte er eine Ausbildung zum Online-Redakteur, es folgten ein Volontariat und jeweils 10 Jahre als Webtexter für eine Internetagentur und einen Onlineshop. Seit September 2022 schreibt er für ingenieur.de.

  • Julia Klinkusch

    Julia Klinkusch ist seit 2008 selbstständige Journalistin und hat sich auf Wissenschafts- und Gesundheitsthemen spezialisiert. Seit 2010 gehört sie zum Team von Content Qualitäten. Ihre Themen: Klima, KI, Technik, Umwelt, Medizin/Medizintechnik.

Zu unseren Newslettern anmelden

Das Wichtigste immer im Blick: Mit unseren beiden Newslettern verpassen Sie keine News mehr aus der schönen neuen Technikwelt und erhalten Karrieretipps rund um Jobsuche & Bewerbung. Sie begeistert ein Thema mehr als das andere? Dann wählen Sie einfach Ihren kostenfreien Favoriten.