Wie lernt eine KI "Sehen"?
Damit eine KI – etwa in einem autonomen Auto oder einem Roboter – Videobilder zur Selbststeuerung nutzen kann, muss sie den zweidimensionalen Pixelstrom in ein dreidimensionales Verständnis der Welt übersetzen. Dieser Prozess wird oft als Computer Vision bezeichnet.
Hier sind die entscheidenden Schritte, wie aus bunten Punkten auf einem Sensor eine Handlungsanweisung wird:
1. Objekterkennung und Klassifizierung
Zuerst muss die KI wissen, was sie sieht. Ein neuronales Netz analysiert jedes Einzelbild (Frame) des Videos.
Bounding Boxes: Die KI zieht Rahmen um erkannte Objekte (z. B. „Fußgänger“, „Stoppschild“, „Baustelle“).
Semantische Segmentierung: Hier geht die KI tiefer und ordnet jedem einzelnen Pixel eine Kategorie zu. So weiß sie genau, wo der „Asphalt“ aufhört und der „Bürgersteig“ beginnt.
2. Tiefenschätzung und 3D-Rekonstruktion
Ein Videobild ist flach, aber Steuerung findet im Raum statt. Die KI muss Distanzen berechnen:
Stereo-Vision: Wenn zwei Kameras vorhanden sind, nutzt die KI die Disparität (den leichten Versatz), ähnlich wie das menschliche Auge.
Structure from Motion (SfM): Bei nur einer Kamera nutzt die KI die Eigenbewegung. Da sich nähere Objekte im Video schneller bewegen als ferne, kann sie eine Tiefenkarte berechnen.
Monokulare Tiefenschätzung: Moderne KIs „raten“ die Tiefe basierend auf Erfahrungswerten (z. B. „Ein Auto dieser Größe muss etwa 20 Meter weit weg sein“).
3. Optischer Fluss (Bewegungsanalyse)
Für die Selbststeuerung ist nicht nur wichtig, wo etwas ist, sondern wohin es sich bewegt. Die KI vergleicht aufeinanderfolgende Bilder, um den optischen Fluss zu berechnen. Dadurch erkennt sie:
Vektoren: In welche Richtung und mit welcher Geschwindigkeit bewegen sich andere Verkehrsteilnehmer?
Time-to-Collision: Wie lange dauert es bei aktueller Geschwindigkeit, bis ein Objekt berührt wird?
4. Sensor-Fusion und Lokalisierung (SLAM)
Das Videobild allein reicht oft nicht aus. Die KI kombiniert die visuellen Daten mit anderen Quellen:
SLAM (Simultaneous Localization and Mapping): Die KI erstellt gleichzeitig eine Karte der Umgebung und verortet sich selbst darin.
Abgleich mit Sensoren: Die visuellen Daten werden mit Radar- oder LiDAR-Daten (Lichtimpulsen) abgeglichen, um Fehler der Kamera (z. B. Blendung durch Sonne) auszugleichen.
5. Die Logikschicht (Pfadplanung)
Am Ende steht die Entscheidung. Die interpretierten Daten fließen in ein Modell, das Wahrscheinlichkeiten berechnet:
„Das Objekt ist ein Kind am Straßenrand. Die Bewegungsvektoren zeigen Richtung Fahrbahn. Wahrscheinlichkeit für Betreten der Fahrbahn: 40 %. Aktion: Geschwindigkeit reduzieren.“
Kommentare
Kommentar veröffentlichen