Die Toshiba Corporation hat eine KI mit 3D-Erkennung entwickelt, mit der Entfernungen mit der Genauigkeit einer Stereokamera gemessen werden können, indem das mit einer kommerziellen Kamera aufgenommene Bild verwendet und die durch das Kameraobjektiv verursachte Bildunschärfe mithilfe von Deep Learning analysiert wird. Diese Technologie eliminiert die Verwendung von Stereokameras, was letztendlich die Kosten und den Platz reduziert. Toshiba wird diesen Erfolg auf der internationalen Konferenz über Computer Vision (ICCV2019) vorstellen, die am 30. Oktober 2019 ab 10 Uhr in Südkorea stattfindet.
Die Bilderfassung wird immer wichtiger und Anwendungen wie Roboter, die Objekte bewegen, autonome unbemannte Fahrzeuge, ferngesteuerte Drohnen, die die Infrastruktur inspizieren usw. erfordern mehr als nur Bilder der Motive. Sie benötigen ein kleines Gerät zur Analyse von 3D-Daten, um Form und Entfernung zu erfassen. Daher wurden die Forschungen zur Entwicklung einer Messtechnologie mit Monokular-Kameras (die leicht zu miniaturisieren sind) verstärkt, indem Deep Learning zum besseren Lernen der Form, des Hintergrunds und anderer Szenerie-Daten des abgebildeten Objekts verwendet wurde.
Diese Methode hat einen Nachteil; Die Genauigkeit der Entfernung wird mit Hilfe einer Monokular-Kamera in Abhängigkeit von den erlernten Szenerie-Daten geschätzt, was aufgrund der in verschiedenen Landschaften aufgenommenen Aufnahmen zu einem Genauigkeitsabfall führt. Um dies zu überwinden, hat Toshiba eine Fotografie mit farbgefilterter Apertur entwickelt, bei der zwei Farbfilter am Objektiv angebracht sind und die Farbe und Größe der resultierenden Bildunschärfe entsprechend der Entfernung vom Motiv analysiert werden. Dies löst zwar das Problem der Datenabhängigkeit, kostet jedoch Zeit und Geld, um vorhandene Objektive zu modifizieren.
Toshiba hat dieses Problem durch die Entwicklung einer KI mit 3D-Erkennungstechnologie überwunden, bei der mithilfe von Deep Learning analysiert wird, wie das Bild entsprechend seiner Position auf dem Objektiv unscharf wird, um eine Entfernungsmessung mit der gleichen hohen Präzision wie bei einem Stereokamerasystem zu erzielenmit einer normalen Monokular-Kamera, jedoch ohne Szeneriedaten. Bisher wurde es als theoretisch unmöglich angesehen, die Entfernung anhand der Form der Unschärfe zu messen, die für Objekte mit Entfernung und Entfernung gleich ist, wenn sie vom Brennpunkt gleich weit entfernt sind. Die Analyseergebnisse haben jedoch einen wesentlichen Unterschied zwischen den Unschärfeformen in der Nähe und in der Ferne von Objekten gezeigt, auch wenn sie vom Brennpunkt gleich weit entfernt sind. Damit analysierte Toshiba erfolgreich Unschärfedaten aus aufgenommenen Bildern durch ein Deep-Learning-Modul, das mit dem Deep-Neural-Network-Modell trainiert wurde.
Wenn das Licht durch die Linse fällt, ändert sich bekanntermaßen die Form der erzeugten Unschärfe in Abhängigkeit von der Wellenlänge des Lichts und seiner Position in der Linse. In dem entwickelten Netzwerk werden Position und Farbe getrennt verarbeitet, um Änderungen in der Unschärfeform richtig wahrzunehmen und dann nach Durchlaufen eines gewichteten Aufmerksamkeitsmechanismus zu steuern, wo auf dem Helligkeitsgradienten fokussiert werden soll, um die Entfernung korrekt zu messen. Durch das Lernen wird das Netzwerk dann aktualisiert, um einen Fehler zwischen der gemessenen Entfernung und der tatsächlichen Entfernung zu reduzieren. Mit diesem AI-Modul hat Toshiba bestätigt, dass ein einzelnes Bild, das mit einer handelsüblichen Kamera aufgenommen wurde, die gleiche Genauigkeit der Entfernungsmessung erzielt, die mit Stereokameras gesichert ist. Weitere Informationen finden Sie auf dieser offiziellen Seite von Toshiba.
Toshiba wird die Vielseitigkeit des Systems mit handelsüblichen Kameras und Objektiven bestätigen und die Bildverarbeitung beschleunigen, um die öffentliche Umsetzung im Geschäftsjahr 2020 zu erreichen.