--

So bringen wir Computern bei, Fischarten zu identifizieren

Um Strategien für ein nachhaltiges Management der Meeresressourcen zu planen, muss man verstehen, wie sie funktionieren. Bei Fischpopulationen müssen wir unter anderem deren Standort, Häufigkeit und Schwankungen kennen.

Derzeit erfolgt die Erfassung von Daten zu diesen Ressourcen auf unterschiedliche Weise. Eine davon ist die Analyse von Unterwasserbildern, die normalerweise auf der Identifizierung und manuellen Zählung von Arten in Tausenden von Bildern durch spezialisiertes Personal basiert, was einen enormen Zeit- und Arbeitsaufwand bedeutet.

Die Automatisierung des Datenerfassungsprozesses würde die massive Extraktion von Informationen mit erheblichen Einsparungen bei den Humanressourcen ermöglichen, sodass die Forscher mehr Zeit für die Analyse der Ergebnisse aufwenden könnten. Darüber hinaus würde eine Erhöhung des verfügbaren Datenvolumens zu einer genaueren und statistisch relevanten Analyse führen. Diese Automatisierung geht durch lehren zu Computern zu sehen der Fisch auf den Bildern.

Künstliche Intelligenz zum Erkennen von Objekten

Sie sagen, dass Marvin Minsky (MIT), einer der Väter der künstlichen Intelligenz, einem seiner Schüler 1966 ein Sommerprojekt vorschlug, das darin bestand, einen Computer an eine Kamera anzuschließen und ihn dazu zu bringen, zu beschreiben, was er sah. Dieses für 3 Monate geplante Projekt hat mehr als 50 Jahre gedauert. Erst in den letzten 8 wurden erhebliche Fortschritte erzielt.

Bis 2012 war die Tatsache, dass Computer Objekte in einer Szene erkennen konnten, mehr Science-Fiction als eine echte Möglichkeit. Obwohl einige Fortschritte erzielt worden waren, beschränkten sie sich auf ganz bestimmte Fälle (z. B. Gesichtserkennung) und auf einfache Bilder. Ab diesem Jahr übertraf die Realität mit dem Erscheinen von Techniken des maschinellen Lernens, die auf tiefen Faltungs-Neuronalen Netzen basierten, die Fiktion.

Ein künstliches neuronales Netzwerk ist ein Algorithmus, der aus mehreren miteinander verbundenen Stufen besteht und aufgerufen wird Neuronen. Dieses Modell der Verbindung ist inspiriert von der Art und Weise, wie Neuronen im Gehirn zusammenhängen, daher der Name.

Jedes künstliche Neuron implementiert eine mathematische Funktion, die eine Reihe einfacher Operationen (Summen und Produkte der Eingabewerte durch Faktoren oder kombiniert) kombiniert Pesos verbunden mit dem Neuron) und eine komplexere Operation, die auf das Ausgangssignal angewendet wird.

In einem neuronalen Netzwerk sind Neuronen in Schichten organisiert, so dass die Ausgaben von Neuronen in einer Schicht als Eingabe für Neuronen in der nächsten Schicht verwendet werden.

Durch die Verkettung vieler dieser Ebenen können Sie sehr komplexe Funktionen erstellen, die die Eingabewerte des Netzwerks mit dem Wert (oder den Werten) am Ausgang in Beziehung setzen. Durch Optimierungstechniken, Pesos des Netzwerks kann angepasst werden (der Algorithmus lernt), um ein an jeden Eingang angepasstes Ergebnis zu erhalten.

Obwohl die theoretische Grundlage für neuronale Netze Mitte des letzten Jahrhunderts geschaffen wurde, ermöglichte die Rechenleistung erst zu Beginn dieses Jahrhunderts die Verarbeitung der großen Datenmenge, die zur Lösung komplexer Probleme mit dieser Art von Algorithmus erforderlich ist.

Wie künstliche Neuronen trainiert werden

Das gebräuchlichste Netzwerkmodell für die Bildverarbeitung wird als Faltungs-Neuronales Netzwerk (CNN) bezeichnet. In diesem Fall ist jedes Neuron in der ersten Schicht des Netzwerks mit einer kleinen Gruppe von Pixeln im Eingabebild verbunden.

Eine der ersten Anwendungen von CNN war die Klassifizierung von Bildern nach ihrem Inhalt. Bei einem Eingabebild muss das Netzwerk beispielsweise entscheiden, ob es sich um das Bild einer Person, eines Autos usw. handelt. So passen Sie die Nettogewichte an (trainiere sie) Um dieses Ziel zu erreichen, sind folgende Zutaten erforderlich:

  • Eine große Anzahl von Bildern, Trainingsaufrufe, die die zu erkennenden Objekte enthalten und getaggt von einem Menschen (Bilder von Personen mit der Bezeichnung “Person”, Autos mit der Bezeichnung “Auto” usw.).

  • Ein Netzwerk, das ein Bild als Eingabe verwendet und ein Etikett ausgibt (“Person”, “Auto” usw.).

  • Eine Funktion (Kostenfunktion), die die vom Netzwerk bereitgestellten Beschriftungen mit den vom Menschen zugewiesenen Beschriftungen vergleicht und einen Mindestwert annimmt, wenn beide übereinstimmen.

Das Pesos des Netzwerks werden dabei geändert. Wenn die Anzahl der Trainingsbilder und die Anzahl der Ebenen im Netzwerk groß genug sind, kann das Netzwerk nach einer ausreichenden Anzahl von Iterationen die Art und Weise simulieren, wie Menschen Bilder kennzeichnen.

Im Jahr 2012 ein CNN tief AlexNet (bestehend aus einer großen Anzahl von Ebenen) konnte 1 000 verschiedene Objekte mit einem viel geringeren Fehler als jede frühere Technik klassifizieren. Diese Tatsache hat definitiv die Verwendung dieser Art von Algorithmus im Bereich der Bildverarbeitung vorangetrieben. Seit 2015 kann CNN diese 1 000 Objekte mit einem Fehler klassifizieren, der geringer ist als der von Menschen verursachte.

Basierend auf den oben genannten Prinzipien wurden seit 2012 immer komplexere Netzwerke zur Erkennung von Objekten in Bildern angewendet: Das Netzwerk musste nicht nur ein Objekt von einem anderen unterscheiden, sondern auch angeben, wo es sich im Bild befand. Das heute beliebteste Netzwerkmodell zur Lösung dieser Art von Problem wurde 2018 vorgeschlagen und heißt Mask R-CNN.

Künstliche Intelligenz zur Identifizierung von Fischen

Die Maske R-CNN wurde verwendet, um eine Vielzahl von Objekten im Alltag zu erkennen, von Autos und Menschen bis hin zu Krawatten, Stühlen und Zahnbürsten. Wir verwenden es im DEEP-ECOMAR-Projekt, um verschiedene Fischarten in Unterwasserbildern zu erkennen.

Um dies zu erreichen, werden wir das Netzwerk mit Tausenden von Bildern trainieren, die zuvor von Experten markiert wurden, in denen die interessierenden Arten vorkommen. Nach dem Training kann das Netzwerk diese Arten automatisch identifizieren.

Künstliche Intelligenz kann Fische in Bildern identifizieren.
Sofort

Ein wichtiger Teil des Projekts wird der manuellen Beschriftung von Bildern gewidmet sein, für die Werkzeuge entwickelt werden. Software das wird die Aufgabe beschleunigen. Ebenso wird untersucht, wie sich die Anwendung von Techniken zur Verbesserung der Farbe und des Kontrasts von Bildern auf die Lernergebnisse auswirkt. Schließlich werden die Parameter der Netzwerkkostenfunktion angepasst, um optimale Ergebnisse für Bilder zu erhalten, die in anderen Meeresumgebungen als den für das Training verwendeten erhalten wurden.

Das DEEP-ECOMAR-Projekt wird gemeinsam von Forschern des IMEDEA (Mittelmeerinstitut für fortgeschrittene Studien, CSIC-UIB) und der Universität der Balearen (UIB) durchgeführt. Wir werden das Unterwasservideo und die Bilddatenbank des Unterwasserobservatoriums Sub-Eye in Andratx (Mallorca) verwenden.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.