Naama @Slush: DAINs erklärbare Emotionserkennungs-API

Weiterentwicklung von Naama: DAINs API zur Erkennung erklärbarer Emotionen

DAIN Studios Wir werden dieses Jahr einen Stand auf der Slush haben, an dem Sie Naama ausprobieren können, die Demo unserer erklärbaren Emotionserkennungs-API mit Computer Vision. Der Name Naama ist das finnische Wort für Gesicht. Da unser Algorithmus den emotionalen Gesichtsausdruck interpretiert, dachten wir, dass das finnische Wort für Gesicht "Naama" es ganz gut beschreibt.

Die Entwicklung unserer Demo war eine ziemlich zusammenhängende Entwicklung, die damit begann, dass mehrere unserer Datenwissenschaftler bloggten und auf Veranstaltungen über eine Vielzahl von Themen sprachen, wie z. B. Explainable Artificial Intelligence (xAI), DIY Computer Vision AI und Machine Learning.

Ich habe mich mit unserem internen Naama-Projektteam aus Data Scientists und Data Engineers – Heeren, Juho, Thomas und Pekka – zusammengesetzt und ein paar Fragen gestellt, die alle im Vorfeld der Präsentation einer Demo von Naama auf der Slush wissen wollten.

Thomas: Wenn wir an die Zeit vor 2-3 Jahren zurückdenken, was hat sich in der Computer Vision AI zwischen damals und heute verändert (die wichtigsten Änderungen und Entwicklungen)?

In den letzten Jahren gab es Entwicklungen in mehreren Bereichen, die unsere Fähigkeit zur Nutzung und Anwendung von KI für maschinelles Sehen verbessert haben. Die wichtigste Veränderung war das explosionsartige Interesse an Bibliotheken, das die Entwicklung von KI für maschinelles Sehen einfacher und schneller macht – mehr Menschen können KI für maschinelles Sehen entwickeln, mit grundlegenden Programmierkenntnissen und Zugang zu High-Level-APIs wie Keras sowie kostenlosen Online-Kursen und Softwarebibliotheken von fast.ai.

Mehrere andere Änderungen und Entwicklungen treiben den Fortschritt der KI für maschinelles Sehen voran, einschließlich der meisten Schulungen und der Erstellung von Modellen, die hauptsächlich in der Cloud durchgeführt werden. Diese Modelle werden immer komplexer, werden aber auch durch Fortschritte bei den Rechenfähigkeiten unterstützt. Mit Blick auf die Zukunft schlagen Unternehmen wie Google und Amazon sehr zugängliche Computer-Vision-Entwicklungsanwendungen vor und entwickeln sie, fast ohne dass Code erforderlich ist, so dass diese Art von Entwicklungen die Zugänglichkeit und die Anwendungsfälle von Computer Vision AI verbessern werden.

Fragen: Was ist Ihr persönliches Lieblingsbeispiel / Einsatz von Computer Vision AI?

Heeren: Mein persönlicher Lieblingsanwendungsfall von Computer-Vision-KI ist die medizinische Diagnose. Da Daten immer zugänglicher werden, werden die Algorithmen nicht nur bei der Diagnose, sondern auch bei der Vorbeugung bestimmter Krankheiten immer besser, indem sie einige frühe Anzeichen vorschlagen, z. B. bei Hautkrankheiten usw. Auf der anderen Seite gefiel mir auch der Einsatz der Computer-Vision-KI-Algorithmen im Automotive-Bereich. Sei es das autonome Fahren oder die Erkennung bestimmter Emotionen von Fahrern, Computer-Vision-Algorithmen ebnen den Weg für eine spannende Zukunft in diesem Sektor.

Pekka: DAIN Studios Hat eine Demo für SLUSH geplant, die Computer Vision AI verwendet, was kann die Demo? Und warum sollten wir es uns ansehen?

Im Wesentlichen kombiniert es Gesichtserkennung, Gesichtserkennung und Emotionsklassifikatoren. Darüber hinaus gibt es in der Demo eine Explainable AI-Schicht. Mit der Graphics Processing Unit, auch bekannt als GPU, läuft all dies nahezu in Echtzeit, so dass es Spaß macht, es mit mehreren Personen gleichzeitig in der Kamera zu versuchen.

Heeren: Es gab ein DAIN-Team mit Mitgliedern aus jedem unserer drei Studios, die gemeinsam an dieser Demo gearbeitet haben – wer hat was für die Demo gemacht und welche Fähigkeiten braucht man, um eine Demo wie diese zu machen?

Es war ein sehr vielfältiger Mix an Fähigkeiten. Da es sich um einen Algorithmus zur Emotionserkennung handelt, war es offensichtlich, dass der größte Teil des Forschungs- und Denkprozesses in Richtung Datenwissenschaft ging. Juho und Thomas waren in erster Linie für die Entwicklung der Data Science und die Integration des trainierten Modells verantwortlich. Da die meisten KI-Algorithmen für maschinelles Sehen effizient über die GPU-Leistung laufen, erwies sich Pekkas umfangreiche Erfahrung in der Bildanalyse als nützlich. Da Pekka selbst ein Veteran in Anwendungsfällen im Zusammenhang mit Computer Vision ist, leistete er seinen Hauptbeitrag bei der Auswahl der zugrunde liegenden GPU-Hardware, der Technologie und der Modelloptimierung. Ein Aspekt, der in KI-Projekten am Anfang oft vernachlässigt wird, ist die Bereitstellung der Anwendung in einem robusten und skalierbaren Prozess. Hier kamen meine Fähigkeiten im Bereich Data Engineering zum Tragen. Ich habe dem Team dabei geholfen, diese Computer-Vision-Anwendung über eine skalierbare Web-API verfügbar zu machen und den gesamten Projektcode zu containerisieren. Darüber hinaus kann das alles leicht aus dem Fokus geraten (Ingenieure lassen sich leicht mitreißen, wenn sie eine interessante Herausforderung wie diese lösen ;-)), daher war die Rolle von Leena als Produktmanagerin von entscheidender Bedeutung, und wenn ich sagen darf, grundlegend, um die Bemühungen aller Teammitglieder fokussiert und zielorientiert zu halten."

Juho: Wir hören oft den Begriff, dass man großartige Daten braucht, wenn man eine hochmoderne KI haben will. Welche Daten werden in dieser Demo verwendet?

Das ist eine interessante Frage, denn neben jedem zu analysierenden Kamerabild waren die einzigen Daten, die wir in diesem Fall zur Verfügung gestellt haben, ein Foto pro DAINian direkt von unserer Website, obwohl hinter den vortrainierten Modellen, die in der Demo verwendet werden, natürlich viele Daten stecken. Für Naama haben wir Code aus Open-Source-Repositories als Grundlage für die Gesichtserkennung und Vorhersage anderer Benutzerattribute verwendet, nämlich Geschlecht, Alter und Gesichtsausdruck. Insbesondere im Bereich der Deep-Learning-Bildanalyse sind vortrainierte Modelle für verschiedene Zwecke öffentlich verfügbar und ihre Trainingsdaten und -methoden sind nicht immer ordnungsgemäß dokumentiert. Für eine ernsthaftere Anwendung könnte dies ein Problem sein, aber für die Zwecke dieser Demo haben wir beispielsweise die algorithmische Verzerrung völlig außer Acht gelassen.

Wir nutzen dies, um das Bewusstsein für den aktuellen Stand der Computer-Vision-KI und die potenziellen ethischen Herausforderungen zu schärfen, die sich aus solchen Technologien ergeben können. Zum Beispiel kann ein Gesichtsfoto, das in eine zwielichtige mobile App für eine virtuelle Make-up-Anwendung hochgeladen wird, es allen Parteien, die auf das Foto zugreifen können, ermöglichen, den Benutzer mit sehr geringem Aufwand für immer zu erkennen.