In einer Welt, die von visuellen Eindrücken geprägt ist, ist das Sehen gleich einem mächtigen Tor zur Realität. Auf Basis unserer Sinne fällen wir Urteile über die Welt und uns selbst darin. Während wir die Komplexität des Sehens im Alltag oft als selbstverständlich hinnehmen, stoßen wir bei genauerer Betrachtung auf alte philosophische Fragen, die die menschliche Existenz behandeln. Schon in der Antike wurden die Geheimnisse der Wahrnehmung erforscht, insbesondere des Sehens von der Natur des Lichts bis zur Funktionsweise unserer Augen.
Die Forschung rund um das maschinellen Sehen wirft daher nicht nur technische Fragen auf, sondern auch grundlegende Überlegungen zur menschlichen Natur und unserer Wahrnehmung. Diese Forschung führt uns zu einer Frage zurück, die so alt ist, wie die Menschheit selbst: Wie ist menschliche Erkenntnis möglich?
Möglicherweise hilft uns „Computer Vision“ sogar eines Tages, uns selbst in einem neuen Licht zu betrachten und eine tiefere Einsicht über uns selbst zu gewinnen?
Was ist Computer Vision?
Computer Vision ist ein Feld innerhalb der künstlichen Intelligenz (KI), das es Computern ermöglicht, Informationen aus Bildern, Videos und anderen Eingaben abzuleiten.
Wie wir wissen, kann KI große Datenmengen besser verarbeiten, als der Mensch. Aber wie steht es um die visuelle Wahrnehmung? Unter unseren sechs Sinnen ist das Sehvermögen möglicherweise der wichtigste. Allerdings ist unser Sehvermögen nicht mit einer Kamera zu vergleichen, welche die Realität einfach aufnimmt. Unser Auge und unser Gehirn selektieren bereits, ob etwas in unsere Wahrnehmung dringt. Wie diese Selektion stattfindet und ob es eine objektiv beobachtbare Realität gibt, ist eine umstrittene philosophische Frage.
Auch Computer Vision ist nicht einfach nur das Aufzeichnen eines Videos oder Bildes, sondern ebenfalls die Deutung dessen, was ein Computer sieht. Dazu gehören, analog zum menschlichen Sehen, einige Teilbereiche.
Für die Bearbeitung eines Videos müssen zunächst zahlreiche Einzelbilder betrachtet werden. In der Regel besteht ein Video aus 60 (und mitunter sogar 144 bis 230) Einzelbildern pro Sekunde, wobei jedes Bild aus zig Millionen Pixeln besteht. Mithilfe von KI werden diese Pixel analysiert und automatisch Körper erkannt oder umrissen. Anschließend werden die erkannten Körper weiter in Gesichter, Münder, Hände usw. aufgeschlüsselt. Dieser Prozess wird für jedes einzelne Bild des Videos wiederholt. Nehmen wir an, das Video dauert 50 Sekunden, dann haben wir insgesamt 3000 Einzelbilder. Darüber hinaus wird die Bewegung zwischen den einzelnen Bildern verglichen und verfolgt, um die fließende Bewegung im Video zu erkennen. Außerdem werden Beziehungen zwischen den Objekten im Video erkannt.
Das menschliche Gehirn: Meister der visuellen Verarbeitung
Was als Computer Vision komplex klingt, leisten unsere Augen und unser Gehirn tagtäglich: Unsere Augen nehmen Licht auf und leiten es an das Gehirn weiter. Dort wird das Licht in Bilder umgewandelt, die wir sehen können.
Dabei sind unsere Augen ein echtes Wunderwerk der Natur. Ungefähr 80 Prozent aller Informationen, die wir aus unserer Umwelt erhalten, gelangen über den Sehsinn in unser Gehirn und werden dort verarbeitet. Das Auge wandelt die elektromagnetischen Wellen des Lichts in Nervenimpulse um, die über den Sehnerv zum Gehirn weitergeleitet werden. Diese Nervenimpulse enthalten Informationen über das visuelle Bild, welches das Auge aufgenommen hat.
Unser Gehirn interpretiert, was unser Auge sieht.
Im Gehirn werden diese Nervenimpulse dann im Sehzentrum und anderen damit verbundenen Regionen verarbeitet. Unser Gehirn vergleicht die empfangenen Signale mit gespeicherten Informationen und Erfahrungen, um die wahrgenommene Welt zu interpretieren. Es analysiert Formen, Farben, Bewegungen und andere visuelle Eigenschaften, um uns ein vollständiges Bild unserer Umgebung zu liefern.Dabei wandelt es die zweidimensionalen Bilder beider Augen in ein dreidimensionales Bild der Welt um. Die Verarbeitung der visuellen Informationen im Gehirn ermöglicht es uns, Objekte und Gesichter zu erkennen, räumliche Tiefenwahrnehmung zu haben, Bewegungen zu verfolgen und komplexe visuelle Aufgaben zu bewältigen. Unsere visuelle Wahrnehmung ist eine hochentwickelte Verarbeitung, die es uns ermöglicht, Welt zu verstehen und darauf zu reagieren.
Das menschliche Sehen: Wie kann es einem künstlichen Gehirn beigebracht werden?
Zunächst sind die Bilderfassung und -verarbeitung entscheidend für die Videoerstellung. Mithilfe von Kameras und Sensoren werden dreidimensionale Szenen aufgezeichnet und als Bildfolgen im Video festgehalten. Jedes Bild repräsentiert Farben als zweidimensionale Zahlenreihe mit Pixeln. Die darin enthaltenen Objekte werden durch Zerlegung der Bilder in markante Regionen erfasst und ihre Positionen ermittelt. Anschließend werden die Objekte identifiziert und ihre Merkmale interpretiert, z.B. Art und Farbe eines Papageis.
Objektverfolgung, beispielsweise der Papagei im Flug, ermöglicht das Verfolgen bewegter Objekte in aufeinanderfolgenden Bildern oder Videos zur Bewegungsanalyse. Die Erkennung von Gesten und Bewegungen spielt eine Rolle, z.B. das Erkennen von Tanzbewegungen in Videospielen für interaktive Steuerung. Szenenverständnis beinhaltet das umfassende Verstehen einer Szene mit subtilen Objektbeziehungen, z.B. eine hungrige Katze, die eine Maus betrachtet.
Die Bibliothek des Augenblicks: Wenn wir Menschen sehen, dann wenden wir unser gesammeltes Weltwissen an. Alles was wir in unserem Leben erlebt und bereits gesehen haben, wird aktiviert. Jedes Mal, wenn wir in die Welt schauen, schaut die Welt, die wir bereits gesehen haben, mit.
All gesammeltes Weltwissen und Erleben über Perspektiven, Geometrie, unser gesunder Menschenverstand wirkt mit jedem Blick, den wir in die Welt tun. Sehen ist immer gleichbedeutend mit einem Verständnis für die Welt. Und das ist die große Herausforderung der Computer Vision Forschung. Eine Maschine soll nicht nur sehen können, sondern auch verstehen, was sie sieht.
Inspiriert vom menschlichen Gehirn, wurden die sogenannten Konvolutionsnetze erfunden, welche über viele Filter des Deep Learnings hinweg erkennen lernen. Diese Lernarchitektur wurde bereits in den 1980er Jahren, als künstlich Intelligenz noch eine Nischenforschung darstellte, diskutiert. Der Durchbruch gelang im Jahr 2012, als erstmalig eine große Zahl von Bildern und Videos mit Smartphones aufgenommen wurden und als Trainingsdaten verfügbar waren. Zeitgleich war bessere Hardware verfügbar: Computer und Speicherkapazitäten wurden bezahlbar.
Die Welt durch digitale Augen: Was sehen Maschinen heute?
Maschinelles Sehen hat in verschiedenen Bereichen des Alltags erstaunliche Fortschritte gemacht. Es erkennt, wenn Fahrer einzuschlafen drohen, ermöglicht ein reibungsloses Einkaufserlebnis ohne Kassen in autonomen Geschäften und hilft bei der Flughafensicherheit. Gestenerkennung bewertet Bewegungen in Videospielen, während Gesichtserkennung das Entsperren von Handys ermöglicht. Intelligente Kameras erzeugen ästhetische Porträtaufnahmen, militärische Anwendungen unterscheiden Feinde von Zivilisten, und autonome Navigation ermöglicht sichere Fortbewegung von Drohnen und Fahrzeugen. Zusätzlich findet maschinelles Sehen Anwendung in der medizinischen Bildanalyse zur Tumorerkennung, bei der Content-Moderation in sozialen Medien, der Auswahl passender Werbung, intelligenter Bildsuche und sogar bei der Erstellung von Deepfakes.
Deepfakes und die alten Fragen zur menschlichen Erkenntnis
Deepfakes sind Videos, die mithilfe von Deep Learning erstellt und manipuliert werden. Mit dieser Technologie wird die äußere Erscheinung einer Person verändert, ihre Mimik und Lippensynchronisation werden in falsche Gesichtsausdrücke und Äußerungen umgewandelt. Ein Beispiel für solche Deepfakes ist die App Avatarify, die im Jahr 2021 entwickelt wurde. Mit dieser Anwendung können Personen auf beliebigen Fotos zum Leben erweckt werden, indem sie etwas sagen oder singen.Die Körper von realen Personen können heute in einer ganz anderen Kontext eingesetzt werden.
Deepfakes haben sich zu einem weit verbreiteten Phänomen entwickelt und stellen unsere Wahrnehmung auf eine ernsthafte Probe. Die Konsequenzen reichen weit über das bloße Manipulieren von Videos hinaus und werfen grundlegende philosophische Fragen neu auf. Wir müssen uns erneut fragen, wie wir Wissen erlangen und was Wissen überhaupt bedeutet. Dies betrifft sämtliche Bereiche unseres Lebens und hat das Potenzial, das Vertrauen in audiovisuelle Aufzeichnungen zu erschüttern. Wir werden uns zunehmend die Auswirkungen dieser Technologie bewusst machen müssen und Maßnahmen ergreifen, um ihre missbräuchliche Verwendung einzudämmen.
Beispielsweise könnten künftig Videos, Tonaufzeichnungen oder Aufnahmen von Sicherheitskameras als gefälschte Beweismittel vor Gericht vorgelegt werden und zu schweren Fehlurteilen führen. Die unaufhaltsame Entwicklung dieser Technologie lässt vermuten, dass sie schrittweise auch den Verbrechensmarkt revolutionieren wird.
Kein Zweifel, dass der Markt für Deepfake-Erkennungssoftware stark wachsen wird. So ist es keine Überraschung, dass sowohl Facebook als auch Google Preise für die Entwicklung solcher Programme ausgeschrieben haben.
Ein regelrechtes Wettrüsten zwischen Fälschungs- und Enttarnungssoftware zeichnet sich ab.
Die zukünftige Anti-Deepfake-Software wird in gewisser Weise eine Neuauflage der heutigen Antivirensoftware sein. Es scheint sicher, dass neue gesetzliche Regelungen eingeführt werden müssen, welche die Authentifizierung von Videos beispielsweise durch den Einsatz von Blockchain-Technologien zur Verifizierung verlangen.
Deepfake-Videos können dazu beitragen, die menschliche Wahrnehmung und Wissensbildung zu verändern, indem sie die Fähigkeit der Menschen beeinträchtigen, zwischen Realität und Fiktion zu unterscheiden. Dies führt dazu, dass wir unsere Erkenntnisfähigkeit und die Art und Weise, wie wir unser Wissen erlangen, in Frage stellen müssen. Künftig werden wir gezwungen sein, alles, was wir (digital) sehen, kritisch zu hinterfragen und in Zweifel zu ziehen. Die Grenzen zwischen Authentizität und Manipulation werden verschwimmen und in der Folge werden wir Menschen unser Fähigkeit zur Erkenntnis, also die Art wie wir zu unserem Wissen kommen, neu hinterfragen, denn alles was wir (digital) sehen, muss künftig von uns in Zweifel gezogen werden.
Die alte philosophische Frage der Erkenntnistheorie, welche mit der Art und Weise, wie wir Wissen erlangen und wie wir unsere Überzeugungen rechtfertigen, erlebt durch die Digitalisierung eine Renaissance. Denn im Zeitalter von Deepfakes werden wir noch unsicherer sein, wie zuverlässig unser Wissen ist.
Diese grundlegende philosophische Disziplin der Erkenntnistheorie, kann uns erneut dabei helfen, die Natur und den Umfang unseres Wissens zu verstehen und kritisch zu hinterfragen.
Die Utopie darin?
Die Utopie besteht darin, dass wir sensibler gegenüber unseren eigenen Urteilen werden und unsere Meinungen und Erkenntnisse über die Welt hinterfragen. Dies könnte nahezu ein Patent für eine bessere Welt sein. Indem wir die Illusion von Gewissheit und absolutem Wissen erkennen, öffnen wir uns für einen fortwährenden Prozess des Lernens und des kritischen Denkens.
Das ermöglicht es uns, unsere eigenen Vorurteile und Annahmen zu überwinden und ein tieferes Verständnis der Welt zu entwickeln.
