Dieser Artikel behandelt automatisch erstellte Bildbeschreibungen. Was können sie leisten und wie funktioniert das eigentlich? Was hat Datenschutz damit zu tun und wie sieht es in der Zukunft aus?

In den letzten beiden Blogartikeln habe ich beschrieben, wie Bildbeschreibungen manuell hinzugefügt werden können und was eine gute Bildbeschreibung ausmacht. Mit diesem Wissen lassen sich automatisch erstellte Bildbeschreibungen erst bewerten. Dabei fasse ich die Beschreibung dessen, was sich auf dem Bild befindet und das Auslesen von Texten zusammen.

Wie kommt man an automatische Bildbeschreibungen?

Es gibt ein paar Dienste, die Bildbeschreibungen zur Verfügung stellen. Diese basieren auf Machine Learning. Musste man vor ein paar Jahren noch mühsam beibringen eine Katze vom Hund zu unterscheiden, ist es mittlerweile möglich, einzelne Bestandteile von Bildern zu erkennen und diese teilweise auch in Beziehung zueinander zu setzen. Dadurch entstehen sehr ordentliche Bildbeschreibungen. Allerdings ersetzen sie (noch) keine Bildbeschreibung, die von Hand erstellt wurde.

Die verschiedenen Möglichkeiten

Screenreader

JAWS

Es gibt verschiedene Möglichkeiten, an Bildbeschreibungen zu kommen. Der screenreader JAWS bietet die Möglichkeit, Bilder auf Anfrage beschreiben zu lassen. Dabei wird das Bild, das man beschrieben haben möchte, an Microsoft, Facebook oder Google geschickt und man erhält dann die Beschreibung.

NVDA

Ein ähnliches Verhalten lässt sich bei NVDA durch die Erweiterung Online OCR nachrüsten. Allerdings funktioniert dies eher schlecht als recht.

VoiceOver

Der screeenreader von Apple VoiceOver kann sich ebenfalls einer Bildbeschreibung bedienen. Dies funktioniert allerdings als einzige Möglichkeit lokal auf dem iPhone selbst, sodass es ohne eine Internetverbindung klappt. Einzig ein Satz der Daten für das Machine Learning muss auf das Gerät geladen werden. Aus Sicht des Datenschutzes ist Apples Ansatz sehr begrüßenswert. Durch die nahtlose Integration des Screenreaders in das Betriebssystem werden selbst Cover-Arts bei Apple Music beschrieben. Derzeit sind die Beschreibungen allerdings noch in englischer Sprache.

Zusätzlich gibt es die Möglichkeit Apps, die von Programmierern nicht barrierefrei programmiert wurden, rudimentär auszulesen. Dabei werden übliche Symbole und Icons interpretiert. Allerdings ist auch das definitiv kein Ersatz für ordentlich barrierefrei programmierte Apps.

Dienste

Facebook

Facebook hat die Bildbeschreibungen in den eigenen Produkten bereits integriert, sodass man bei unbeschriebenen Bildern bereits eine automatisierte Bildbeschreibung erhält. Diese Bildbeschreibung ist aber eher mit einer Stichwortliste gleichzusetzen. “Natur, Himmel, Baum” wäre ein Beispiel dafür.

Google

Google hat seinen Bildbeschreibungsalgorithmus seit 2019 in den Chrome-Browser eingefügt. Öffnet man das Kontext-Menü auf einem Bild, so findet man die Option, Bildbeschreibungen von Google zu verwenden. Im Gegensatz zu Facebooks Beschreibungen, sind sie hier sehr viel umfangreicher. Beispielsweise ließ sich ein Screenshot damit so weit auslesen, dass ich wusste, dass es sich um einen Screenshot handelt. Auch wurde dadurch klar, von welcher App dieser Screenshot war und welcher Text darauf stand. Daraus ergab sich in diesem Beispiel eine sehr vollständige Beschreibung.

Wie gut so eine Beschreibung ist, lässt sich pauschal jedoch nicht beantworten.

Microsoft

Microsofts Bildbeschreibung wird damit beworben Bilder so gut zu beschreiben, wie es ein Mensch tun würde. Bei sehr einfachen Motiven kommen die Beschreibungen schon sehr nahe an menschliche Beschreibungen heran. Je komplexer das Bild, desto größer ist aber der Abstand.

Die Bildbeschreibungen von Microsoft kann man unter anderem in der App Seeing AI begutachten. Die Besonderheit dieser App ist es, dass die Möglichkeit besteht, erkannte Bilder mit dem Finger zu erforschen. Das vermittelt einen Eindruck darüber, wo sich bestimmte Gegenstände oder Text auf dem Bild befinden. Zusätzlich funktioniert diese App mit dem Live-Bild der Kamera, sodass in vielen Fällen vorher kein Foto gemacht werden muss.

Envison AI

Als Gegenpart zu Seeing AI sei hier der Vollständigkeit halber noch Envision AI erwähnt. Das Konzept dieser App ist dem von Seeing AI sehr ähnlich. Allerdings ist sie sowohl für iOS als auch für Android zu haben.

Envision AI setzt dabei auf verschiedene Plattformen zur Bilderkennung, sodass theoretisch immer die fortschrittlichste Technologie genutzt werden kann.

Datenschutz

Nicht zu vernachlässigen ist der Datenschutz bei diesem Thema. Viele der hier vorgestellten Möglichkeiten für automatische Bildbeschreibungen nutzen eine oder mehrere Cloud-Dienste. Zu beachten ist daher, dass durch die Cloud-Dienste ggf. personenbezogene Daten zur Auswertung an Dritte geschikct werden ohne zu wissen, was genau damit passiert. Hier ist zu empfehlen, dass man sich vor Nutzung sachkundig macht, um nicht vertragsbrüchig zu werden.

Apple mit der Bilderkennung in VoiceOver funktioniert dankenswerterweise offline. Seeing AI und Envision AI bieten ebenfalls zumindest eine schnelle Texterkennung lokal auf dem Smartphone ohne Internetverbindung. Mit zunehmender Rechenleistung ist es denkbar, dass mehr Funktionen lokal abgewickelt werden. Ob dies aber geschieht, muss die Zukunft zeigen.

Ein Ausblick in die Zukunft

Trotz vollmundiger Versprechen glaube ich nicht, dass die manuelle Bildbeschreibung überflüssig wird. Zumindest nicht in naher Zukunft. Wenn der Blindenführhund als Katze erkannt wird ist das zwar lustig. Es zeigt aber auch die Fehleranfälligkeit solcher automatischen Systeme auf.

Die Stärken solcher KI gesteuerten Systeme liegen aber heute schon da, wo es keine Bildbeschreibungen gibt. Es lässt sich mit den iPhone 12 Pro Modellen beispielsweise der Abstand zu Gegenständen oder Menschen in Echtzeit mit einer erstaunlich geringen Latenz ermitteln. In einem nächsten Schritt wird solch eine Funktionalität in Brillen eingebaut, sodass man die Hände frei hat.

Einen Anfang hat das Unternehmen hinter Envision AI mit den Envision Glasses gemacht. Andere Unternehmen werden folgen.

Dennoch bleibt bei Publikationen jeder Art die persönlich erstellte Bildbeschreibung das Mittel der Wahl. Denn dadurch behält man die Kontrolle darüber, welche Aspekte des Bildes transportiert werden sollen.

Und so ist die Praxis

Was aktuell möglich ist, soll der folgende Screencast exemplarisch zeigen.

Noch Fragen?

Rufen Sie mich bei Fragen und Interesse gerne unter 030 280 400 an.

Dennis Westphal

Weitere interessante Artikel