Automatisierte Bildbeschreibungen

Datum der Veröffentlichung

In den beiden Blogartikeln Bilder ohne Barrieren und Die richtige Bildbeschreibung habe ich erläutert, wie umschreibende Texte für Bilder manuell hinzugefügt werden können und was eine gute Erläuterung von Fotos oder Grafiken ausmacht. Erst mit diesem Wissen lassen sich automatisch erstellte Bilderklärungen überhaupt bewerten. Bei meinen folgenden Ausführungen fasse ich die Formulierung dessen, was visuell dargestellt wird, und das Auslesen von Texten zusammen.

Wie kommt man an automatische Bildbeschreibungen?

Es gibt ein paar Dienste, die Bildbeschreibungen zur Verfügung stellen. Diese basieren auf Machine Learning. Musste man dem System vor ein paar Jahren noch mühsam beibringen, eine Katze vom Hund zu unterscheiden, ist es mittlerweile möglich, einzelne Bestandteile von Bildern zu erkennen und diese teilweise sogar in Beziehung zueinander zu setzen. Dadurch entstehen sehr ordentliche Bildbeschreibungen. Allerdings ersetzen sie (noch) keine von Hand erstellten.

Die verschiedenen Möglichkeiten

Screenreader

Es gibt verschiedene Möglichkeiten, an Bildbeschreibungen zu kommen.

JAWS

Der Screenreader JAWS bietet den Service, Bilder auf Anfrage beschreiben zu lassen. Dabei wird das betreffende Bild an Microsoft, Facebook oder Google geschickt und man erhält dann die Beschreibung.

NVDA

Ein ähnliches Verhalten lässt sich bei NVDA durch die Erweiterung Online OCR nachrüsten. Allerdings funktioniert dies eher schlecht als recht.

VoiceOver

Der Screenreader von Apple VoiceOver kann sich ebenfalls einer Bildbeschreibung bedienen. Dies funktioniert allerdings nur lokal auf dem iPhone selbst, so dass keine Internetverbindung nötig ist. Einzig ein Satz der Daten für das Machine Learning muss auf das Gerät geladen werden. Aus Datenschutzperspektive ist Apples Ansatz sehr begrüßenswert. Durch die nahtlose Integration des Screenreaders in das Betriebssystem werden selbst Cover-Arts bei Apple Music beschrieben. Derzeit sind die Beschreibungen allerdings noch in englischer Sprache.

Zusätzlich gibt es die Möglichkeit, Apps, die von Entwicklern nicht barrierefrei programmiert wurden, rudimentär auszulesen. Dabei werden übliche Symbole und Icons interpretiert. Allerdings ist auch das definitiv kein Ersatz für Apps, die mit dem Augenmerk auf Barrierefreiheit programmiert wurden.

Dienste

Facebook

Facebook hat die Bildbeschreibungen in die eigenen Produkte bereits integriert, so dass man bei unbeschriebenen Bildern eine automatisierte Bildbeschreibung erhält. Diese ist aber eher mit einer Stichwortliste gleichzusetzen. “Natur, Himmel, Baum” wäre ein Beispiel dafür.

Google

Google hat einen Bildbeschreibungsalgorithmus 2019 in den Chrome-Browser eingefügt. Öffnet man das Kontextmenü auf einem Bild, so findet man die Option, Bildbeschreibungen von Google zu verwenden. Diese sind im Gegensatz zu denen von Facebook sehr viel umfangreicher. Beispielsweise ließ sich ein Screenshot so weit auslesen, dass ich wusste, dass es sich um einen Screenshot handelt, von welcher App dieser Screenshot war und welcher Text darauf stand. Daraus ergab sich eine sehr vollständige Darstellung.

Wie gut so eine Beschreibung ist, lässt sich pauschal jedoch nicht beantworten.

Microsoft

Microsofts Bildbeschreibung wird damit beworben, Bilder so gut zu beschreiben, wie es ein Mensch tun würde. Bei sehr einfachen Motiven kommen die Texte tatsächlich recht nahe an menschliche Erläuterungen heran. Je komplexer das Bild, desto größer ist aber der Abstand.

Die Bildbeschreibungen von Microsoft kann man unter anderem in der App Seeing AI begutachten. Das Besondere an dieser App ist, dass man Bilder mit dem Finger erforschen kann. Das vermittelt einen Eindruck darüber, wo sich bestimmte Gegenstände oder Textbausteine auf dem Bild befinden. Zusätzlich funktioniert diese App sogar mit dem Live-Bild der Kamera, so dass in vielen Fällen vorher kein Screenshotfoto gemacht werden muss.

Envision AI

Als Gegenpart zu Seeing AI sei hier der Vollständigkeit halber noch Envision AI erwähnt. Das Konzept dieser App ist dem von Seeing AI sehr ähnlich. Allerdings ist sie sowohl für iOS als auch für Android zu haben.

Envision AI setzt dabei auf verschiedene Plattformen zur Bilderkennung, so dass theoretisch immer die fortschrittlichste Technologie genutzt werden kann.

Datenschutz

Nicht zu vernachlässigen ist der Datenschutz bei diesem Thema. Viele der hier vorgestellten Möglichkeiten für automatische Bildbeschreibungen nutzen einen oder mehrere Cloud-Dienste. Zu beachten ist daher, dass durch die Cloud-Dienste gegebenenfalls personenbezogene Daten zur Auswertung an Dritte geschickt werden, ohne dass man weiß, was genau damit passiert. Hier ist zu empfehlen, sich vor Nutzung sachkundig zu machen, um nicht vertragsbrüchig zu werden.

Apple mit der Bilderkennung in VoiceOver funktioniert dankenswerterweise offline. Seeing AI und Envision AI bieten ebenfalls zumindest eine schnelle Texterkennung lokal auf dem Smartphone ohne Internetverbindung. Mit zunehmender Rechenleistung ist es denkbar, dass mehr Funktionen lokal abgewickelt werden. Ob dies aber geschieht, wird sich künftig zeigen.

Ein Ausblick in die Zukunft

Trotz vollmundiger Versprechen glaube ich nicht, dass die manuelle Bildbeschreibung überflüssig wird. Zumindest nicht in naher Zukunft. Wenn der Blindenführhund als Katze erkannt wird, ist das zwar lustig, zeigt aber auch die Fehleranfälligkeit solcher automatischen Systeme auf.

Die Stärken solch KI-gesteuerter Systeme liegen heute aber auf jeden Fall da, wo es keine Bildbeschreibungen gibt. So lässt sich mit den Modellen von iPhone 12 Pro beispielsweise der Abstand zu Gegenständen oder Menschen in Echtzeit mit einer erstaunlich geringen Latenz ermitteln. In einem nächsten Schritt wird eine derartige Funktionalität in Brillen eingebaut, so dass man die Hände frei hat.

Einen Anfang hat das Unternehmen hinter Envision AI mit den Envision Glasses gemacht. Andere werden folgen.

Dennoch bleibt bei Publikationen jeder Art die persönlich erstellte Bildbeschreibung das Mittel der Wahl. Denn dadurch behält man die Kontrolle darüber, welche Aspekte des Bildes adressiert werden sollen.

Und so ist die Praxis

Was aktuell möglich ist, soll der folgende Screencast exemplarisch zeigen.

Screencast: Automatische Bildbeschreibungen

Profile picture for user dennis.westphal

Dennis Westphal

Dennis ist IT-Berater bei der Gesellschaft zur Entwicklung von Dingen. Sein Gebiet ist die Barrierefreiheit. Hilfreich dabei: Dennis ist seit Geburt blind. Seine Screencasts erstellt er mit Open-Source-Software.