KI-Blog

KI-generierte Alt-Texte: Bilder im CMS barrierefrei machen

Das Alt-Attribut ist eine der ältesten Pflichten im Web - und die am häufigsten ignorierte. Seit dem Inkrafttreten des Barrierefreiheitsstärkungsgesetzes im Juni 2025 ist das leere Alt-Feld kein Schönheitsfehler mehr, sondern ein Compliance-Risiko. Multimodale KI-Modelle können helfen, dieses Problem systematisch zu lösen.

Ein vernünftiger Alt-Text braucht 30 bis 60 Sekunden pro Bild. Bei einem Online-Shop mit hunderten Produktbildern oder einem Magazin-CMS mit täglichen Artikeln summiert sich das zu Personenstunden, die in keiner Redaktionsplanung einen Posten haben. In der Praxis bedeutet das: Alt-Texte werden verschoben und nie nachgeholt. Das Ergebnis sind Verstöße gegen WCAG-Erfolgskriterium 1.1.1 (Non-text Content), die bei einem Audit oder einer Abmahnung sichtbar werden - und seit dem BFSG auch sanktionierbar sind.

BFSG und EAA: Warum Alt-Texte jetzt Pflicht sind

Das Barrierefreiheitsstärkungsgesetz (BFSG) setzt den European Accessibility Act (EAA) in deutsches Recht um. Es ist am 28. Juni 2025 in Kraft getreten und verpflichtet Unternehmen, deren digitale Produkte und Dienstleistungen sich an Verbraucher richten, zur Einhaltung von Barrierefreiheitsanforderungen. Die technische Grundlage bildet die Norm EN 301 549, die sich an den Web Content Accessibility Guidelines (WCAG 2.1) orientiert. Rein private oder reine B2B-Angebote sowie Kleinstunternehmen sind ausgenommen - aber jeder Online-Shop, jede buchbare Dienstleistung mit Endkundenbezug fällt in den Geltungsbereich.

Was das konkret für Bildinhalte bedeutet

WCAG 2.1 Erfolgskriterium 1.1.1 verlangt, dass jeder nicht-textliche Inhalt eine Textalternative hat, die den gleichen Zweck erfüllt. Bei einem Produktfoto heißt das: nicht 'Bild_4873.jpg', sondern eine Beschreibung, die einer sehbehinderten Person vermittelt, was auf dem Bild zu sehen ist. Bei dekorativen Bildern genügt ein leeres alt-Attribut - aber die Entscheidung, ob ein Bild dekorativ oder informativ ist, muss bewusst getroffen werden. Genau diese Entscheidung fällt im Redaktionsalltag regelmäßig unter den Tisch.

Multimodale KI als Alt-Text-Vorschlag

Aktuelle multimodale Modelle können Bilder analysieren und in natürlicher Sprache beschreiben. Für Alt-Texte reicht dabei nicht das größte verfügbare Modell - ein mittelgroßes Open-Source-Modell liefert bereits brauchbare Ergebnisse. Google hat die Gemma-4-Modellfamilie am 2. April 2026 angekündigt. Sie steht unter Apache-2.0-Lizenz, verarbeitet Text, Bilder sowie Audio und ist in mehreren Modellgrößen verfügbar. Über den API-Aggregator CometAPI ist Gemma 4 zugänglich, ebenso wie Alternativen von Anthropic, OpenAI oder Meta.

Was kostet ein KI-generierter Alt-Text?

Pro Bild fallen je nach Modell und Bildauflösung typischerweise einige hundert bis wenige tausend Input-Tokens für das Bild-Encoding plus einen knappen Prompt an, dazu ein kurzer Output für die eigentliche Beschreibung. Bei den aktuellen Marktpreisen für mittelgroße Open-Source-Modelle über API-Aggregatoren wie CometAPI bewegt sich der Preis pro Bild in der Größenordnung von Bruchteilen eines Cents. Für einen Shop mit 500 Produktbildern pro Monat bedeutet das API-Kosten von geschätzt wenigen Euro - eine Größenordnung, die im Vergleich zu den eingesparten Personalstunden vernachlässigbar ist.

Drei Wege zur Integration

Je nach CMS, Bildvolumen und technischen Ressourcen gibt es unterschiedliche Integrationspfade. Nicht jeder passt zu jedem Setup.

Erstens: Fertige Plugins. Für WordPress existieren mehrere Extensions zur automatischen Alt-Text-Generierung, darunter das Plugin 'AI Alt Text Generator' und 'AutoAlt', das explizit EAA-Konformität adressiert und in Deutschland entwickelt wird. Für Shopware bietet AutoAlt ebenfalls eine Extension mit Massen-Generierung und mehrsprachiger Unterstützung. Pagemachine stellt für TYPO3 die Extension 'AI Tools' bereit, die Alt-Texte auf einem deutschen GPU-Server DSGVO-konform generiert. Für Magento ist AltText.ai als Plattform-Integration verfügbar. Diese Plugins funktionieren in der Regel auf Knopfdruck oder automatisch beim Asset-Upload. Die Qualität variiert allerdings stark - generische Lösungen liefern häufig formelhafte Ergebnisse wie 'ein Bild von einem Mann mit einer Tasse Kaffee', die für Barrierefreiheit wenig hilfreich sind.

Zweitens: Eigenes Skript via API. Für Headless-Setups, Statamic, selbstgebaute CMS oder größere Asset-Migrationen lohnt sich ein schlankes Skript in Python oder PHP, das die Asset-Liste durchgeht und pro Bild einen API-Aufruf gegen ein Vision-Modell absetzt. CometAPI eignet sich hier als Aggregator, weil er verschiedene Anbieter unter einer einheitlichen API bündelt. Ein separater Blog-Post erklärt das grundsätzliche Setup der API-Nutzung im Detail:

Drittens: Individuelle TYPO3- und Shopware-Extensions. Für unsere TYPO3- und Shopware-Projekte bauen wir bei Smart Things die Anbindung individuell in den bestehenden Redaktionsworkflow ein. Das bedeutet konkret: ein 'Alt-Text generieren'-Button direkt am Bild-Feld im Backend, ein Batch-Job für bestehende Asset-Bibliotheken mit hunderten oder tausenden Bildern, deutsche Sprache als Standard-Output und ein Logging aller KI-Vorschläge mit Editor-Override. Der letzte Punkt ist entscheidend - die KI liegt regelmäßig daneben, und der Redakteur muss das letzte Wort haben. Die individuelle Anpassung sorgt dafür, dass der Prompt auf den jeweiligen Kontext zugeschnitten ist: Produktbilder in einem Modeshop brauchen andere Beschreibungen als Nachrichtenfotos in einem Verlagsportal.

Was die Redaktion noch tun muss - und was nicht

KI-generierte Alt-Texte sind Vorschläge, keine fertigen Endprodukte. Die inhaltliche Verantwortung bleibt bei der Redaktion. Aber der Arbeitsaufwand ändert sich grundlegend: Statt bei null anzufangen, korrigiert der Editor einen Vorschlag - falscher Kontext, zu lang, fehlende Produktbezeichnung. Die Bearbeitungszeit pro Bild sinkt typischerweise von 30 bis 60 Sekunden auf unter 10 Sekunden. Bei 50 Bildern am Tag ist das der Unterschied zwischen einer halben Stunde Fleißarbeit und unter zehn Minuten Qualitätskontrolle.

Wichtig ist das Verständnis, was multimodale Modelle gut können und was nicht. Sie beschreiben zuverlässig, was auf einem Bild zu sehen ist: Personen, Objekte, Farben, räumliche Anordnung. Sie erkennen in der Regel keine Markenintentionen, keine Designsprache und keine kontextuelle Bedeutung eines Bildes innerhalb eines Artikels. Wenn ein Headerbild eine Stimmung transportieren soll, kann die KI das Motiv beschreiben - aber nicht erklären, warum die Redaktion genau dieses Bild gewählt hat. Diese Einordnung bleibt menschliche Arbeit. Das ist kein Mangel der Technologie, sondern die richtige Arbeitsteilung: Die KI übernimmt die Beschreibung, der Mensch übernimmt die Einordnung.

Häufige Fragen zu KI-generierten Alt-Texten

Ist es DSGVO-konform, Bilder an eine externe KI-API zu senden?
Es kommt auf den Anbieter und die Vertragsgestaltung an. Bei API-Diensten greifen in der Regel Auftragsverarbeitungsverträge. Wer auf Nummer sicher gehen will, hostet ein Open-Source-Modell wie Gemma 4 auf eigenem Server in Deutschland - dann verlassen die Bilddaten das eigene Rechenzentrum nicht.
Wie gut sind KI-generierte Alt-Texte auf Deutsch?
Aktuelle multimodale Modelle wie Gemma 4 oder GPT-4o liefern brauchbare deutsche Beschreibungen, die grammatisch korrekt und inhaltlich treffend sind. Die Qualität reicht als Ausgangspunkt für die redaktionelle Nachbearbeitung - Fachbegriffe oder Produktnamen muss der Editor in der Regel ergänzen.
Können wir damit unseren bestehenden Bildbestand nachträglich mit Alt-Texten versehen?
Ja, über einen Batch-Job lassen sich auch bestehende Asset-Bibliotheken mit tausenden Bildern systematisch abarbeiten. Die KI generiert Vorschläge, die dann stichprobenartig oder vollständig von der Redaktion geprüft werden.
Was kostet die Nachrüstung für einen mittelgroßen Online-Shop?
Die reinen API-Kosten für die Alt-Text-Generierung liegen typischerweise bei wenigen Euro pro Monat. Der größere Posten ist die Integration ins CMS und die initiale Aufarbeitung des Bildbestands - je nach Umfang und System liegt das in der Regel im niedrigen vierstelligen Bereich.
Erkennt die KI, ob ein Bild dekorativ oder informativ ist?
Nur eingeschränkt. Die KI beschreibt, was sie sieht, trifft aber keine verlässliche Entscheidung darüber, ob ein Bild im Seitenkontext rein dekorativ ist. Diese Einstufung muss die Redaktion selbst vornehmen - bei dekorativen Bildern wird das alt-Attribut bewusst leer gelassen.

← Zurück zur KI-Blog-Übersicht

Kontakt

Wenn Sie klären möchten, welche Lösung
für Ihr Vorhaben sinnvoll ist.

Ob KI-Website, TYPO3, Shopware, laufender Support oder der sinnvolle Einsatz von KI-Tools: Der erste Schritt ist eine saubere Einordnung. Danach lässt sich klar entscheiden, was wirtschaftlich, technisch und zeitlich realistisch ist.

Philipp Huberty in Telefonsituation

E-Mail

philipp.huberty@smartthings.de

Telefon

+49 178 5191919

Direkter Kontakt

Wenn Sie Ihr Vorhaben kurz einordnen möchten, erreichen Sie mich direkt per Mail oder Telefon – ohne Umwege über Vertrieb oder Assistenz.

Anfrage starten