KI-generierte Alt-Texte: Bilder im CMS barrierefrei machen
Das Alt-Attribut ist eine der ältesten Pflichten im Web - und die am häufigsten ignorierte. Seit dem Inkrafttreten des Barrierefreiheitsstärkungsgesetzes im Juni 2025 ist das leere Alt-Feld kein Schönheitsfehler mehr, sondern ein Compliance-Risiko. Multimodale KI-Modelle können helfen, dieses Problem systematisch zu lösen.
Ein vernünftiger Alt-Text braucht 30 bis 60 Sekunden pro Bild. Bei einem Online-Shop mit hunderten Produktbildern oder einem Magazin-CMS mit täglichen Artikeln summiert sich das zu Personenstunden, die in keiner Redaktionsplanung einen Posten haben. In der Praxis bedeutet das: Alt-Texte werden verschoben und nie nachgeholt. Das Ergebnis sind Verstöße gegen WCAG-Erfolgskriterium 1.1.1 (Non-text Content), die bei einem Audit oder einer Abmahnung sichtbar werden - und seit dem BFSG auch sanktionierbar sind.
BFSG und EAA: Warum Alt-Texte jetzt Pflicht sind
Das Barrierefreiheitsstärkungsgesetz (BFSG) setzt den European Accessibility Act (EAA) in deutsches Recht um. Es ist am 28. Juni 2025 in Kraft getreten und verpflichtet Unternehmen, deren digitale Produkte und Dienstleistungen sich an Verbraucher richten, zur Einhaltung von Barrierefreiheitsanforderungen. Die technische Grundlage bildet die Norm EN 301 549, die sich an den Web Content Accessibility Guidelines (WCAG 2.1) orientiert. Rein private oder reine B2B-Angebote sowie Kleinstunternehmen sind ausgenommen - aber jeder Online-Shop, jede buchbare Dienstleistung mit Endkundenbezug fällt in den Geltungsbereich.
Was das konkret für Bildinhalte bedeutet
WCAG 2.1 Erfolgskriterium 1.1.1 verlangt, dass jeder nicht-textliche Inhalt eine Textalternative hat, die den gleichen Zweck erfüllt. Bei einem Produktfoto heißt das: nicht 'Bild_4873.jpg', sondern eine Beschreibung, die einer sehbehinderten Person vermittelt, was auf dem Bild zu sehen ist. Bei dekorativen Bildern genügt ein leeres alt-Attribut - aber die Entscheidung, ob ein Bild dekorativ oder informativ ist, muss bewusst getroffen werden. Genau diese Entscheidung fällt im Redaktionsalltag regelmäßig unter den Tisch.
Multimodale KI als Alt-Text-Vorschlag
Aktuelle multimodale Modelle können Bilder analysieren und in natürlicher Sprache beschreiben. Für Alt-Texte reicht dabei nicht das größte verfügbare Modell - ein mittelgroßes Open-Source-Modell liefert bereits brauchbare Ergebnisse. Google hat die Gemma-4-Modellfamilie am 2. April 2026 angekündigt. Sie steht unter Apache-2.0-Lizenz, verarbeitet Text, Bilder sowie Audio und ist in mehreren Modellgrößen verfügbar. Über den API-Aggregator CometAPI ist Gemma 4 zugänglich, ebenso wie Alternativen von Anthropic, OpenAI oder Meta.
Was kostet ein KI-generierter Alt-Text?
Pro Bild fallen je nach Modell und Bildauflösung typischerweise einige hundert bis wenige tausend Input-Tokens für das Bild-Encoding plus einen knappen Prompt an, dazu ein kurzer Output für die eigentliche Beschreibung. Bei den aktuellen Marktpreisen für mittelgroße Open-Source-Modelle über API-Aggregatoren wie CometAPI bewegt sich der Preis pro Bild in der Größenordnung von Bruchteilen eines Cents. Für einen Shop mit 500 Produktbildern pro Monat bedeutet das API-Kosten von geschätzt wenigen Euro - eine Größenordnung, die im Vergleich zu den eingesparten Personalstunden vernachlässigbar ist.
Drei Wege zur Integration
Je nach CMS, Bildvolumen und technischen Ressourcen gibt es unterschiedliche Integrationspfade. Nicht jeder passt zu jedem Setup.
Erstens: Fertige Plugins. Für WordPress existieren mehrere Extensions zur automatischen Alt-Text-Generierung, darunter das Plugin 'AI Alt Text Generator' und 'AutoAlt', das explizit EAA-Konformität adressiert und in Deutschland entwickelt wird. Für Shopware bietet AutoAlt ebenfalls eine Extension mit Massen-Generierung und mehrsprachiger Unterstützung. Pagemachine stellt für TYPO3 die Extension 'AI Tools' bereit, die Alt-Texte auf einem deutschen GPU-Server DSGVO-konform generiert. Für Magento ist AltText.ai als Plattform-Integration verfügbar. Diese Plugins funktionieren in der Regel auf Knopfdruck oder automatisch beim Asset-Upload. Die Qualität variiert allerdings stark - generische Lösungen liefern häufig formelhafte Ergebnisse wie 'ein Bild von einem Mann mit einer Tasse Kaffee', die für Barrierefreiheit wenig hilfreich sind.
Zweitens: Eigenes Skript via API. Für Headless-Setups, Statamic, selbstgebaute CMS oder größere Asset-Migrationen lohnt sich ein schlankes Skript in Python oder PHP, das die Asset-Liste durchgeht und pro Bild einen API-Aufruf gegen ein Vision-Modell absetzt. CometAPI eignet sich hier als Aggregator, weil er verschiedene Anbieter unter einer einheitlichen API bündelt. Ein separater Blog-Post erklärt das grundsätzliche Setup der API-Nutzung im Detail:
Drittens: Individuelle TYPO3- und Shopware-Extensions. Für unsere TYPO3- und Shopware-Projekte bauen wir bei Smart Things die Anbindung individuell in den bestehenden Redaktionsworkflow ein. Das bedeutet konkret: ein 'Alt-Text generieren'-Button direkt am Bild-Feld im Backend, ein Batch-Job für bestehende Asset-Bibliotheken mit hunderten oder tausenden Bildern, deutsche Sprache als Standard-Output und ein Logging aller KI-Vorschläge mit Editor-Override. Der letzte Punkt ist entscheidend - die KI liegt regelmäßig daneben, und der Redakteur muss das letzte Wort haben. Die individuelle Anpassung sorgt dafür, dass der Prompt auf den jeweiligen Kontext zugeschnitten ist: Produktbilder in einem Modeshop brauchen andere Beschreibungen als Nachrichtenfotos in einem Verlagsportal.
Was die Redaktion noch tun muss - und was nicht
KI-generierte Alt-Texte sind Vorschläge, keine fertigen Endprodukte. Die inhaltliche Verantwortung bleibt bei der Redaktion. Aber der Arbeitsaufwand ändert sich grundlegend: Statt bei null anzufangen, korrigiert der Editor einen Vorschlag - falscher Kontext, zu lang, fehlende Produktbezeichnung. Die Bearbeitungszeit pro Bild sinkt typischerweise von 30 bis 60 Sekunden auf unter 10 Sekunden. Bei 50 Bildern am Tag ist das der Unterschied zwischen einer halben Stunde Fleißarbeit und unter zehn Minuten Qualitätskontrolle.
Wichtig ist das Verständnis, was multimodale Modelle gut können und was nicht. Sie beschreiben zuverlässig, was auf einem Bild zu sehen ist: Personen, Objekte, Farben, räumliche Anordnung. Sie erkennen in der Regel keine Markenintentionen, keine Designsprache und keine kontextuelle Bedeutung eines Bildes innerhalb eines Artikels. Wenn ein Headerbild eine Stimmung transportieren soll, kann die KI das Motiv beschreiben - aber nicht erklären, warum die Redaktion genau dieses Bild gewählt hat. Diese Einordnung bleibt menschliche Arbeit. Das ist kein Mangel der Technologie, sondern die richtige Arbeitsteilung: Die KI übernimmt die Beschreibung, der Mensch übernimmt die Einordnung.
