KI im Lernen

KI-Modell Count Anything: Zählen per Text revolutioniert Bildanalyse

Count Anything zählt Objekte in Bildern per Texteingabe und halbiert dabei die Fehlerrate gegenüber bisherigen KI-Systemen.

Von Jonas Weber 14.06.2026 3 Min. Lesezeit KI-bearbeitet

Hölzerne Scrabble-Steine mit den Buchstaben „AI“ und „NEWS“ für ein Bild mit einem technischen Konzept. — Foto: Markus Winkler / Pexels

Das neue KI-Modell „Count Anything“ kann als erstes System beliebige Objekte in Bildern zählen, indem es ausschließlich Texteingaben verwendet, ohne vorherige Trainingsbeispiele für spezifische Objekte zu benötigen.

Wie funktioniert das neue Zählsystem?

Count Anything basiert auf einer Kombination aus Vision-Transformer-Architektur und fortgeschrittenen Attention-Mechanismen. Das Modell erhält ein Bild und eine Textbeschreibung des zu zählenden Objekts. Anschließend identifiziert es automatisch alle entsprechenden Elemente im Bild und gibt deren Anzahl zurück. Der Ansatz funktioniert universell – von Menschenmengen in Stadien bis hin zu Zellstrukturen in mikroskopischen Aufnahmen.

Besonders bemerkenswert ist die Flexibilität des Systems. Während bisherige KI-Modelle für jede neue Objektkategorie separate Trainingsdaten benötigten, arbeitet Count Anything mit natürlicher Sprache. Ein Nutzer kann beispielsweise „rote Autos“ oder „Bakterien“ eingeben, ohne dass das System vorher explizit auf diese Kategorien trainiert wurde.

Welche Verbesserungen zeigen die Testergebnisse?

In standardisierten Benchmarks halbiert Count Anything die Fehlerrate im Vergleich zu etablierten multimodalen KI-Systemen. Bei Tests mit verschiedenen Datensätzen erreichte das Modell eine Genauigkeit von über 85 Prozent, während vergleichbare Systeme bei ähnlichen Aufgaben nur 70 Prozent schafften.

„Die Kombination aus Sprachverständnis und visueller Objekterkennung eröffnet völlig neue Möglichkeiten für die automatisierte Bildanalyse in Industrie und Forschung“, erklären die Entwickler des Systems.
L&D Barometer 2026
Wie sieht es bei euch aus?
Anonyme DACH-Branchenstudie. 10 Fragen, fünf Minuten — und du siehst direkt, wo dein Unternehmen im Vergleich steht.
Mitmachen

Besonders in der medizinischen Bildgebung und bei Qualitätskontrollen in der Fertigung könnte diese Technologie deutschen Unternehmen wie Siemens Healthineers oder Carl Zeiss erhebliche Effizienzgewinne ermöglichen.

Wo liegen die aktuellen Grenzen?

Trotz der Fortschritte stößt auch Count Anything an Grenzen. Bei extrem hohen Objektdichten, wie sie in dichten Menschenmengen oder bei überlappenden Partikeln auftreten, sinkt die Zuverlässigkeit deutlich. Mehrdeutige Begriffe stellen ebenfalls eine Herausforderung dar.

Überlappende oder teilweise verdeckte Objekte werden häufig falsch gezählt
Bei mehr als 500 Objekten pro Bild steigt die Fehlerrate exponentiell an
Kontextabhängige Begriffe wie „große Objekte“ führen zu inkonsistenten Ergebnissen
Schlechte Bildqualität oder ungünstige Lichtverhältnisse beeinträchtigen die Leistung erheblich

Welche Anwendungen sind für deutsche Unternehmen relevant?

Die Technologie bietet konkrete Einsatzmöglichkeiten in verschiedenen Branchen. In der Automobilindustrie könnten Unternehmen wie BMW oder Volkswagen die Qualitätskontrolle automatisieren, indem sie Bauteile oder Oberflächenfehler per Texteingabe zählen lassen. Forschungseinrichtungen wie das Max-Planck-Institut könnten mikroskopische Analysen beschleunigen.

Auch für kleine und mittelständische Unternehmen ergeben sich Chancen. Logistikunternehmen könnten Warenlager effizienter inventarisieren, während Sicherheitsfirmen Menschenzählungen bei Veranstaltungen automatisieren könnten.

Fazit

Count Anything stellt einen bedeutenden Fortschritt in der KI-gestützten Bildanalyse dar. Die Kombination aus Sprachverständnis und visueller Erkennung reduziert den Aufwand für spezialisierte Trainingsdaten erheblich. Für deutsche Unternehmen eröffnen sich neue Möglichkeiten zur Automatisierung, auch wenn die Technologie noch nicht für alle Anwendungsfälle ausgereift ist. Die verbleibenden Herausforderungen bei hohen Objektdichten und mehrdeutigen Begriffen zeigen, dass weitere Entwicklungsarbeit nötig ist.

Häufige Fragen zu diesem Beitrag

Was ist Count Anything?

Ein KI-Modell, das beliebige Objekte in Bildern zählen kann, indem es nur Textbeschreibungen verwendet, ohne vorheriges Training auf spezifische Objekte.

Wie genau ist Count Anything?

Das System erreicht über 85 Prozent Genauigkeit und halbiert die Fehlerrate im Vergleich zu bisherigen multimodalen KI-Modellen.

Welche Grenzen hat die Technologie?

Bei sehr hohen Objektdichten über 500 Elementen, überlappenden Objekten und mehrdeutigen Begriffen sinkt die Zuverlässigkeit deutlich ab.

Autor:in

Jonas Weber

Senior Editor — Tools & Plattformen

Jonas Weber ist Senior Editor bei eLearningTrends und spezialisiert auf LMS-, LXP- und Authoring-Tool-Vergleiche.

KI-Modell Count Anything: Zählen per Text revolutioniert Bildanalyse

Wie funktioniert das neue Zählsystem?

Welche Verbesserungen zeigen die Testergebnisse?

Wo liegen die aktuellen Grenzen?

Welche Anwendungen sind für deutsche Unternehmen relevant?

Fazit

Häufige Fragen zu diesem Beitrag

Jonas Weber

Hinterlasse einen Kommentar Antwort abbrechen

Verwandte Beiträge

Humanoide Roboter China: Wie die Volksrepublik den KI-Markt dominiert

Claude Fable 5: Anthropics neue KI verkürzt Code-Migration von 2 Monaten auf 1 Tag

Microsoft Frontier Fine Tuning: KI-Agenten für Unternehmen anpassen

Die wichtigsten eLearning-Trends, jeden Freitag im Posteingang.

Archives

Categories