OpenAI lanciert ChatGPT Images 2.0 mit Denkmodus

Das neue System soll die Darstellung von Texten und die Platzierung von Objekten in Grafiken massiv verbessern

Die amerikanische KI-Firma OpenAI hat ein neues Grafikmodell auf den Markt gebracht: ChatGPT Images 2.0 soll komplexe visuelle Aufgaben durch logisches Denken lösen können. Nach Angaben von OpenAI verbessert das System die Darstellung von Texten und die Platzierung von Objekten in Grafiken massiv. Es ermöglicht die Erstellung von bis zu acht konsistenten Bildern aus einem einzigen Befehl. Damit will das Unternehmen ChatGPT Images 2.0 als Werkzeug für die professionelle Medienproduktion ins Spiel bringen.

Das Modell Images 2.0 verfügt über eine integrierte Reasoning-Funktion für visuelle Inhalte. OpenAI bezeichnet das System als «visuellen Denkpartner für den Arbeitsalltag». In einem speziellen Thinking-Modus plant die KI den Bildaufbau, bevor sie die Grafik generiert. Das führt zu einer präziseren Umsetzung von detaillierten Anweisungen. Die KI kann zudem das Internet durchsuchen, um aktuelle Informationen in Grafiken zu integrieren.

Layout und Text

Die Genauigkeit bei der Darstellung von Schriftzeichen wurde laut OpenAI erheblich gesteigert. Das Modell kann nun ganze Absätze, Etiketten und komplexe Layouts rendern. Besonders bei nicht-lateinischen Schriften wie Japanisch, Koreanisch oder Hindi erzielt das Modell bessere Resultate. OpenAI will sich damit als Werkzeug für die Erstellung von Postern, Infografiken und Benutzeroberflächen ins Spiel bringen. Frühere Systeme scheiterten oft an lesbaren Texten innerhalb von Bildern.

Das System unterstützt Auflösungen von bis zu 2K über die Programmierschnittstelle. Nutzer können das Seitenverhältnis dabei wählen, von extremen Breitbildformaten bis zu schmalen Hochformaten. Ein neues Feature erlaubt die Beibehaltung von Charakteren und Stilen über mehrere Bilder hinweg. Das soll die Produktion von Storyboards oder Comicstreifen ermöglichen. Die Funktion zur Bildverifizierung prüft das Ergebnis zudem auf Übereinstimmung mit dem ursprünglichen Prompt.

Verfügbarkeit und Modi

OpenAI bietet das Modell in zwei verschiedenen Geschwindigkeitsstufen an. Der Instant-Modus liefert schnelle Ergebnisse für einfache Anfragen. Der Thinking-Modus ist für zahlende Abonnenten reserviert und bewältigt anspruchsvollere gestalterische Probleme. Das Modell mit dem Namen gpt-image-2 ist für alle ChatGPT-Nutzer sowie über die API zugänglich. Die Wissensdatenbank des Systems reicht bis Dezember 2025 zurück.

Quelle:
OpenAI releases ChatGPT Image 2.0, openai.com

Layout und Text

Verfügbarkeit und Modi

Antwort abbrechen