ChatGPT kann jetzt sehen, hören und sprechen

Die kostenpflichtige Version von ChatGPT kann jetzt das, was der Bing Chat schon seit einigen Wochen kann. Er bekommt in der neuesten Ausgabe ein Sprachein- und -ausgabe. Außerdem soll der “neue” ChatGPT jetzt auch auf Bilder reagieren können.

Inhaltsverzeichnis

Was ist neu?

Sprachfähigkeiten

Benutzer können sich jetzt mit ChatGPT an Sprachkonversationen beteiligen. Dies bietet die Flexibilität, Diskussionen in Echtzeit zu führen, Geschichten anzufordern oder Debatten zu lösen. Fünf verschiedene Stimmen stehen den Nutzern zur Auswahl. Die Sprachtechnologie basiert auf einem Text-to-Speech-Modell, das mithilfe von professionellen Sprecher*innen entwickelt wurde.

Bild-Fähigkeit

Die Benutzer können mit ChatGPT Bilder für verschiedene Zwecke austauschen, z. B. zur Fehlerbehebung, zur Planung von Mahlzeiten oder zur Analyse komplexer Daten. Ein Zeichentool ist verfügbar, um sich auf bestimmte Teile von Bildern zu konzentrieren. Diese Funktion nutzt multimodale Modelle wie GPT-3.5 und GPT-4, die sprachliche Schlussfolgerungen auf eine breite Palette von Bildern anwenden. So kann ChatGPT dann z.B. mittels eines hochgeladenen Fotos eines Fahrradsattels erklären, ob der Sitz richtig eingestellt ist und wie man die Einstellung ändern kann, welches Werkzeug dafür verwendet werden muss usw.

https://youtu.be/RAvUaB4eR6A?si=k9Up4-dz4XjlS_8S

Vorsicht ist geboten!

OpenAI betont bei der Einführung dieser Funktionen den verantwortungsvollen Einsatz und die Sicherheit. Die Voice-Technologie ist zwar vielversprechend, birgt aber auch neue Risiken, wie z. B. die Möglichkeit der böswilligen Nutzung oder der Nachahmung. OpenAI geht mit diesen Risiken sorgfältig um, indem es sich zunächst auf bestimmte Anwendungsfälle konzentriert, wie z. B. Voice-Chat, der die Zusammenarbeit mit professionellen Synchronsprechern und Partnern wie Spotify für Sprachübersetzungsfunktionen beinhaltet.

Auch die bildbasierten Funktionen werden mit Bedacht eingesetzt. OpenAI ist sich der Herausforderungen bewusst, die bildbasierte Modelle mit sich bringen, darunter Fehlinterpretationen und Szenarien mit hohem Risiko. Vor einem breiteren Einsatz wurden die Modelle mit Red Teamern und Alpha-Testern in verschiedenen Bereichen getestet, um potenzielle Risiken zu erkennen und zu beseitigen.

OpenAI ist bestrebt, sowohl die Sprach- als auch die Sehfunktionen für die Nutzer*innen nützlich und sicherzumachen. Der Ansatz wurde durch die reale Nutzung und das Feedback, insbesondere in Zusammenarbeit mit Be My Eyes, einer mobilen App für sehbehinderte Menschen, geprägt. Es ist wichtig zu erwähnen, dass Maßnahmen ergriffen wurden, um die Fähigkeit von ChatGPT, Analysen und direkte Aussagen über Einzelpersonen zu machen, einzuschränken, um die Privatsphäre zu respektieren.

Das Unternehmen verpflichtet sich zur Transparenz über die Grenzen dieser Modelle. Während ChatGPT in der Lage ist, englische Texte zu transkribieren, kann es bei bestimmten Sprachen oder Skripten schlecht abschneiden. Benutzern wird geraten, in speziellen oder risikoreichen Anwendungsfällen Vorsicht walten zu lassen.

Buchempfehlung

Das Buch „Der Digitalschock“ von Jörg Schieb und Peter Posch eignet sich ideal, um sich eine fundierten, allgemeinen Überblick zum Thema ChatGPT zu erhalten. Es handelt sich dabei um einen Affiliate-Link. Wenn du das Buch über diesen Link kaufst, bekomme ich eine kleine Provision von Amazon, der Preis ändert sich für dich nicht!

Sie sehen gerade einen Platzhalterinhalt von Standard. Um auf den eigentlichen Inhalt zuzugreifen, klicken Sie auf den Button unten. Bitte beachten Sie, dass dabei Daten an Drittanbieter weitergegeben werden.

Inhalt entsperren

Weitere Informationen

Fazit

Die neuen Funktionen von ChatGPT machen ihn aktuell zu einem der interessantesten und leistungsfähigsten Chatbots. OpenAI zieht damit der Konkurrenz weit davon. Wie lange dieser Vorsprung halten wird, ist ungewiss. Der Wettkampf der KI-Anbieter bleibt weiterhin spannend.

Quelle: openai.com