Als OpenAI im Mai sein Spring Launch-Event abhielt, war eines der größten Highlights die Demo des neuen Sprachmodus auf ChatGPT, der mit den neuen Video- und Audiofunktionen von GPT-4o aufgerüstet wurde. Der mit Spannung erwartete neue Sprachmodus ist endlich da (mehr oder weniger).
Außerdem: Die besten KI-Chatbots des Jahres 2024: ChatGPT, Copilot und würdige Alternativen
Am Dienstag gab OpenAI über einen X-Post bekannt, dass der Voice Mode in einer Alpha-Version für eine kleine Gruppe von ChatGPT Plus-Benutzern eingeführt wird und ihnen einen intelligenteren Sprachassistenten bietet, der unterbrochen werden kann und auf die Emotionen der Benutzer reagiert.
Benutzer, die an der Alpha teilnehmen, erhalten eine E-Mail mit Anweisungen und eine Nachricht in der mobilen App, wie im obigen Video gezeigt. Wenn Sie noch keine Benachrichtigung erhalten haben, ist das kein Problem. OpenAI teilte mit, dass fortlaufend weitere Benutzer hinzugefügt werden, wobei geplant ist, dass alle ChatGPT Plus-Benutzer im Herbst darauf zugreifen können.
In der unten gezeigten Originaldemo bei der Einführungsveranstaltung präsentierte das Unternehmen die multimodalen Fähigkeiten des Sprachmodus, darunter die Unterstützung bei Inhalten auf den Bildschirmen der Benutzer und die Verwendung der Telefonkamera des Benutzers als Kontext für eine Antwort.
Die Alphaversion des Sprachmodus wird diese Funktionen jedoch nicht haben. OpenAI teilte mit, dass „die Funktionen zur Video- und Bildschirmfreigabe zu einem späteren Zeitpunkt eingeführt werden“. Das Unternehmen sagte auch, dass es seit der ersten Vorführung der Technologie die Qualität und Sicherheit von Sprachgesprächen verbessert habe.
Dem X-Thread zufolge testete OpenAI die Sprachfunktionen mit über 100 externen Red-Teamern in 45 Sprachen. Das Unternehmen trainierte das Modell auch darauf, nur in den vier voreingestellten Stimmen zu sprechen, Ausgaben zu blockieren, die von den festgelegten Stimmen abweichen, und Leitplanken zu implementieren, um Anfragen zu blockieren.
Das Unternehmen teilte außerdem mit, dass das Benutzerfeedback zur weiteren Verbesserung des Modells berücksichtigt werde und dass im August ein detaillierter Bericht zur Leistung von GPT-4os, einschließlich Einschränkungen und Sicherheitsbewertungen, veröffentlicht werde.
Außerdem: Die KI-Tools der neuen Generation von Google helfen Ihnen dabei, Ihre Werbekampagnen gezielt auszurichten
Sie können ChatGPT Plus-Abonnent für 20 $ pro Monat werden. Zu den weiteren Vorteilen der Mitgliedschaft gehören erweiterte Datenanalysefunktionen, Bildgenerierung, vorrangiger Zugriff auf GPT-4o und mehr.
Eine Woche nachdem OpenAI diese Funktion vorgestellt hatte, stellte Google eine ähnliche Funktion namens Gemini Live vor. Gemini Live ist für Benutzer jedoch noch nicht verfügbar. Das könnte sich bald bei der Veranstaltung „Made by Google“ ändern, die in einigen Wochen stattfindet.