ChatGPT od teraz widzi, słyszy i odpowiada głosem – OpenAI o nowych funkcjach chatbota

źródło: shutterstock.com

reklama

Dotychczas z ChatGPT można było się porozumiewać przy pomocy tekstowych poleceń. OpenAI informuje jednak o nowych funkcjach, które znacznie usprawnią korzystanie z chatbota.

Wielozadaniowy asystent

Najnowsza wersja chatbota nie tylko rozumie tekst, ale również widzi, słyszy i odpowiada głosem. ChatGPT staje się więc wszechstronnym asystentem multimedialnym, zyskując jeszcze większą przewagę nad innymi narzędziami opartymi na sztucznej inteligencji.

Nowa wersja umożliwia rozmowy z chatbotem za pomocą komunikatów głosowych. ChatGPT odpowie na pytanie wygenerowanym automatycznie głosem. Do wyboru otrzymujemy pięć różnych, realistycznie brzmiących głosów, co sprawia, że rozmowa z ChatGPT przypomina interakcję z każdym innym asystentem w telefonie.

„Nowa funkcja głosowa jest obsługiwana przez nowy model zamiany tekstu na mowę, umożliwiający generowanie dźwięku podobnego do ludzkiego na podstawie samego tekstu i kilku sekund próbki mowy. Przy tworzeniu każdego z głosów współpracowaliśmy z profesjonalnymi aktorami głosowymi. Używamy również Whisper, naszego systemu rozpoznawania mowy typu open source, do transkrypcji wypowiadanych słów na tekst” – czytamy na blogu OpenAI.

Use your voice to engage in a back-and-forth conversation with ChatGPT. Speak with it on the go, request a bedtime story, or settle a dinner table debate.
Sound on pic.twitter.com/3tuWzX0wtS
— OpenAI (@OpenAI) September 25, 2023

Kolejną nowością jest możliwość analizy zdjęć zrobionych przez użytkowników. Zgodnie z komunikatem od OpenAI, ChatGPT „rozwiąże problem, dlaczego grill się nie uruchamia, przejrzy zawartość lodówki, aby zaplanować posiłek lub przeanalizuje złożony wykres pod kątem danych związanych z pracą”.

ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb
— OpenAI (@OpenAI) September 25, 2023

Możemy także kazać chatbotowi, aby skupił się na konkretnej części obrazu, korzystając z narzędzia do rysowania. Jest ono jednak dostępne wyłącznie w aplikacji mobilnej.

Nowe funkcje nie dla wszystkich

Jak wygląda sprawa z poleceniami wydawanymi w języku innym niż angielski? Jak czytamy na blogu, model doskonale radzi sobie z transkrypcją tekstu w języku angielskim. Może jednak napotykać pewne trudności w przypadku innych języków, zwłaszcza tych, które nie korzystają z alfabetu łacińskiego. W związku z tym zaleca się na razie korzystanie z tego narzędzia wyłącznie w języku angielskim. Nowe funkcje dostępne są obecnie w wersji testowej, więc istnieje możliwość, że w przyszłości pojawią się dodatkowe ulepszenia i rozszerzenie obsługi innych języków.

W ciągu nadchodzących dwóch tygodni usprawnienia zostaną aktywowane i na początku skorzystają z nich wyłącznie subskrybenci wersji Plus i Enterprise. Funkcje głosowe będą dostępne w aplikacji na systemach iOS oraz Android. Analiza zdjęć z kolei zostanie udostępniona na wszystkich dostępnych platformach. Dla użytkowników korzystających z darmowych wersji nowe funkcje będą dostępne w późniejszym terminie – OpenAI nie podało jednak konkretnej daty.