X

Zapisz się na darmowy newsletter SOCIALPRESS

Dlaczego warto się zapisać
Nasz newsletter subskrybuje już 15 000 osób!

GPT-4o zaśpiewa i przeprowadzi emocjonalną rozmowę

Podczas konferencji „Spring Update”, która odbyła się 13 maja, OpenAI zaprezentowało GPT-4o. Nowy chatbot już wkrótce będzie dostępny dla wszystkich za darmo.

GPT-4o zaśpiewa i przeprowadzi emocjonalną rozmowęźródło: openai.com/index/hello-gpt-4o

reklama


Konferencja prowadzona przez CTO Mirę Murali była transmitowana na żywo w sieci. Okazuje się, że nowy model będzie zdolny odczytywać emocje rozmówcy i dostosować do nich swój ton.

Godny następca GPT-4

Zapowiedziany na konferencji model sztucznej inteligencji może analizować dźwięk, obraz i tekst w czasie rzeczywistym. Ma to dawać wrażenie prowadzenia płynnej rozmowy z chatem, dążąc do bardziej naturalnej interakcji człowieka z komputerem. Użyte w nazwie „o” jest skrótem od „omni”, co w wolnym tłumaczeniu oznacza „wszech” – w ten sposób firma kładzie nacisk na nowe funkcje, którymi GPT-4o prześcignie swojego poprzednika.

Model akceptuje jako dane wejściowe dowolną kombinację tekstu, dźwięku i obrazu, a także wideo przesyłane z kamery w czasie rzeczywistym. Potrafi zareagować na dane audio nawet w 232 milisekundy, ze średnim czasem reakcji wynoszącym 320 milisekund, co jest podobne do czasu reakcji człowieka. To znaczna poprawa w rozumieniu treści audio w porównaniu z już istniejącymi modelami. W wersji GPT-3.5 opóźnienie rozumienia trybu głosowego wynosiło średnio 2,8 sekundy, a w GPT-4 aż 5,4 sekundy.

W przypadku tekstów w języku angielskim oraz kodów chat dorównuje wydajnością modelowi GPT-4 Turbo, jednak można zaobserwować znaczną poprawę w przypadku innych języków. Jednocześnie jest znacznie szybszy, a procedury API pochłaniają o 50% mniej kosztów.

 

źródło: openai.com/index/hello-gpt-4o

GPT-4o potrafi rozpoznać emocje

Dotychczas na tryb głosowy modeli językowych składał się potok trzech oddzielnych modeli. Jeden z nich transkrybuje dźwięk na tekst, drugi (GPT-3.5 lub GPT-4) pobiera tekst i generuje odpowiedź tekstową, a ostatni konwertuje tekst z powrotem na dźwięk. Taki przebieg procesu pozbawia model głównego źródła informacji o tonie wypowiedzi, dźwiękach tła, oddechu rozmówcy i mnogości głosów, oznaczającej prowadzenie konwersacji z wieloma osobami naraz.

W przypadku GPT-4o, jeden nowy model został przeszkolony od początku do końca w zakresie przetwarzania tekstu, obrazu i dźwięku. Dzięki temu nowa wersja nie pominie żadnych danych – cała ścieżka będzie przetwarzana przez tę samą sieć neuronową. Twórcy aplikacji zaznaczają jednak, że dopiero poznają możliwości, jak i ograniczenia nowego modelu, a ich analiza będzie inspiracją do kolejnych ulepszeń.

Czy GPT-4o zagrozi tłumaczom symultanicznym?

Do przetestowania ulepszeń wprowadzonych w zakresie tłumaczenia symultanicznego zostało wybrane 20 języków, reprezentujących różne rodziny językowe. W grupie badawczej znalazły się między innymi niemiecki, arabski, hindi, hiszpański czy japoński. W każdym z tych języków zaobserwowano znaczącą kompresję tokenizera, co oznacza, że nowa wersja potrzebuje mniej pamięci operacyjnej do przetworzenia danych.

Przewagą jest też wspomniane rozpoznawanie emocji – po analizie obrazu twarzy lub tonu głosu, GPT-4o potrafi dostosować ton do rozmówcy i radośnie, dramatycznie, a nawet zaśpiewać. Uczestników konferencji zaskoczyło rozumienie sarkazmu przez model, a także umiejętność żartowania.

Dane w GPT-4o będą bezpieczne

We wszystkich funkcjach nowego modelu zostały wbudowane techniki polegające na filtrowaniu danych użytych do treningu, zapewniające większe bezpieczeństwo. Szczególnie zadbano o filtrowanie danych głosowych. Zgodnie z wewnętrznymi ocenami cyberbezpieczeństwa, perswazji i autonomii, OpenAI ocenia, że nowy GPT-4o nie przekracza średniego ryzyka w żadnej z kategorii. Na oceny składały się zarówno zautomatyzowane, jak i przeprowadzone przez ludzi testy, na każdym etapie projektowania.

Podczas testów model przeszedł także zewnętrzny red teaming, czyli autoryzowaną symulację ataku i ingerencji w generowane odpowiedzi. Na zespół składali się eksperci z zakresu psychologii społecznej, stronniczości, uczciwości oraz dezinformacji, a by zidentyfikować zagrożenia, które mogły pojawić się w nowej wersji. Odkryte zagrożenia zostały natychmiast wyeliminowane, a także pozwoliły opracować plan działania w przypadku wykrycia takich niebezpieczeństw w przyszłości. W treściach opublikowanych po konferencji OpenAI zaznaczyło, że firma jest otwarta na wszystkie zewnętrzne opinie, które pomogą ulepszać model w przyszłości.

Nowe możliwości dla marketerów

GPT-4o będzie sukcesywnie wdrażany przez najbliższe tygodnie, przy stałym monitoringu przez ekspercki Red Team. Nowa wersja ma przekraczać dotychczasowe granice deep learningu, aby zwiększać praktyczną użyteczność modelu. Użytkownicy otrzymają nawet pięciokrotnie wyższe limity wiadomości, co pozwoli znacznie zwiększyć zakres prac prowadzonych przy użyciu chata.

Model GPT-4o jest 2 razy szybszy i ma 5 razy wyższe limity szybkości w porównaniu do GPT-4 Turbo. To znacznie usprawni tworzenie treści marketingowych, które będą dostosowane do oczekiwań wymagających odbiorców. Model jeszcze lepiej zoptymalizuje działania marketingowe, jednocześnie trafniej personalizując komunikaty.

Nowa technologia została określona przez Sama Altmana, CEO OpenAI jako „magiczna”. I nic dziwnego – nowe funkcje pozwolą na przeniesienie komunikacji człowieka z technologią na nieznany dotąd poziom, intuicyjny jak w przypadku rozmowy z drugim człowiekiem.

Reklama

Newsletter

Bądź na bieżąco!
Zapisz się na bezpłatny newsletter.

free newsletter templates powered by FreshMail