Sora – napisz swoje własne wideo

Sztuczna inteligencja stale zwiększa swoje możliwości, wkraczając coraz głębiej w obszary wymagające interakcji ze światem rzeczywistym. Jednym z najnowszych, rozwojowych osiągnięć w tej dziedzinie jest Sora, model stworzony przez OpenAI, który pozwala zamieniać tekst na wideo.

źródło: openai.com/sora

reklama

Sora to model o niezwykłej zdolności generowania filmów na podstawie krótkich opisów tekstowych. Przy jego pomocy z łatwością możemy stworzyć filmy o długości maksymalnie do jednej minuty, zachowując przy tym wysoką jakość wizualną i zgodność z zadanymi przez nas wytycznymi.

Zmiana tekstu w film? Teraz to możliwe!

Sora nie tylko jest w stanie wygenerować kompleksowe sceny z wieloma postaciami, ale także rozumie kontekst przestrzenny oraz emocje wyrażane przez postaci (a wcześniej opisane przez nas dokładnie w danych wyjściowych). Dzięki technologii opracowanej i stale ulepszanej przez OpenAI ten model językowy ma możliwość głębokiego zrozumienia języka pisanego, a następnie precyzyjną interpretację poleceń użytkownika w celu stworzenia dynamicznych i atrakcyjnych wizualnie ujęć.

Możliwości Sory a bezpieczeństwo

Możliwości, jakimi dysponuje nowy produkt OpenAI otwierają przed nami wiele ciekawych możliwości, ale jednocześnie dodają do listy niebezpieczeństwo kolejne pozycji. Na szczęście firma – jak przedstawia w swojej prezentacji – już przed premierą Sory podjęła szereg ważnych kroków w zakresie zapewnienia odpowiedniego poziomu bezpieczeństwa.

ElevenLabs, miliardowy polski startup, który zrewolucjonizował generowanie mowy, teraz wkracza w obszar generowania.. dźwięków! Zobaczcie sami. Poniższe efekty dźwiękowe w 100% stworzono za pomocą ElevenLabs. Nagranie to popularna prezentacja text to video od OpenAI, Sora. pic.twitter.com/AV5zoKeiSa
— Sztuczna Inteligencja Blog (@siblogpl) February 19, 2024

Współpraca z ekspertami od dezinformacji i nienawistnych treści pozwala na przeciwdziałanie potencjalnym zagrożeniom związanym z nadużyciem modelu do generowania treści mających znamiona propagandy, bądź też zakazanych przez prawo. Opracowywane są również narzędzia umożliwiające wykrywanie wszelkich obejść pozwalających na generowanie filmów w jakikolwiek sposób wprowadzających w błąd. W tym zakresie istotne dla producenta na etapie udoskonalania modelu językowego Sory jest np. angażowanie osób posiadających niezbędną wiedzę z zakresu działań wizualnych (m.in. nauczycieli i artystów), aby szybko i skutecznie zidentyfikować zarówno pozytywne przypadki użycia, jak i potencjalne zagrożenia.

Sora w codziennym zastosowaniu – czego możemy się spodziewać w przyszłości?

Sora wykorzystuje techniki rozwojowe, takie jak model dyfuzyjny i architektura transformatorowa, co pozwala w efektywny sposób generować treści wideo na podstawie tekstu wsadowego. Dzięki temu modelowi możliwe jest również generowanie filmów na podstawie istniejących obrazów lub innych materiałów wizualnych, co otwiera drogę do różnorodnych zastosowań w dziedzinie animacji, edukacji czy rozrywki. Istotnym krokiem w rozwoju Sory jest również jego wykorzystanie jako podstawy do tworzenia modeli zdolnych do symulowania rzeczywistego świata, co może być kluczowym elementem w dążeniu do osiągnięcia ogólnej sztucznej inteligencji (AGI).

Bez dwóch zdań Sora stanowi swego rodzaju przełom w dziedzinie generowania wideo na żądanie. Możliwości tego produktu, rozwój odpowiednich zabezpieczeń oraz potencjał wykorzystania możliwości w przyszłości otwierają nowe, ciekawe perspektywy dla sztucznej inteligencji oraz jej zastosowań w różnych dziedzinach życia.

W obecnej formie Sora zdecydowanie jest ciekawym gadżetem do wykorzystania przede wszystkim w działaniach humorystycznych. Warto jednak pamiętać, że kolejne wersje tej technologii będą miały coraz większe znaczenie w wielu aspektach naszej codzienności. Dlatego też – oprócz rozwoju umożliwiającego wydajniejsze generowanie treści wideo, musimy stale mieć na uwadze prawdziwość przekazywanych w ten sposób informacji. Zwłaszcza w czasach, gdy możliwości sztucznej inteligencji wykorzystać można zarówno w pozytywny, jak i negatywny sposób.