X

Zapisz się na darmowy newsletter SOCIALPRESS

Dlaczego warto się zapisać
Nasz newsletter subskrybuje już 15 000 osób!

MiniGPT-4 – nowy model AI do generowania opisów tekstowych ze zdjęć i obrazów

Opis obrazu? Przygotuje go MiniGPT-4. Nowe narzędzie, dostępne w wersji demo, potrafi rozpoznać i opisać obiekty znajdujące się na zdjęciach.

MiniGPT-4 – nowy model AI do generowania opisów tekstowych ze zdjęć i obrazówźródło: unsplash.com

reklama


Nowe narzędzie oparte na sztucznej inteligencji, czyli MiniGPT-4 zostało przeszkolone w taki sposób, aby rozpoznawać obiekty znajdujące się na grafikach, a następnie na ich podstawie wygenerować opisy tekstowe. W jaki sposób można wykorzystać umiejętności modelu?

Czym jest MiniGPT-4? 

MiniGPT-4 to model AI, którego można używać do generowania opisów tekstowych z obrazów.  Może wykonywać różne zadania, które obejmują rozumienie i interpretację grafik. Model jest w stanie stworzyć opis obrazu czy udzielić odpowiedzi na pytania dotyczące zdjęcia.  

MiniGPT-4 przeszedł dwuetapowy proces szkolenia, który umożliwił mu poznanie tajników rozpoznawania obrazów. W pierwszym etapie nauczył się, jak opisać przedmioty, ludzi i miejsca, dzięki analizie ogromnej bazy zdjęć połączonych z opisami. W drugim etapie, wykorzystując zbiór obrazów i opisów najwyższej jakości, został „dostrojony”, aby tworzone przez niego opisy były jeszcze bardziej precyzyjne i naturalne.  

To projekt open source, który udostępniono na platformie GitHub, aby zaprezentować możliwości przetwarzania obrazów w systemach sztucznej inteligencji. Nie jest to oficjalne narzędzie od OpenAI, a inicjatywa grupy doktorantów z King Abdullah University of Science and Technology w Arabii Saudyjskiej. MiniGPT-4 opiera się na innowacyjnym modelu językowym (LLM) o nazwie Vicuna, co pozwoliło mu na osiągnięcie nawet 90% skuteczności w porównaniu do ChatGPT. Choć MiniGPT-4 nie jest tak potężny jak ChatGPT, to jednak warto zwrócić uwagę na jego wyjątkowe umiejętności. 

Generowanie treści na podstawie obrazów – co potrafi MiniGPT-4? 

MiniGPT-4 posiada zdolność rozpoznawania obiektów na zdjęciach i na ich podstawie generuje różnorodne treści. Narzędzie umożliwia m.in. tworzenie opisów reklamowych dla produktów i miejsc, np. kawiarni czy butów, a także sugestywnych podpisów do postów w mediach społecznościowych. Dzięki temu może być przydatny w wielu dziedzinach. 

Demo MiniGPT-4

źródło: Demo of MiniGPT-4

MiniGPT-4 jest również w stanie określić rodzaj czy stan przedmiotów na zdjęciach, na przykład diagnozowanie chorób roślin i udzielanie rad dotyczących pielęgnacji. Narzędzie umożliwia także tworzenie opowiadań, wierszy i przepisów kulinarnych na podstawie wgranego obrazu – od rozpoznania potrawy po listę zakupów i szczegółowy sposób przygotowania. 

Demo MiniGPT-4

źródło: Demo of MiniGPT-4

MiniGPT-4 posiada także funkcje pozwalające na tworzenie szablonów stron internetowych na podstawie odręcznych rysunków oraz rozpoznawanie postaci na zdjęciach i podawanie informacji o autorze obrazów. Narzędzie może również napisać piosenkę inspirowaną danym obrazem oraz zaproponować rozwiązanie problemu związane z uszkodzonym przedmiotem. 


MiniGPT-4 może rozpoznawać polecenia napisane w języku polskim, ale odpowiedzi udziela wyłącznie po angielsku. Niekiedy zdarza się, że robot nie przetwarza dokładnie komend w innych językach, dlatego w celu uzyskania poprawnej odpowiedzi konieczne jest korzystanie z języka angielskiego. 

Ograniczenia wersji demonstracyjnej  

MiniGPT-4 jest obecnie dostępny jako demo, a samo korzystanie z narzędzia jest proste – należy przesłać obraz lub kliknąć przycisk „upuść obraz tutaj”, a następnie wprowadzić polecenie w polu wyszukiwania. 

W porównaniu do ChatGPT MiniGPT-4 wciąż może działać wolniej ze względu na swoją wersję demonstracyjną oraz stale prowadzone prace nad modelem. Ponadto, ze względu na ciągłe uczenie, generowanie opisów i odpowiedzi może zająć więcej czasu, a otrzymane wyniki mogą zawierać błędy lub niedoskonałości. Możliwość szkolenia MiniGPT-4 przez użytkowników, którzy zgłaszają popełnione przez niego błędy, pozwala jednak na ciągłe ulepszanie tego narzędzia. 

Wersja demo MiniGPT-4 dostępna jest pod tym linkiem. 

Reklama

Newsletter

Bądź na bieżąco!
Zapisz się na bezpłatny newsletter.

free newsletter templates powered by FreshMail