X

Zapisz się na darmowy newsletter SOCIALPRESS

Dlaczego warto się zapisać
Nasz newsletter subskrybuje już 15 000 osób!

Chińska AI pokonuje GPT-4 – DeepSeek V3 wkracza na rynek

Chiński model AI DeepSeek V3 rzuca wyzwanie zachodnim gigantom. Jak udało się osiągnąć tak wysoką skuteczność przy stosunkowo niskich kosztach?

Chińska AI pokonuje GPT-4 – DeepSeek V3 wkracza na rynekźródło: x.com

reklama






Chińska firma DeepSeek zaprezentowała nowy model sztucznej inteligencji, DeepSeek V3. Mimo trudnych warunków, w których powstał i ograniczeń wynikających z embarga technologicznego nałożonego przez USA, wyprzedza w wielu aspektach takie giganty jak GPT-4 od OpenAI czy Llama 3.1 od Mety.

Przełomowe osiągnięcia

DeepSeek V3 wyróżnia się na tle konkurencji, osiągając imponujące wyniki w kluczowych testach oceniających zdolności modeli sztucznej inteligencji. Jego skuteczność w rozumieniu języka, programowaniu czy matematyce stawia go w ścisłej czołówce, często wyprzedzając lub dorównując takim systemom jak Llama 3.1, Qwen 2.5 czy GPT-4.

W testach takich jak MMLU (oceniających zdolność do rozwiązywania złożonych problemów językowych), DeepSeek V3 osiągnął 88,5%, przewyższając GPT-4 (87,2%) i niemal dorównując modelowi Llama 3.1 (88,6%). W specjalnym rozszerzeniu testu MMLU, nazwanym Redux, DeepSeek osiągnął jeszcze wyższy wynik – 89,1%.

W testach HumanEval-Mul, które mierzą zdolność do pisania kodu rozwiązującego konkretne zadania, model uzyskał 82,6%, wyprzedzając zarówno GPT-4, jak i Qwen 2.5. Co istotne, w programistycznych zawodach Codeforces model osiągnął wynik 51,6%, podczas gdy wyniki Llama 3.1 i Qwen 2.5 były blisko dwukrotnie niższe.

Testy matematyczne, takie jak MATH-500, przyniosły wynik na poziomie 90,2%, wyraźnie dystansując rywali. Z kolei w teście Aider Polyglot, który sprawdza zdolność AI do pisania kodu współpracującego z już istniejącymi fragmentami, model uzyskał 79,7%, co czyni go jednym z najlepszych w tej kategorii.

Dalsza część artykułu znajduje się poniżej reklamy


ttachment-83156" class="size-full wp-image-83156" src="https://socialpress.pl/wp-content/uploads/2024/12/deepseekv3-1.png" alt="" width="957" height="871" />

źródło: deepseek.com

Niskie koszty, gigantyczna efektywność

Jednym z najbardziej imponujących aspektów DeepSeek V3 jest jego koszt opracowania. Szkolenie modelu pochłonął 6 milionów dolarów – to niewielki ułamek budżetów, jakimi dysponują zachodnie firmy. Dla porównania, trening modelu Llama 3 kosztował ponad 100 milionów dolarów, a koszty szkolenia GPT-4 są szacowane na kilkaset milionów.

Mimo znacznie mniejszych nakładów, DeepSeek osiągnął niesamowitą wydajność. Model był trenowany przez zaledwie dwa miesiące, wykorzystując 2048 kart graficznych Nvidia H800 – sprzęt, który jest znacznie mniej wydajny niż najnowsze jednostki H100 używane przez konkurencję. Co więcej, DeepSeek V3 zużył aż 11 razy mniej godzin GPU (procesory graficzne używane do obliczeń), co dowodzi mistrzowskiej optymalizacji procesu treningowego.

Technologiczne bariery

Rozwój DeepSeek V3 był utrudniony przez embargo technologiczne nałożone przez Stany Zjednoczone, które ograniczyło dostęp do najnowocześniejszych procesorów graficznych. Firma była zmuszona pracować na sprzęcie starszej generacji, jednocześnie dysponując znacznie mniejszym klastrem GPU niż amerykańskie firmy, takie jak OpenAI czy Meta. Dla porównania, OpenAI korzysta z klastrów liczących ponad 100 tysięcy kart graficznych, a w planach są klastry złożone z 200 tysięcy jednostek.





Reklama


Reklama


[FM_form id="1"]