
reklama
Chińska firma DeepSeek zaprezentowała nowy model sztucznej inteligencji, DeepSeek V3. Mimo trudnych warunków, w których powstał i ograniczeń wynikających z embarga technologicznego nałożonego przez USA, wyprzedza w wielu aspektach takie giganty jak GPT-4 od OpenAI czy Llama 3.1 od Mety.
Przełomowe osiągnięcia
DeepSeek V3 wyróżnia się na tle konkurencji, osiągając imponujące wyniki w kluczowych testach oceniających zdolności modeli sztucznej inteligencji. Jego skuteczność w rozumieniu języka, programowaniu czy matematyce stawia go w ścisłej czołówce, często wyprzedzając lub dorównując takim systemom jak Llama 3.1, Qwen 2.5 czy GPT-4.
W testach takich jak MMLU (oceniających zdolność do rozwiązywania złożonych problemów językowych), DeepSeek V3 osiągnął 88,5%, przewyższając GPT-4 (87,2%) i niemal dorównując modelowi Llama 3.1 (88,6%). W specjalnym rozszerzeniu testu MMLU, nazwanym Redux, DeepSeek osiągnął jeszcze wyższy wynik – 89,1%.
W testach HumanEval-Mul, które mierzą zdolność do pisania kodu rozwiązującego konkretne zadania, model uzyskał 82,6%, wyprzedzając zarówno GPT-4, jak i Qwen 2.5. Co istotne, w programistycznych zawodach Codeforces model osiągnął wynik 51,6%, podczas gdy wyniki Llama 3.1 i Qwen 2.5 były blisko dwukrotnie niższe.
Testy matematyczne, takie jak MATH-500, przyniosły wynik na poziomie 90,2%, wyraźnie dystansując rywali. Z kolei w teście Aider Polyglot, który sprawdza zdolność AI do pisania kodu współpracującego z już istniejącymi fragmentami, model uzyskał 79,7%, co czyni go jednym z najlepszych w tej kategorii.
Dalsza część artykułu znajduje się poniżej reklamy
ttachment-83156" class="size-full wp-image-83156" src="https://socialpress.pl/wp-content/uploads/2024/12/deepseekv3-1.png" alt="" width="957" height="871" />
źródło: deepseek.com
Niskie koszty, gigantyczna efektywność
Jednym z najbardziej imponujących aspektów DeepSeek V3 jest jego koszt opracowania. Szkolenie modelu pochłonął 6 milionów dolarów – to niewielki ułamek budżetów, jakimi dysponują zachodnie firmy. Dla porównania, trening modelu Llama 3 kosztował ponad 100 milionów dolarów, a koszty szkolenia GPT-4 są szacowane na kilkaset milionów.
Mimo znacznie mniejszych nakładów, DeepSeek osiągnął niesamowitą wydajność. Model był trenowany przez zaledwie dwa miesiące, wykorzystując 2048 kart graficznych Nvidia H800 – sprzęt, który jest znacznie mniej wydajny niż najnowsze jednostki H100 używane przez konkurencję. Co więcej, DeepSeek V3 zużył aż 11 razy mniej godzin GPU (procesory graficzne używane do obliczeń), co dowodzi mistrzowskiej optymalizacji procesu treningowego.
Technologiczne bariery
Rozwój DeepSeek V3 był utrudniony przez embargo technologiczne nałożone przez Stany Zjednoczone, które ograniczyło dostęp do najnowocześniejszych procesorów graficznych. Firma była zmuszona pracować na sprzęcie starszej generacji, jednocześnie dysponując znacznie mniejszym klastrem GPU niż amerykańskie firmy, takie jak OpenAI czy Meta. Dla porównania, OpenAI korzysta z klastrów liczących ponad 100 tysięcy kart graficznych, a w planach są klastry złożone z 200 tysięcy jednostek.
Reklama