Il modello AI sorprendentemente economico di Deepseek sfida i giganti del settore. La società afferma di aver formato la sua potente rete neurale di DeepSeek V3 per soli $ 6 milioni utilizzando solo 2048 GPU, concorrenti significativamente sottosquadri. Tuttavia, questa cifra è fuorviante.
Immagine: Ensigame.com
DeepSeek V3 sfrutta le tecnologie innovative: Previsione multi-token (MTP) per una maggiore precisione ed efficienza; Miscela di esperti (MOE) , utilizzando 256 reti neurali, per accelerare la formazione e migliorare le prestazioni; e Attenzione latente multi-testa (MLA) per concentrarsi su elementi di frase cruciale, minimizzando la perdita di informazioni.
Immagine: Ensigame.com
Contrariamente alla loro pretesa iniziale, la seminalisi ha rivelato la vasta infrastruttura di DeepSeek, che comprende circa 50.000 GPU di Nvidia Hopper in più data center, che rappresentano un investimento totale di circa $ 1,6 miliardi e costi operativi di $ 944 milioni. Ciò include investimenti sostanziali nel personale, con alcuni ricercatori che guadagnano oltre $ 1,3 milioni all'anno.
Immagine: Ensigame.com
DeepSeek, una consociata di High-Flyer, un hedge fund cinese, possiede i suoi data center, fornendo un maggiore controllo e un'implementazione più rapida dell'innovazione. Questo approccio autofinanziato contribuisce alla sua agilità. La cifra di 6 milioni di dollari riflette solo i costi di pre-allenamento GPU, esclusa la ricerca, la raffinatezza, l'elaborazione dei dati e l'infrastruttura. L'effettivo investimento di Deepseek nello sviluppo dell'IA supera i $ 500 milioni.
Immagine: Ensigame.com
Mentre il successo di Deepseek deriva da investimenti sostanziali, progressi tecnologici e una squadra qualificata, la sua narrazione "economica" è una semplificazione eccessiva. Tuttavia, anche con le figure corrette, i costi di Deepseek sono ancora impallidisti rispetto ai concorrenti. Ad esempio, il modello R1 di Deepseek è costato $ 5 milioni per l'allenamento, mentre CHATGPT-4 costa $ 100 milioni. L'efficienza dell'azienda e la struttura focalizzata, tuttavia, gli consentono di competere in modo efficace con i giganti del settore, nonostante gli investimenti sostanziali coinvolti.