Deepseek, DeepSeek-V3 Mixture-of-Experts (MoE) isimli dil modelini sadeceiki ayda 2.048 Nvidia H800 GPU'sunu içeren bir küme kullanarak 671 milyar parametreyle eğitti, bu da 2,8 milyon GPU saati anlamına geliyor. Karşılaştırma yapmak gerekirse, Meta'nın 54 gün boyunca 16.384 adet H100 GPU içeren bir küme kullanarak 405 milyar parametreli Llama 3'ünü eğitmesi 11 kat daha fazla işlem gücü (30,8 milyon GPU saati) gerektirdi.
Çeşitli optimizasyonlar yapıldı
DeepSeek, gelişmiş iletişim hattı (pipeline) algoritmaları, optimize edilmiş iletişim çerçevesi ve FP8 düşük hassasiyetli hesaplama kullanarak bu ölçekteki modeller için tipik olarak gerekli olan hesaplama ve bellek taleplerini önemli ölçüde azalttığını iddia ediyor.
DeepSeek, DeepSeek-v3'ünün işlem gereksinimlerini azaltmak için onlarca optimizasyon tekniği uygularken, birkaç önemli teknoloji etkileyici sonuçlarını mümkün kıldı.
DeepSeek, hesaplama ve iletişim aşamalarında DualPipe algoritmasını kullandığını ve bu sayede iletim hattındaki verimsizlikleri azalttığını söylüyor. DualPipe algoritması, özellikle MoE mimarisinin gerektirdiği düğümler arası uzman paralelliği için eğitim darboğazlarını en aza indirdi ve bu optimizasyon, kümenin ön eğitim sırasında sıfıra yakın iletişim yüküyle 14,8 trilyon jetonu (token) işlemesine olanak sağladı,
DeepSeek, DualPipe'ı uygulamaya ek olarak, iletişime dahil olan düğüm sayısını sınırlamak için her jetonu maksimum dört düğümle sınırladı. Bu da trafiği azalttı ve iletişimin ve hesaplamanın etkili bir şekilde örtüşmesini sağladı.
DeepSeek-v3 nasıl performans sergiliyor?
DeepSeek ekibi, DeepSeek-V3 modelinin uygulanmasının, gelişmiş donanımın yanı sıra ön doldurma (prefilling) ve kod çözme aşamalarını ayıran bir dağıtım stratejisi gerektirdiğini ve bunun kaynak eksikliği nedeniyle küçük şirketler için erişilemez olabileceğini kabul ediyor.