Şimdi Ara

Çinli şirketten çığır açan başarı: 11 kat az işlem gücüyle yapay zeka modeli eğitti!

Daha Fazla
Bu Konudaki Kullanıcılar: Daha Az
2 Misafir - 2 Masaüstü
5 sn
4
Cevap
1
Favori
375
Tıklama
Daha Fazla
İstatistik
  • Konu İstatistikleri Yükleniyor
2 oy
Öne Çıkar
Sayfa: 1
Giriş
Mesaj

  • Çinli bir yapay zeka girişimi olan DeepSeek, çığır açan bir duyuruda bulunarak, OpenAI, Meta ve Anthropic gibi önde gelen yapay zeka şirketlerinin modellerine benzer bir yapay modelini, 11 kat düşük GPU hesaplama gücüyle eğittiğini açıkladı.  



    Deepseek, DeepSeek-V3 Mixture-of-Experts (MoE) isimli dil modelini sadece iki ayda 2.048 Nvidia H800 GPU'sunu içeren bir küme kullanarak 671 milyar parametreyle eğitti, bu da 2,8 milyon GPU saati anlamına geliyor. Karşılaştırma yapmak gerekirse, Meta'nın 54 gün boyunca 16.384 adet H100 GPU içeren bir küme kullanarak 405 milyar parametreli Llama 3'ünü eğitmesi 11 kat daha fazla işlem gücü (30,8 milyon GPU saati) gerektirdi.



    Çeşitli optimizasyonlar yapıldı



    DeepSeek, gelişmiş iletişim hattı (pipeline) algoritmaları, optimize edilmiş iletişim çerçevesi ve FP8 düşük hassasiyetli hesaplama kullanarak bu ölçekteki modeller için tipik olarak gerekli olan hesaplama ve bellek taleplerini önemli ölçüde azalttığını iddia ediyor.



    DeepSeek, DeepSeek-v3'ünün işlem gereksinimlerini azaltmak için onlarca optimizasyon tekniği uygularken, birkaç önemli teknoloji etkileyici sonuçlarını mümkün kıldı.



    Ayrıca Bkz.Microsoft ve OpenAI’dan ilginç AGI tanımı: Hedef 100 milyar dolar



    DeepSeek, hesaplama ve iletişim aşamalarında DualPipe algoritmasını kullandığını ve bu sayede iletim hattındaki verimsizlikleri azalttığını söylüyor. DualPipe algoritması, özellikle MoE mimarisinin gerektirdiği düğümler arası uzman paralelliği için eğitim darboğazlarını en aza indirdi ve bu optimizasyon, kümenin ön eğitim sırasında sıfıra yakın iletişim yüküyle 14,8 trilyon jetonu (token) işlemesine olanak sağladı, 



    DeepSeek, DualPipe'ı uygulamaya ek olarak, iletişime dahil olan düğüm sayısını sınırlamak için her jetonu maksimum dört düğümle sınırladı. Bu da trafiği azalttı ve iletişimin ve hesaplamanın etkili bir şekilde örtüşmesini sağladı.



    DeepSeek-v3 nasıl performans sergiliyor?




    Performansa gelirsek, şirket DeepSeek-v3 MoE dil modelinin kıyaslamaya bağlı olarak GPT-4x, Claude-3.5-Sonnet ve LLlama-3.1 ile karşılaştırılabilir veya daha iyi performansa sahip olduğunu söylüyor. Ancak bu iddiaların üçüncü taraflarca ispatlanması gerekiyor. Şirket modeli ve ağırlıkları açık kaynaklı hale getirdi, bu nedenle yakın zamanda karşılaştırma testleri ortaya çıkacaktır.




    DeepSeek-V3, parametre sayısı veya muhakeme yetenekleri açısından GPT-4o veya o3 gibi öncü modellerin gerisinde kalsa da, sonuçlar nispeten sınırlı kaynak kullanarak gelişmiş bir MoE dil modelinin eğitilmesinin mümkün olduğunu gösteriyor. Elbette, bu çok fazla optimizasyon ve düşük seviyeli programlama gerektiriyor, ancak sonuçlar şaşırtıcı derecede iyi görünüyor.



    DeepSeek ekibi, DeepSeek-V3 modelinin uygulanmasının, gelişmiş donanımın yanı sıra ön doldurma (prefilling) ve kod çözme aşamalarını ayıran bir dağıtım stratejisi gerektirdiğini ve bunun kaynak eksikliği nedeniyle küçük şirketler için erişilemez olabileceğini kabul ediyor.



     




    Kaynak:https://www.tomshardware.com/tech-industry/artificial-intelligence/chinese-ai-company-says-breakthroughs-enabled-creating-a-leading-edge-ai-model-with-11x-less-compute-deepseeks-optimizations-highlight-limits-of-us-sanctions
    Kaynak:https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf







  • çok spesifik ve ölçümünün standartı olmayan bir alan. Neyi nasıl ve ne ölçüde eğittin?
  • Yapay Zeka’dan İlgili Konular
    Daha Fazla Göster
    
Sayfa: 1
- x
Bildirim
mesajınız kopyalandı (ctrl+v) yapıştırmak istediğiniz yere yapıştırabilirsiniz.