Çinli yapay zeka şirketi DeepSeek, yapay zeka dünyasında ses getirecek yeni bir model üzerinde çalışıyor. Şirketin yayınladığı son makale, bu modelde beklenen yenilikleri ve yapay zeka eğitimine getireceği potansiyel katkıları ortaya koyuyor. Hatırlanacağı üzere firma, geçtiğimiz yıl DeepSeek-R1 ile büyük bir etki yaratmıştı.
Yeni Derin Öğrenme Mimarisi: Manifold-Constrained Hyper-Connections (mHC)
DeepSeek tarafından tanıtılan "Manifold-Constrained Hyper-Connections" (mHC) adlı yeni derin öğrenme mimarisi, büyük sinir ağlarındaki eğitim süreçlerinde karşılaşılan kararsızlık ve ölçeklenme sorunlarına çözüm sunmayı amaçlıyor. Liang Wenfeng, Zhenda Xie, Yixuan Wei ve Huanqi Cao gibi isimlerin imzasını taşıyan bu çalışma, mevcut yaklaşımlara kıyasla daha tutarlı bir eğitim süreci ve daha büyük modellere ölçeklenebilme imkanı sunarak, büyük dil modellerinin eğitim maliyetlerini düşürmeyi hedefliyor. DeepSeek-R1 modelinin başarısının arkasında da benzer bir yaklaşım yatıyordu.

Hiper Bağlantılar ve mHC Mimarisi Arasındaki Fark
DeepSeek'in geliştirdiği mimari, ByteDance araştırmacılarının 2024 yılında tanıttığı "hyper-connections" (hiper bağlantılar) yaklaşımından ilham alıyor. Bu yaklaşım, ResNet mimarisinde bilginin katmanlar arasında doğrudan aktarılmasını sağlayarak sinyallerin daha tutarlı ilerlemesini amaçlıyordu. Ancak, ByteDance'in önerdiği yapı, özellikle büyük modellerde bellek sorunlarına yol açıyordu. DeepSeek'in çalışması, bu yapıyı daha uygulanabilir hale getirerek söz konusu sorunu çözmeyi hedefliyor.
mHC Mimarisi: Sinyal Stabilizasyonu ve Ölçeklenebilirlik
mHC mimarisinin en önemli özelliği, katmanlar arası bilgi akışını belirli matematiksel kurallar çerçevesinde tanımlanmış bir uzayda tutmasıdır. Bu sayede, sinyallerin bozulmadan iletilmesini sağlayan "identity mapping" özelliği yeniden kazanılıyor. Araştırmacılar, bu sayede eğitim sürecinin daha stabil hale geldiğini belirtiyorlar. mHC mimarisi, 3 milyar, 9 milyar ve 27 milyar parametreli modeller üzerinde test edilmiş ve sorunsuz bir şekilde ölçeklenebildiği gösterilmiştir.
Yeni Modelin Habercisi mi?
DeepSeek tarafından paylaşılan bu tür teknik makaleler, şirketin yeni modelinin yakında tanıtılacağının sinyallerini veriyor. Liang Wenfeng, önceki modelleri yayınlamadan önce de benzer makaleler paylaşmıştı. Bu nedenle, yeni modelin de bu mimari üzerine kurulu olması bekleniyor. Tanıtım tarihi henüz net olmamakla birlikte, beklentiler yüksek. Tahminler, modelin 17 Şubat'tan önce tanıtılabileceği yönünde.
Kaynak: (Donanım Haber)
İlk yorumu sen yap! Düşüncelerini bizimle paylaş.