Teknoloji şirketlerinin ya GPU'lar için çabaladığı ya da onları edinme yolunda olduğu söyleniyor. Nisan ayında Tesla CEO'su Elon Musk, 10.000 adet GPU satın almış ve şirketin NVIDIA'dan büyük miktarda GPU almaya devam edeceğini belirtmişti. Kurumsal tarafta, BT personeli de yatırım getirisini en üst düzeye çıkarmak için GPU'ların sürekli olarak kullanılmasını sağlamak için yoğun çaba harcıyor. Ancak bazı şirketler GPU sayısı arttıkça GPU boşta kalma durumunun daha şiddetli hale geldiğini görebilir.
Tarih bize yüksek performanslı bilgi işlem (HPC) hakkında bir şey öğrettiyse o da, hesaplamaya çok fazla odaklanma pahasına depolama ve ağ iletişiminden fedakarlık edilmemesi gerektiğidir. Depolama, verileri bilgi işlem birimlerine verimli bir şekilde aktaramazsa, dünyadaki en fazla GPU'ya sahip olsanız bile, optimum verimliliği elde edemezsiniz.
Small World Big Data'da analist olan Mike Matchett'e göre, daha küçük modeller bellekte (RAM) çalıştırılarak hesaplamaya daha fazla odaklanılabilir. Ancak milyarlarca düğüme sahip ChatGPT gibi daha büyük modeller yüksek maliyet nedeniyle hafızada saklanamıyor.
Matchett, "Milyarlarca düğümü belleğe sığdıramazsınız, bu nedenle depolama daha da önemli hale geliyor" diyor. Ne yazık ki planlama sürecinde veri depolama çoğu zaman gözden kaçırılıyor.
Genel olarak kullanım senaryosu ne olursa olsun model eğitim sürecinde dört ortak nokta vardır:
1. Örnek Eğitim
2. Çıkarım Uygulaması
3. Veri Depolama
4. Hızlandırılmış Hesaplama
Modelleri oluştururken ve dağıtırken çoğu gereksinim, model eğitimini başlatmak için hızlı kavram kanıtlamasına (POC) veya test ortamlarına öncelik verir; veri depolama gereksinimlerine en üst düzeyde önem verilmez.
Ancak zorluk, eğitim veya çıkarım dağıtımının aylarca, hatta yıllarca sürebilmesi gerçeğinde yatmaktadır. Bu süre zarfında pek çok şirket model boyutlarını hızla büyütüyor ve altyapının büyüyen modellere ve veri kümelerine uyum sağlayacak şekilde genişletilmesi gerekiyor.
Google'ın milyonlarca makine öğrenimi eğitim iş yükü üzerinde yaptığı araştırma, eğitim süresinin ortalama %30'unun giriş verileri hattında harcandığını ortaya koyuyor. Geçmişteki araştırmalar, eğitimi hızlandırmak için GPU'ları optimize etmeye odaklanmış olsa da, veri hattının çeşitli bölümlerini optimize etmede hala birçok zorluk devam ediyor. Önemli bir hesaplama gücüne sahip olduğunuzda, gerçek darboğaz, sonuç almak için verileri hesaplamalara ne kadar hızlı besleyebileceğinizdir.
Spesifik olarak, veri depolama ve yönetimindeki zorluklar, veri büyümesi için planlama gerektirir; bu, özellikle derin öğrenme ve sinir ağları gibi daha yüksek talepler getiren daha gelişmiş kullanım senaryolarına giriştiğinizde, ilerledikçe verilerin değerini sürekli olarak çıkarmanıza olanak tanır. Kapasite, performans ve ölçeklenebilirlik açısından depolama.
Özellikle:
Ölçeklenebilirlik
Makine öğrenimi, büyük miktarlarda verinin işlenmesini gerektirir ve veri hacmi arttıkça modellerin doğruluğu da artar. Bu, işletmelerin her gün daha fazla veri toplaması ve depolaması gerektiği anlamına gelir. Depolama ölçeklenemediğinde, veri yoğunluklu iş yükleri darboğazlar oluşturarak performansı sınırlandırır ve pahalı GPU boşta kalma süresine neden olur.
Esneklik
Tek bir ortam türüyle sınırlı olmak yerine, farklı sistemlerin ihtiyaçlarını karşılamak için birden fazla protokole (NFS, SMB, HTTP, FTP, HDFS ve S3 dahil) yönelik esnek destek gereklidir.
Gecikme
Veriler birden çok kez okunup yeniden okunduğundan, model oluşturmak ve kullanmak için G/Ç gecikmesi kritik öneme sahiptir. G/Ç gecikmesinin azaltılması, modellerin eğitim süresini günlerce veya aylarca kısaltabilir. Daha hızlı model geliştirme doğrudan daha büyük iş avantajlarına dönüşür.
Verim
Depolama sistemlerinin verimi, verimli model eğitimi için çok önemlidir. Eğitim süreçleri, genellikle saatte terabayt cinsinden büyük miktarda veri içerir.
Paralel Erişim
Yüksek verim elde etmek için eğitim modelleri, etkinlikleri birden fazla paralel göreve böler. Bu genellikle makine öğrenimi algoritmalarının aynı dosyalara birden fazla işlemden (potansiyel olarak birden fazla fiziksel sunucuda) aynı anda eriştiği anlamına gelir. Depolama sistemi, performanstan ödün vermeden eşzamanlı talepleri karşılamalıdır.
Düşük gecikme süresi, yüksek verim ve büyük ölçekli paralel I/O'daki olağanüstü yetenekleriyle Dell PowerScale, GPU ile hızlandırılmış bilgi işlem için ideal bir depolama tamamlayıcısıdır. PowerScale, terabaytlarca veri kümelerini eğiten ve test eden analiz modelleri için gereken süreyi etkili bir şekilde azaltır. PowerScale all-flash depolamada bant genişliği 18 kat artarak G/Ç darboğazlarını ortadan kaldırır ve büyük miktarlardaki yapılandırılmamış verilerin değerini hızlandırmak ve açığa çıkarmak için mevcut Isilon kümelerine eklenebilir.
Üstelik PowerScale'in çoklu protokol erişim yetenekleri, iş yüklerini çalıştırmak için sınırsız esneklik sağlayarak verilerin bir protokol kullanılarak saklanmasına ve başka bir protokol kullanılarak erişilmesine olanak tanır. Özellikle PowerScale platformunun güçlü özellikleri, esnekliği, ölçeklenebilirliği ve kurumsal düzeydeki işlevselliği aşağıdaki zorlukların üstesinden gelmeye yardımcı olur:
- Model eğitim döngüsünü azaltarak inovasyonu 2,7 kata kadar hızlandırın.
- Kurumsal düzeyde özelliklerden, yüksek performanstan, eş zamanlılıktan ve ölçeklenebilirlikten yararlanarak G/Ç darboğazlarını ortadan kaldırın ve daha hızlı model eğitimi ve doğrulaması, gelişmiş model doğruluğu, gelişmiş veri bilimi üretkenliği ve bilgi işlem yatırımlarından maksimum getiriyi sağlayın. Tek bir kümede 119 PB'ye kadar etkili depolama kapasitesinden yararlanarak daha derin, daha yüksek çözünürlüklü veri kümeleriyle model doğruluğunu geliştirin.
- Küçük bir başlangıç yaparak bilgi işlem ve depolamayı bağımsız olarak ölçeklendirerek, güçlü veri koruma ve güvenlik seçenekleri sunarak geniş ölçekte dağıtım elde edin.
- Daha hızlı, düşük riskli devreye alımlar için yerinde analizler ve önceden doğrulanmış çözümlerle veri bilimi üretkenliğini artırın.
- NVIDIA GPU hızlandırma ve NVIDIA DGX sistemleriyle referans mimariler de dahil olmak üzere türünün en iyisi teknolojilere dayanan kanıtlanmış tasarımlardan faydalanma. PowerScale'in yüksek performansı ve eşzamanlılığı, veri toplama ve hazırlamadan model eğitimi ve çıkarıma kadar makine öğreniminin her aşamasında depolama performansı gereksinimlerini karşılar. OneFS işletim sistemiyle birlikte tüm düğümler, performans yönetimi, veri yönetimi, güvenlik ve veri koruma gibi kurumsal düzeydeki özelliklerle aynı OneFS odaklı küme içinde sorunsuz bir şekilde çalışabilir ve işletmeler için model eğitiminin ve doğrulamanın daha hızlı tamamlanmasını sağlar.
Gönderim zamanı: Temmuz-03-2023