Model Eğitiminde Depolamanın En Önemli Darboğaz Olmasına İzin Vermeyin

Teknoloji şirketlerinin ya GPU'lar için uğraştığı ya da onları edinme yolunda olduğu söylendi.Nisan ayında Tesla CEO'su Elon Musk, 10.000 GPU satın aldı ve şirketin NVIDIA'dan büyük miktarda GPU satın almaya devam edeceğini belirtti.Kurumsal tarafta, BT personeli de yatırım getirisini en üst düzeye çıkarmak için GPU'ların sürekli kullanılmasını sağlamak için çok çalışıyor.Ancak bazı şirketler, GPU sayısı arttıkça GPU boşta kalma durumunun daha şiddetli hale geldiğini fark edebilir.

Tarih bize yüksek performanslı bilgi işlem (HPC) hakkında bir şey öğrettiyse, o da hesaplamaya çok fazla odaklanmak pahasına depolama ve ağdan feda edilmemesi gerektiğidir.Depolama, verileri bilgi işlem birimlerine verimli bir şekilde aktaramıyorsa, dünyadaki en fazla GPU'ya sahip olsanız bile, optimum verimlilik elde edemezsiniz.

Small World Big Data'da bir analist olan Mike Matchett'e göre, daha küçük modeller bellekte (RAM) yürütülerek hesaplamaya daha fazla odaklanılabilir.Ancak ChatGPT gibi milyarlarca düğüme sahip daha büyük modeller, yüksek maliyet nedeniyle bellekte depolanamaz.

Matchett, "Hafızaya milyarlarca düğüm sığdıramazsınız, bu nedenle depolama daha da önemli hale geliyor" diyor.Ne yazık ki, planlama sürecinde veri depolama genellikle göz ardı edilir.

Genel olarak, kullanım durumu ne olursa olsun, model eğitim sürecinde dört ortak nokta vardır:

1. Model Eğitimi
2. Çıkarım Uygulaması
3. Veri Depolama
4. Hızlandırılmış Hesaplama

Modeller oluştururken ve dağıtırken çoğu gereksinim, model eğitimini başlatmak için hızlı kavram kanıtına (POC) veya test ortamlarına öncelik verir ve veri depolama gereksinimleri en üst düzeyde dikkate alınmaz.

Ancak zorluk, eğitim veya çıkarım konuşlandırmasının aylarca hatta yıllarca sürebileceği gerçeğinde yatmaktadır.Birçok şirket, bu süre zarfında model boyutlarını hızla büyütür ve büyüyen modellere ve veri kümelerine uyum sağlamak için altyapının genişletilmesi gerekir.

Google'ın milyonlarca makine öğrenimi eğitimi iş yükü üzerinde yaptığı araştırma, eğitim süresinin ortalama %30'unun girdi veri hattında harcandığını ortaya koyuyor.Geçmiş araştırmalar, eğitimi hızlandırmak için GPU'ları optimize etmeye odaklanmış olsa da, veri hattının çeşitli bölümlerini optimize etme konusunda birçok zorluk devam etmektedir.Önemli bir hesaplama gücünüz olduğunda, gerçek darboğaz, sonuçları almak için hesaplamalara verileri ne kadar hızlı besleyebileceğinizdir.

Spesifik olarak, veri depolama ve yönetimindeki zorluklar, özellikle derin öğrenme ve sinir ağları gibi daha yüksek talepler içeren daha gelişmiş kullanım durumlarına girdiğinizde, ilerledikçe verilerin değerini sürekli olarak çıkarmanıza olanak tanıyan veri büyümesi için planlama gerektirir. kapasite, performans ve ölçeklenebilirlik açısından depolama.

Özellikle:

ölçeklenebilirlik
Makine öğrenimi, çok miktarda verinin işlenmesini gerektirir ve veri hacmi arttıkça modellerin doğruluğu da artar.Bu, işletmelerin her gün daha fazla veri toplaması ve depolaması gerektiği anlamına gelir.Depolama ölçeklenemediğinde, yoğun verili iş yükleri darboğazlar oluşturarak performansı sınırlar ve maliyetli GPU boşta kalma süresine neden olur.

Esneklik
Tek bir ortam türüyle sınırlı olmak yerine, farklı sistemlerin ihtiyaçlarını karşılamak için çoklu protokoller (NFS, SMB, HTTP, FTP, HDFS ve S3 dahil) için esnek destek gereklidir.

gecikme
Veriler birden çok kez okunup yeniden okunduğundan G/Ç gecikmesi, model oluşturmak ve kullanmak için kritik öneme sahiptir.G/Ç gecikmesini azaltmak, modellerin eğitim süresini günler veya aylarca kısaltabilir.Daha hızlı model geliştirme, doğrudan daha büyük iş avantajları anlamına gelir.

Verim
Depolama sistemlerinin verimi, verimli model eğitimi için çok önemlidir.Eğitim süreçleri, genellikle saatte terabayt cinsinden büyük miktarda veri içerir.

Paralel Erişim
Yüksek verim elde etmek için eğitim modelleri, etkinlikleri birden fazla paralel göreve ayırır.Bu genellikle, makine öğrenimi algoritmalarının aynı dosyalara aynı anda birden çok işlemden (potansiyel olarak birden çok fiziksel sunucuda) eriştiği anlamına gelir.Depolama sistemi, performanstan ödün vermeden eşzamanlı talepleri karşılamalıdır.

Düşük gecikme süresi, yüksek aktarım hızı ve büyük ölçekli paralel G/Ç'deki olağanüstü yetenekleriyle Dell PowerScale, GPU hızlandırmalı bilgi işlem için ideal bir depolama tamamlayıcısıdır.PowerScale, çok terabaytlık veri kümelerini eğiten ve test eden analiz modelleri için gereken süreyi etkili bir şekilde azaltır.PowerScale all-flash depolamada, bant genişliği 18 kat artarak G/Ç darboğazlarını ortadan kaldırır ve büyük miktarda yapılandırılmamış veriyi hızlandırmak ve değerini ortaya çıkarmak için mevcut Isilon kümelerine eklenebilir.

Ayrıca, PowerScale'in çoklu protokol erişim yetenekleri, iş yüklerini çalıştırmak için sınırsız esneklik sağlayarak verilerin bir protokol kullanılarak saklanmasına ve başka bir protokol kullanılarak erişilmesine izin verir.Özellikle, PowerScale platformunun güçlü özellikleri, esnekliği, ölçeklenebilirliği ve kurumsal düzeyde işlevselliği aşağıdaki zorlukların üstesinden gelinmesine yardımcı olur:

- Model eğitim döngüsünü azaltarak yeniliği 2,7 kata kadar hızlandırın.

- Kurumsal sınıf özellikler, yüksek performans, eşzamanlılık ve ölçeklenebilirlikten yararlanarak G/Ç darboğazlarını ortadan kaldırın ve daha hızlı model eğitimi ve doğrulaması, gelişmiş model doğruluğu, gelişmiş veri bilimi üretkenliği ve maksimum bilgi işlem yatırım getirisi sağlayın.Tek bir kümede 119 PB'a kadar etkili depolama kapasitesinden yararlanarak daha derin, daha yüksek çözünürlüklü veri kümeleriyle model doğruluğunu artırın.

- Küçük ve bağımsız olarak ölçeklenen bilgi işlem ve depolamayı başlatarak, sağlam veri koruma ve güvenlik seçenekleri sunarak geniş ölçekte devreye alma gerçekleştirin.

- Daha hızlı, düşük riskli dağıtımlar için yerinde analitik ve önceden doğrulanmış çözümlerle veri bilimi üretkenliğini artırın.

- NVIDIA GPU hızlandırma ve NVIDIA DGX sistemleri ile referans mimarileri dahil olmak üzere, türünün en iyisi teknolojilere dayanan kanıtlanmış tasarımlardan yararlanma.PowerScale'in yüksek performansı ve eşzamanlılığı, veri toplama ve hazırlamadan model eğitimi ve çıkarıma kadar makine öğreniminin her aşamasında depolama performansı gereksinimlerini karşılar.OneFS işletim sistemiyle birlikte tüm düğümler, performans yönetimi, veri yönetimi, güvenlik ve veri koruma gibi kurumsal düzeyde özelliklerle aynı OneFS odaklı küme içinde sorunsuz bir şekilde çalışabilir ve işletmeler için model eğitiminin ve doğrulamanın daha hızlı tamamlanmasını sağlar.


Gönderim zamanı: Temmuz-03-2023