D O K U M E N T U M A Z O N O S Í T Ó F á j l n é v : farkas_attila_horovod.jpg B é l y e g k é p : https://dka.oszk.hu/129500/129574/farkas_attila_horovod_kiskep.jpg F ő c í m : Horovod referencia architektúra mélytanulási alkalmazások támogatására B e s o r o l á s i c í m : Horovod referencia architektúra mélytanulási alkalmazások támogatására S z e r e p : létrehozó B e s o r o l á s i n é v : Farkas U t ó n é v : Attila I n v e r t á l a n d ó n é v : N E s e m é n y : felvéve I d ő p o n t : 2022-06-07 E s e m é n y : elérhető I d ő p o n t : 2022-04-21 D á t u m r a v o n a t k o z ó m e g j e g y z é s : Az előadás időpontja. A t í p u s n e v e : prezentáció A t í p u s n e v e : előadás M e g n e v e z é s : Prezentáció M e g n e v e z é s : Könyvtártudomány - prezentáció M e g n e v e z é s : Networkshop 2022 M e g n e v e z é s : Panopto A j o g t u l a j d o n o s n e v e : Farkas Attila S z e r z ő i j o g i m e g j e g y z é s e k : Jogvédett T é m a k ö r : Számítástechnika, hálózatok A l t é m a k ö r : Mesterséges intelligencia T á r g y s z ó : keretrendszer M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : felhő alapú szolgáltatás M i n ő s í t ő : tárgyszó/kulcsszó T á r g y s z ó : 2022 M i n ő s í t ő : időszak K é p a l á í r á s : Horovod referencia architektúra mélytanulási alkalmazások támogatására I s m e r t e t ő s z ö v e g : "A Horovod egy elosztott gépi tanulási keretrendszer a TensorFlow, Keras, PyTorch és az Apache MXNet keretrendszerek számára. A Horovodot eredetileg az Uber fejlesztette ki, hogy az elosztott gépi tanulás gyorsan és egyszerűen alkalmazható legyen, így a neurális hálózatok tanítási ideje nagy mértékben csökkenthető. A Horovod segítségével a neurális hálózatok tanítása könnyedén párhuzamosítható, hogy akár több száz GPU-n futtatható legyen, az eredeti kód minimális módosítása mellett." (Forrás: https://science-cloud.hu/referencia-architekturak/horovod-klaszter) N y e r s v a g y O C R - e s s z ö v e g : Horovod referencia architektúra mélytanulási alkalmazások támogatására
Farkas Attila
SZTAKI LPDS
Tartalom
Referencia architektúra koncepció
Horovod
Horovod referencia architektúra
Felépítése
Használata
Mérési eredmények
Referencia architektúra koncepció
Referencia architektúra
Egyfajta PaaS felhő szolgáltatás
Referencia architektúrák tartalmaznak minden szükséges építőelemet egy komplex szoftverrendszer felépítéséhez felhő alapú erőforrásokon
Továbbá a nem funkcionális követelményeknek is eleget tesznek:
Skálázhatóság
Rendelkezésre állás
Konfigurálhatóság
Biztonság
Mindezt jól definiált leírófájlok és egy felhő orkesztrátor segítségével
Referencia architektúra előnyei
Az újrahasznosítható leíróknak köszönhetően egyszerűbben és gyorsabban kiépíthetők bonyolultabb infrastruktúrák is
Manuális létrehozás esetén több időt és szakértelmet kíván
A leírók előre konfiguráltak
Megfelelő szoftver verziók, integrált komponensesek, biztonsági konfiguráció
A leírók előre teszteltek a nem funkcionális követelményekre is
Jól hordozhatók különböző felhő platformok között
Referencia architektúrák csoportosítása
Adatorientált
Big Data és IoT platform felkínálása
Gépi tanulást támogatására
Konténer platform biztosítására
Workload menedzser szolgáltatásra
https://science-cloud.hu/referencia-architekturak
Folyamatban lévő fejlesztések
Szélesebb körben támogatott orkesztrátor használata (Terraform)
Hordozhatóság javítása
Konfiguráció menedzsment eszköz alkalmazása a kiépítéshez (Ansible)
A kiépített referencia architektúra a teljes életciklusa alatt könnyebben menedzselhető
Leírók automatikus tesztelésének kialakítása (GitLab CI)
Megbízhatóság növelése
További referencia architektúrák kialakítása
Horovod referencia architektúra
Mély tanulás
Sekély neurális hálózatok
Kevés rejtett réteg
Ideális alapvető klasszifikációs és regressziós feladatok esetén
Mély neurális hálózatok
Több rejtett réteg-> több neuron-> több paraméter
Több bemeneti tanító adat
Aktivációs függvények
Optimalizálási módszerek
Komplexebb döntéshozást és funkciókat biztosít
Mély tanulás korlátai
CPU alapú tanítás
Ideális sekély neurális hálózatok esetén
GPU alapú tanítás
Nagymértékű párhuzamos számítási kapacitást biztosít
"Lassú" CPU-GPU kommunikáció
Korlátozott memória méret
Skálázása korlátozott egy gépen belül
Léteznek különböző párhuzamos és elosztott megoldások a tanítási folyamat gyorsítására
Horovod
Nyílt forráskódú elosztott mély tanulási keretrendszer
TensorFlow, Keras, PyTorch, Apache MXNet, Spark támogatás
Egyszerűen felhasználható keretrendszer elosztott mély tanuláshoz
Adat párhuzamos megvalósítás
Modell párhuzamos támogatás egy állomáson belül
Baidu eredeti megoldásának továbbfejlesztése
Ring-allreduce stratégia
Nvidia NCCL 2.0 támogatás állomások közötti kommunikációhoz
2*(N-1) kommunikációs igény lépésenként az Allreduce N*(N-1) kommunikációs igénye helyett
Horovod referencia architektúra
https://science-cloud.hu/referencia-architekturak/horovod-klaszter
Horovod referencia architektúra kiépítése
Előfeltételek:
Terraform és Ansible telepítése
Biztosított RefArch Toolset Docker image használata
Kiépítés lépései:
Leírófájlok letöltése
Leírófájlok testre szabása
Authentikációs információk megadása
Erőforrások megadása
SSH kulcs megadása
Kiépítés:
terrafrom init
terraform apply
Horovod referencia használata
Mérési eredmények - környezet
ELKH Cloud SZTAKI ágán
1-8db VM, gépenként:
16 vCPU
64GB RAM
1db Nvidia Tesla V100 GPU
32GB SSD tárhely
10Gbps
1TB SSD NFS megosztott tárhely
Tensorflow benchmark scriptek használata - ResNet-101ConvNet
Mérési eredmények– paraméterek
Tanításban részt vevő állomások száma
Köteg (batch) méretek
32 - javasolt
196 - maximális
Tanító adatok:
CIFAR-10 (178 MB)
ImageNet (141GB)
Megfigyelt paraméterek
Feldolgozási sebesség (img/sec)
Skálázás mértéke
Pontosság
Mérési eredmények - köteg méret
Mérési eredmények - pontosság
Elosztott mély tanulás korlátai
Modell méret növelése átlagosan növeli a pontosságot
Köteg méret növelése esetén a paraméterek módosítása szükséges a pontosság fenttartásához
Limitált kötegméret
Túlillesztés
Nagyobb kötegméret növeli a skálázhatóságot
Több számításit lépés elvégezhető két szinkronizáció között
Modell méret növelése esetén (tanítható paraméterek száma)
Kommunikációs költség rontja a skálázhatóságot
GPU memóriája véges
Összefoglalás
ELKH Cloud
IaaS felhő szolgáltatás a kutatók és egyetemek számára
Referencia architektúra koncepció
PaaS felhő szolgáltatás
Újrahasznosítható és hordozható leírók
Nem funkcionális követelmények biztosítása
Horovod referencia architektúra
Elosztott gépi tanulás támogatása
Skálázás biztosítása az ELKH Cloudon
A bemutatott munka az Eötvös Lóránd Kutatási Hálózat Titkárság támogatásával jött létre (szerződés szám: IF-2/2020, cím: "ELKH Cloud projekt támogatása"). D o k u m e n t u m n y e l v e : magyar K a p c s o l ó d ó d o k u m e n t u m n e v e : Farkas Attila - Lovas Róbert: Referencia architektúra koncepció és megvalósítása az ELKH Cloudon A f o r m á t u m n e v e : PowerPoint prezentáció O l d a l a k s z á m a : 21 T e c h n i k a i m e g j e g y z é s : Microsoft Office PowerPoint 2016 M e t a a d a t a d o k u m e n t u m b a n : N A f o r m á t u m n e v e : PDF dokumentum O l d a l a k s z á m a : 21 M e t a a d a t a d o k u m e n t u m b a n : N A f o r m á t u m n e v e : HTML dokumentum T e c h n i k a i m e g j e g y z é s : HTML 5 verzió M e t a a d a t a d o k u m e n t u m b a n : N L e g j o b b f o r m á t u m : JPEG képállomány L e g n a g y o b b k é p m é r e t : 770x433 pixel L e g j o b b f e l b o n t á s : 96 DPI S z í n : színes T ö m ö r í t é s m i n ő s é g e : közepesen tömörített Á l t a l á n o s m e g j e g y z é s : Networkshop 2022 konferencia A z a d a t r e k o r d s t á t u s z a : KÉSZ S z e r e p / m i n ő s é g : katalogizálás A f e l d o l g o z ó n e v e : Nagy Zsuzsanna |