Kertész Gábor: Gépi tanulás az ELKH Cloudon [DKA metaadatok]

K é p a l á í r á s : Gépi tanulás az ELKH Cloudon

N y e r s v a g y O C R - e s s z ö v e g : Gépi tanulás az ELKH Cloudon Kertész Gábor tudományos munkatárs, SZTAKI-LPDS A gépi tanulás hardveres követelményei Gépi tanulás Olyan megoldások, amelyeknél a működés, a teljesítmény tapasztalatszerzés által javul: tanulásra képes rendszerek Mesterséges neurális háló Döntési fa Regressziós modellek Támasztó-vektor gép (SVM) Bayes hálók Genetikus algoritmus KNN K-means Gépi tanulás Jellemzően két nagy csoportra szokás bontani: Felügyelt tanulás Felügyelet nélküli tanulás Felügyelt tanulás esetén rendelkezésre állnak olyan tanítóminták, ahol ismert az elvárt kimenet is, így tanításkor mérhető a pontosság. Felügyelet nélküli tanítás esetén címkézetlen adatok közötti összefüggések felismerése a cél, amely jellemzően csoportosítást, klaszterezést jelent. Data-driven A gépi tanulás adatvezérelt: több tanítóminta jobb modelleket eredményez A nagy mennyiségű adat kezelése többszintű kihívás: "Big Data" Nagy mennyiségű adat tárolása, kezelése, feldolgozása Maga a feladat is nagy számításigényű Felhők, szuperszámítógépek szükségesek Mély Neurális Hálózatok Mély Neurális Hálózatok A mély hálózat több rétegből áll, a rétegekben nagy számban vannak tanítható paraméterek Akkor teljesít kiemelkedően, ha nagy számú tanítóminta áll rendelkezésre (Big Data) Ha nincs elégséges számú tanítóminta, akkor lehet hogy a tanítási adatokra túlságosan illeszkedni fog a modell, és így nem általánosít majd jól (overfitting) A tanítás folyamata így memóriaigényes, és a számítási komplexitás magas A mély tanulás költséges Háttértár Tanítóminták tárolására A tárterület mellett az elérési idő is számít! Memória A modell paramétereinek A tanítási lépés ideiglenes változóinak Az aktuális tanítómintáknak Számítási komplexitás Rengeteg lépés A mély tanulás számítási komplexitása A tanítás folyamata memóriaigényes, és a számítási komplexitás magas A feladat azonban nagyszerűen párhuzamosítható multiprocesszoros környezetben, kifejezetten GPU gyorsítókkal A mini batcheken alapuló backpropagation algoritmust lehetséges adatpárhuzamosan implementálni Erre nagyszerű eszköz a grafikus gyorsító, amely több ezer műveletvégző egységgel rendelkezik A 2010-es évek elején jelentek meg az első GPGPU-implementációk A hardvergyártók esetenként már dedikáltan multiprocesszoros feldolgozásra terveznek eszközöket Nem grafikai renderelésre, hanem kutatáshoz készülnek Ezen költséges eszközök beszerzése helyett felhő alapú, igény szerint történő felhasználásuk a logikus A mély tanulás költséges! Tárhely Memória GPU Tápegység Hűtés Modern gépi tanulás a felhőben Framework TensorFlow, Keras, Pytorch Python alapú keretrendszerek TensorFlow Google Brain csapat által fejlesztett Python (C++, JS) függvénykönyvtár adatfolyam programozáshoz 2015 novemberében publikálták először CPU/GPU támogatás, több platformon Keras Felismerve, hogy a TensorFlow (és más frameworkok) jellemzően alacsony szintű hozzáférést adnak a fejlesztőknek, megjelent az igény a magas szintű APIkra "Being able to go from idea to result with the least possible delay is key to doing good research." Francois Chollet, a Google mérnöke 2015 óta fejleszti Felső rétegként használható több framework felett is, például TensorFlow is alkalmazható mint Keras backend TensorBoard Egy gyakran használt eszköz a fejlesztés támogatására Webes felületen követhető a modell tanítása során a különböző paraméterek változása, de a modell architekturája is vizualizálható Jupyter Jupyter Notebook Interaktív webes felületű környezet Jupyter Lab Komplett fejlesztőkörnyezet Jupyter Hub Multi-user környezet Referencia architektúrák @ ELKH Cloud A felhasználást segítő szolgáltatások referencia architektúrák formájában vannak megadva Occopus orkesztrációs eszköz segítségével kiépíthető a kívánt környezet Tensorflow & Keras, Jupyter Notebook / Jupyter Lab Külön GPU-enabled verzió https://science-cloud.hu/jupyterlab Elosztott gépi tanulás a felhőben GPU feldolgozás A modell paraméterei és a tanítóminták az eszközre másolódnak, majd a mátrixműveletek párhuzamosan kerülnek végrehajtásra Több GPU használatával a feldolgozás ideje elvben csökkenthető Adatok szerinti felbontással az egyes gyorsítók a különböző részhalmazzal tanítják a modelljük másolatát Azonban ekkor a GPU-k közötti kommunikáció lesz a szűk keresztmetszet, a paraméterek frissítésekor Elosztott feldolgozás A fizikai korlátok elérésekor érdemes elgondolkodni a horizontális skálázáson, azaz a feladat részfeladatokra bontásán és elosztott feldolgozásán A backpropagation algoritmus esetén sajnos ez nem triviális Az adatdekompozíción alapuló megközelítés népszerű, és könnyen implementálható A modellről másolatok készülnek klaszter minden elemére Minden állomáson lezajlik a tanítás egy-egy kötegnyi tanítómintán A kiszámolt gradiensek megosztásra kerülnek egymással, a súlyparaméterek együtt kerülnek módosításra Elosztott mély tanulás Az elosztott mély tanulás sarokpontja a kommunikáció A gradiensek cseréje és a paraméterek módosítása költséges is lehet Nagyobb, mélyebb modell több paramétert jelent, amely nagyobb átviteli költséget eredményez Léteznek megoldások, amelyek magas hatékonyságot ígérnek a skálázáshoz Mély tanulási klasztert nem érdemes saját eszközökből kialakítani, az idő jelentős részében kihasználatlan lenne - éppen erre jó a felhő Apache Spark MLlib További, nem mély neuronhálókon alapuló gépi tanulási megoldásokra Skálázható megoldás, felhőben kiépíthető számítási klaszterekre Az ELKH Cloud weboldalán elérhető referencia architektúrák között részletes leírás található Apache Spark klaszter telepítéséről Python vagy R fejlesztői környezettel Összefoglalás Gépi tanulás Nagy memória és számításigényű feladat, speciális eszközökkel hatékony Költségek Grafikus gyorsítók és szerverek költségesek, kihasználatlanság esetén nem gazdaságos ezeket beszerezni Üzemelttetés, fenntartás, karbantartás, fejlesztés ELKH Cloud Felhő alapú tanítás, hatékony választás minden szempontból Elosztott gépi tanulás Szolgáltatástámogatás, referencia architektúrák Tensorflow, Jupyter Apache Spark, Jupyter / RStudio Köszönöm a figyelmet! kertesz.gabor@sztaki.hu

D o k u m e n t u m n y e l v e : magyar