D O K U M E N T U M A Z O N O S Í T Ó 
 F á j l n é v : affolditamas.jpg
C Í M 
F ő c í m : Élet az SQL-en túl
B e s o r o l á s i   c í m : Élet az SQL-en túl
E G Y É B   C Í M 
E g y é b   c í m : Az adatfeldolgozás legújabb trendjei
M i n ő s í t ő : alcím
A L K O T Ó 
S z e r e p : létrehozó
B e s o r o l á s i   n é v : Földi
U t ó n é v : Tamás
I n v e r t á l a n d ó   n é v : N
D Á T U M 
E s e m é n y : felvéve
I d ő p o n t : 2014-03-12
E s e m é n y : létrehozva
I d ő p o n t : 2013-12-01
D O K U M E N T U M T Í P U S 
A   t í p u s   n e v e : prezentáció
R É S Z G Y Ű J T E M É N Y 
M e g n e v e z é s : Prezentáció
E R E D E T I   K I A D V Á N Y ,   O B J E K T U M 
S Z Á R M A Z Á S I   H E L Y 
M e g n e v e z é s : SlideShare
T É M A 
T é m a k ö r : Számítástechnika, hálózatok
A l t é m a k ö r : Információs rendszerek
T é m a k ö r : Számítástechnika, hálózatok
A l t é m a k ö r : Számítógépes alkalmazások
T é m a k ö r : Számítástechnika, hálózatok
A l t é m a k ö r : Hálózati információforrások
T é m a k ö r : Számítástechnika, hálózatok
A l t é m a k ö r : Programozás
T Á R G Y S Z Ó 
T á r g y s z ó : szellemi munka
M i n ő s í t ő : tárgyszó/kulcsszó
T á r g y s z ó : információkeresés
M i n ő s í t ő : tárgyszó/kulcsszó
T á r g y s z ó : informatika
M i n ő s í t ő : tárgyszó/kulcsszó
T á r g y s z ó : programozás
M i n ő s í t ő : tárgyszó/kulcsszó
T á r g y s z ó : adatbázis-tervező
M i n ő s í t ő : tárgyszó/kulcsszó
T á r g y s z ó : adatbázis
M i n ő s í t ő : tárgyszó/kulcsszó
T á r g y s z ó : felhasználói program
M i n ő s í t ő : tárgyszó/kulcsszó
I D Ő - H E L Y   T Á R G Y S Z Ó 
T á r g y s z ó : 2010
M i n ő s í t ő : időszak
L E Í R Á S 
K é p a l á í r á s : Vitaindító előadás a Magyar Adattárház Fórumról 2010
Az Adattárház Fórum 2010 (Budapest, Hotel Ibis, 2010. május 11.) konferencián tartott nyitóelőadás prezentációja.
http://computerworld.hu/esemeny/2206
I s m e r t e t ő   s z ö v e g : Az SQL, azaz Structured Query Language (strukturált lekérdezőnyelv) relációs adatbázis-kezelők lekérdezési nyelve. Angol nyelvterületen eszkjuel a kiejtése. A hagyományokhoz való hűség jegyében sokan szíkvel-nek ejtik, ugyanis korábban Structured English Query Language (SEQUEL) volt az elnevezés, és ezt rövidítették le. A relációsadatbázis-kezelők általában az SQL nyelven programozhatók. Az SQL alapvető utasításait közel egyformán valósítják meg, de a később beépült nyelvi elemek körében nagyon nagy az eltérés, az inkompatibilitás, emiatt számos SQL nyelvjárásról beszélhetünk. Jellegét tekintve ez a szakterület-specifikus nyelv részben procedurális, részben deklaratív. (Forrás:Wikipédia)
N y e r s   v a g y   O C R - e s   s z ö v e g : 1. Élet az SQL-en túl: Az adatfeldolgozás legújabb trendjei Földi Tamás tfoldi@starschema.net 2. IBM Kutatóközpont San Jose, California, 1970 www.starschema.net 3. www.starschema.net 4. www.starschema.net 5. www.starschema.net 6. Negyven évvel később www.starschema.net 7.Gartner Report Adattárházakban használt adatbázis-kezelők Elsősorban relációs mágikus kvadránsai, Gartner 2010 adatbázisok Tranzakciókezelés (ACID) Erős adatbázis szerverek (SMP) Megjelenik a Masszív Párhuzamos feldolgozás www.starschema.net 8. Legforgalmasabb weboldalak Weboldal Terhelés Google Adat előfeldolgozás: 20 Petabájt / nap Facebook Inbox: 100 TB, 150 gépes klaszter Adattárház: 15 Petabyte adat, 1400 gép, 11200 CPU Youtube Napi 30 milliárd lekérés, 350ezer oldal/másodperc Microsoft Live, Bing Havonta 50 millió egyedi látogató Yahoo! 92 Petabyte adat, a legnagyobb lekérdezés 10ezer gépen fut párhuzamosan 73 óráig Twitter Adatbázis növekedés 7TB naponta, 2+ PB évente Wikipedia BBC Myspace Napi 11 milliárd oldalletöltés Amazon www.starschema.net 9. Legforgalmasabb weboldalak Weboldal Főbb adatbázismotor Adatbázis típusa Google GFS, Google BigTable Columnar NoSQL Facebook Cassandra, Hadoop/HIVE Columnar NoSQL Youtube MySQL RDBMS Microsoft Live, Azure Tuple store, RDBMS Bing Yahoo! Hadoop, PNUTS Columnar NoSQL Twitter FlockDB, Cassandra, Graph, Columnar NoSQL Hadoop/Hbase Wikipedia Flatfile, MySQL Flat file, RDBMS BBC CouchDB Document Myspace Aster Data nCluster MPP RDBMS + MapReduce Amazon Amazon Dynamo Columnar NoSQL www.starschema.net 10. www.starschema.net 11. Mi a NoSQL? = Not only SQL Choosing the right tool for the job Werner Vogels, Amazon CTO www.starschema.net 12. Új trendek www.starschema.net 13. Miért NoSQL? Web és adattárház alkalmazásoknak más igényeik vannak Alacsony és kiszámítható válaszidők Skálázhatóság és dinamikus bővíthetőség Hibatűrés Rugalmasság Illetve nem feltétlenül szükséges Tranzakciókezelés, erős konzisztencia Horizontálisan kiválóan skálázhatóak www.starschema.net 14. RDBMS vs. NoSQL RDBMS-ek: Konzisztens Hibatűrő Új szereplők: Hibatűrő, széttagolható. Nem teljesen konzisztensek Más megkötések a teljesítmény és skálázhatóság érdekében www.starschema.net 15. Múlt és jelen www.starschema.net 16. A jövő pedig www.starschema.net 17. Tárolási trendek Shared Nothing Minden szerver saját diszkjeit használja. Horizontálisan skálázható architektúra Tároló és az adatbázis kezelő összeolvad A tároló tudja, mit tárolnak rajta. Tartalom alapú replikáció és párhuzamos olvasás. Kiváltja a RAID funkcionalitását Olcsó PC a drága SAN helyett www.starschema.net 18. SAS és a Masszív Parallel jövő A SAS új technológiájának köszönhetően 18 óráról két és fél percre csökkentette egy marketing-adatbázis feldolgozási idejét. 196 szerver, 1664 CPU mag Shared-nothing alapú memóriahasználat. Több terabájtnyi memória A legtöbb szállító MPP architektúrát fejleszt 19. Jelenlegi trendek www.starschema.net 20. Map-Reduce www.starschema.net 21. MapReduce A Google által kifejlesztett elosztott adatfeldolgozási eljárás, amely két részből áll: MAP: A feladatot elemi szintre bontja, szétszórja a hálózatban, majd elemi szinten kiszámolja REDUCE: A részeredményeket begyűjti a hálózatról, majd összesíti 22. Példa MapReduce 1. Feladat Új tarifacsomag tesztelése kiválasztott telefonszámok korábbi hívásadatain Map Kiválasztja hívásrekordokat telefonszám és időintervallum alapján, majd telefonszám szinten elkészíti a számlaösszegeket Reduce Összegzi a telefonszám alapú eredményeket www.starschema.net 23. Példa MapReduce 2. Telefonszám 0-3-ig Teljes hívásrekord adatbázis telefonszám alapján Telefonszám szétosztva a tárolók 4-6-ig között Telefonszám 7-9-ig www.starschema.net 24. Példa MapReduce 2. MAP REDUCE Telefonszám 0-3-ig Új Kiválasztott Eredmények számlázási részfeladatok adatok telefonszámok Telefonszám 4-6-ig Telefonszám 7-9-ig www.starschema.net 25. MapReduce A mit? helyett a hogyan? Független, elosztott végrehajtás. A feladatokat az adatbázis-kezelő felszeleteli, és a szeleteket ott futtatja le, ahol a releváns adat található Tervezhető futási idő és erőforrások Felhőképes koncepció www.starschema.net 26. MapReduce támogatás Bejelentés dátuma Adatbázis szállító 2008. Augusztus Aster Data Systems 2008. Augusztus Greenplum 2009. Július Microsoft (Azure) 2009. Augusztus Vertica 2009. Szeptember Teradata 2009. Október Oracle 2009. December Sybase www.starschema.net 27. www.starschema.net 28. Myspace Adattárház Ügyfél: Myspace 120 millió aktív felhasználó Többszáz terabájtos DW 2-3 TB/nap új adat. Riport és elemzési igények Megoldás: Aster Data Aster Data nCluster MPP adatbázis-szerver MapReduce alapú ETL BI és Ad-hoc elemzések közvetlenül az adattárházból www.starschema.net 29. Hadoop 30. Mi a Hadoop? Bővíthető és hibatűrő megoldás nagy mennyiségű, elosztott számítási és adatfeldolgozási feladat elvégzéséhez hétköznapi PC-kből álló hálózaton Nyílt forráskód + Olcsó hardver = IT költségcsökkentés www.starschema.net 31. Hol használják? AOL LinkedIn Facebook Meebo Fox Interactive Media Microsoft IBM The New York Times ImageShack Rackspace Joost Twitter Last.fm www.starschema.net 32. Hadoop Ecosystem www.starschema.net 33. Hadoop HIVE Hadoop DWH megoldása MapReduce feldolgozás HDFS tárolás Hive Query Language Alap SQL utasítások Nagyteljesítményű adattárház, BI illesztéssel www.starschema.net 34. Yahoo-Hadoop Story Yahoo Search! optimalizálás 1 trilliárd link feldolgozása (1 000 000 000 000 000 000 000, billiószor milliárd) 15 Petabájt kapacitás 10.000 magos klaszter Eredmények: Hadoop használatával 66%-os teljesítmény növekedés az előző célszoftverhez képest. Egy hétről három napra csökkent a futásidő. 35. Összefoglalás www.starschema.net 36. Hazai helyzet Jelenleg nem tudunk sem éles, sem pilot adattárházas felhasználásról Több cég foglalkozik a technológia tesztelésével, elemzésével Komoly befektetések nélkül könnyen kipróbálható, tesztelhető www.starschema.net 37. Összefoglalás NoSQL létezik és erősödik a használata. Különösen a skálázhatósági igények felső végén. Ingyenes szoftverek és olcsó hardverigény Konvergencia: nagy terjesztők is felkarolják Fejlődés viszont nem áll meg A jövő kérdéses, de izgalmas! 38. Köszönjük a figyelmet! Földi Tamás tfoldi@starschema.net www.starschema.net 39. Felhasznált képek / Used pictures Dia / Slide no. Forrás / Source 3-5, 12 Tim Anglade NoSQL for Fun and Profit (presentation) 7 Gartner - Magic Quadrant for Data Warehouse Database Management Systems (white paper) 15,16 Jason Davies - Non-relational databases and world domination (presentation) 19,32,33 Philippe Julio Hadoop Architecture (presentation) 28 Aster Data - MySpace.com Scales Analytics for All of Its Friends (white paper) www.starschema.net
D o k u m e n t u m   n y e l v e : magyar
K A P C S O L A T O K 
K a p c s o l ó d ó   d o k u m e n t u m   n e v e : Wikipédia : SQL
F O R M Á T U M 
A   f o r m á t u m   n e v e : PowerPoint prezentáció
O l d a l a k   s z á m a : 39
T e c h n i k a i   m e g j e g y z é s : Microsoft Office PowerPoint 2003
M e t a a d a t   a   d o k u m e n t u m b a n : N
M I N Ő S É G 
L e g j o b b   f o r m á t u m : JPEG képállomány
L e g n a g y o b b   k é p m é r e t : 770x577 pixel pixel
L e g j o b b   f e l b o n t á s : 72 DPI
S z í n : színes
T ö m ö r í t é s   m i n ő s é g e : közepesen tömörített
S T Á T U S Z 
A z   a d a t r e k o r d   s t á t u s z a : KÉSZ
F E L D O L G O Z Ó 
S z e r e p   /   m i n ő s é g : katalogizálás
A   f e l d o l g o z ó   n e v e : Nagy Erzsébet