Cső: Real-time Big Data architektúrák építése Azure-ban könyv


Mi a Cső?

A Cső egy olyan módszertan, amely segítségével meg tud tervezni egy real-time Big Data architektúrát az Azure-ban. Fizikai megjelenését tekintve a Cső egy 150 oldalas A5-ös méretű gyűrűskönyv, amely a következőképpen néz ki:

Megrendelem >>

Kinek szól a Cső?

Nagyvállalatoknak

A Cső arra a kérdésre keresi a választ, hogy hogyan profitálhat egy hazai vállalat az eddig nem vagy csak korlátozottan elemzett logokból. Mire lehet őket használni, hol, hogyan érdemes a logokat tárolni ahhoz, hogy aztán be lehessen őket csatornázni a vállalat BI architektúrájába, hogy az adatvagyont gyarapítva hasznot hajtson.

A Cső nem a Google, Twitter, LinkedIn, Facebook méretű internetes cégekre fókuszál, hanem azokra a vállalatokra, akiknek vannak logjaik, méréseik, eseményeik és keresik azok alkalmazási lehetőségeit, a bennük rejlő üzleti potenciált.

Nagyon sokat tanultunk a Big Datát kitaláló és először használó úttörő cégektől.Teljesen más szintre helyezték a döntéstámogatást, kitolták a kezelhető adatmennyiségek határait, lecsökkentették a költségeket és fricskát adtak az összes híres adatbázis- és szoftvergyártó orrára.

De a vállalatok többsége a mai napig hagyományos adatbázisokkal, strukturált adatokkal dolgozik. Nincs 150 millió szenzoruk és nem keletkezik 40 millió adatuk másodpercenként, mint mondjuk a CERN-nek, de vannak logjaik amik az saját mércéjükkel nézve nagyok, nehezen kezelhetőek és ezért a mai napig parlagon hevernek. Nem termelnek hasznot, talán 15 percnél hosszabb időre nem is tárolják őket. De vannak, és érték lehet bennük. És ha érték van bennük, akkor e módszertan segítségével reményeim szerint képesek lesznek egy olyan olcsó és relatíve egyszerű architektúrát összeállítani, amely a bennük található értékből üzleti hasznot hajt.

A vállalatok többsége nem azért kezdi el használni a Big Datát, mert hagyományos eszközökkel nem tudná elemezni az adatait, hanem azért mert a hagyományos eszközökkel nem tudná költséghatékonyan elemezni őket. A kezelhetetlen adatmennyiség számukra nem azonos a Goggle, LinkedIn, … által kezelt adatmennyiséggel. Lehet, hogy csak egy gyártósor másodpercenkénti 10 üzenetét kell feldolgozniuk és real time elemezniük, ami éves szinten sem több mint párszázmillió rekord. Nem Big Data méret – gondolhatnánk – de nekik az. Nekik ezeket az adatokat egész egyszerűen nem éri meg tárolni a hagyományos technológiákkal.

A Cső elsődleges célja tehát, hogy utat nyisson a vállalatok számára a logjaikban rejlő értékek kiaknázásához.

IoT startupoknak, IoT vállalkozásoknak

A könyvet írva sokat beszéltem az IoT világban mozgó startup cégek vezetőivel és e beszélgetésekből rendre kiderült, hogy nem is gondoltak olyan dolgokra, ami nekünk - akik évek óta adattokkal foglalkoznak – teljesen természetes.

Épp ezért ajánlom ezt a könyvet az IoT iparágban tevékenykedő, vagy az IoT világába hamarosan belépő vállalatoknak hogy már az út elején egy olyan olcsó adatarchitektúrát tudjanak tervezni, amely skálázhatóságával ki fogja tudni szolgálni a növekedési céljaikat.

Adattárházasoknak, BI-osoknak

A Big Data világa jelenleg még főleg a programozók világa. A könyveket, cikkeket javarészét még programozók írják/olvassák, a Big Data előadások java részét is programozók adják. Ha elmegy ma egy BI-os vagy adattárházas szakember egy Big Data meetup-ra, valószínűleg egy szót sem fog érteni abból, amit az előadók mesélnek. A fejlesztők mást tartanak fontosnak, mint az adattárházasok, máshogy jár az agyuk mint a BI-osoknak, és máshogy közelítik meg a témát, mint a BI-osok.

Hogy csak egy példát említsek. A fejlesztők számára a lekérdezés egy olyan függvény, amely visszaad valamit az összes adatból:

lekérdezés = function(Összes adat)

Az ő gondolkodásmódjuk szerint ez természetes. Ezzel szemben a BI-osoknak a lekérdezés egy

select * from tábla

formában testet öltő utasítás. Az eredmény ugyanaz, de a gondolkodásmód nagyon eltérő.

IT vezetőknek, fejlesztőknek

A könyvet javaslom még

  • IT vezetőknek, akiket érdekel a Real Time elemzés és a Big Data világa. A könyvben jó sok problémát vetek fel, amely talán inspiráló lehet agy IT vezetőnek akinek sokszor a probléma bemutatása többet ér mint a megoldás maga.
  • fejlesztőknek, mert a könyvből megismerhetik, hogy mi a fontos az elemzőknek, adattudósoknak, mire helyezik ők a hangsúlyt, mi fontos nekik amikor egy real-time Big Data architektúrát megterveztetnek.

Miért aktuális a téma?

Olvassuk mindenhol, hogy óriási hiány van adattudósból (Data Scientist) és még nagyobb hiány lesz az elkövetkező években. Ettől hangos a világ- és a hazai sajtó is. De milyen adatokból fognak ők dolgozni? Ha nem tároljuk le az adattudósoknak szükséges adatokat, akkor az adattudósok nem fognak tudni miből dolgozni. Ahhoz tehát hogy kielégítsük az adattudósok majdani igényeit már most el kell kezdeni azokat az architektúrákat kiépíteni és az adatokat gyűjteni, amelyek majd ki fogják szolgálni őket.

Ez nem azt jelenti, hogy mindent ész nélkül le kell tárolnunk, mert „majd csak jó lesz valamire”. Inkább azt, hogy el kell kezdeni foglalkozni a témával, újra kell gondolni mit érdemes tárolni és mit nem. Nagyon lecsökkentek a tárolási költségek és ez teljesen megváltoztatja a hozzáállásunkat ahhoz, hogy mit ér meg tárolni és mit nem

Az árak csökkenése, a technológia és a szolgáltatások egyszerűsödése létre fog hozni egy új világot. Ez az új világ nem alapjaiban lesz más, mint a régi, de nagyon sok új lehetőséget fog hozni, amivel már érdemes most elkezdeni megismerkedni.

A Cső felépítése

A Csőben a real time big data megoldások tárgyalását az architektúrák bemutatásával kezdjük, majd fokozatosan haladva egyre jobban megismerjük az architektúrák elemeit, azok feladatait és azt a módszertant, ami mentén sikeresen bevezethető az architektúra.

A problémák és az architektúrák bemutatása mellett természetesen adunk megoldást a felvetett problémákra is: Be fogjuk mutatni, hogy az architektúra milyen szoftverkomponensekkel valósítható meg.

A könyvben a Microsoft felhőben futó Big Data architektúráját fogjuk példaként használni és ezen keresztül fogjuk részletesen bemutatni, hogy az architektúra felépítéséhez milyen eszközök álnak rendelkezésre a Microsoft felhőjében, azokat hogyan kell méretezni, konfigurálni ahhoz, hogy az költséghatékonyan szolgálja ki az architektúrát.

Könyv egy ilyen gyorsan változó témára?

Amikor először megosztottam kollégákkal e módszertan megírásnak gondolatát, akkor az első kérdésük az volt, hogy „Könyvet akarsz írni egy ilyen gyorsan változó iparágra? Mire kijön a könyv már minden elavult lesz.”

Ez igaz. Ezért nem is könyvet nyomtattam, hanem gyűrűskönyvet :-) A gyűrűskönyvben a lapok cserélhetőek így az új technológiák megjelenésével, a tapasztalatok növekedésével párhuzamosan Ön a vásárláskor mindig a legfrissebb anyagot kapja meg.

Részletes tartalom

  1. Bevezetés
  2. Real time Big Data architektúrák
    1. Lambda architektúra
    2. Vortex architektúra
  3. A Vortex architektúra bemutatása
    1. Eseményközpont (Event Hub)
    2. Real time eseményfeldolgozó (Stream Analytics)
    3. Forró ág (Real Time réteg)
    4. Hideg ág (Historikus réteg)
    5. Archív réteg
  4. A Vortex architektúra részletes ismertetése
  5. Hogyan indítsunk el egy big data projektet?
    1. Business case-ek meghatározása
    2. Terjedelem (scope) meghatározása
    3. Követelmények elemzése
    4. Összefoglalás
  6. Input tervezési kérdések
    1. Input formátum
    2. Protokoll
    3. Plusz információk hozzáfűzése az inputhoz
  7. Event Hub tervezési, méretezési kérdések
    1. Partíciók száma
    2. Throughput Units
    3. Consumer Group-ok
  8. Stream Analytics Jobok tervezési kérdései
    1. Forrásonként egy job, vagy célonként egy job?
    2. Rendezett vagy rendezetlen feldolgozás?
    3. Jobok skálázhatósága
    4. Jobok számítási kapacitásának becslése
    5. Kapacitás korlátok
    6. Validálás
    7. Hibakezelés
    8. Adattisztítás
    9. Verziózás
    10. Audit mezők
    11. A Stream Analytics korlátai
  9. Output tervezési kérdések
    1. Forró ág (Real Time réteg)
    2. Hibaág
    3. Hideg ág (Historikus réteg)
    4. Archív réteg
  10. Üzemeltetési kérdések
    1. Újratöltés
    2. Monitorozás
  11. Összeállt a kép
  12. Zárszó

Nézzen bele!

Nézzen bele a könyvbe! Az első 3 fejezet most ingyenesen letölthető! Ebből a 3 fejezetből megismerheti a real time Big Data architektúrákat és képet kaphat a könyv stílusáról is. Megnézem >>

Mennyibe kerül?

A Cső ára 19 990 Ft + Áfa

Ez az összeg kb. 1 órányi tanácsadási díjnak felel meg. 1 tanácsadói óradíjnak megfelelő összegért most kap egy olyan élesben használt módszertant, ami több hónapnyi kutatás és kísérletezés tapasztalatait foglalja össze.

Ráadásul ez az ár most tartalmazza az ingyenes kiszállítást is és ha nem lesz teljesen elégedett, akkor 1 hónapon belül visszaküldve az anyagot kérdés nélkül visszautaljuk a teljes vételárat.

Megrendelem >>