A jövő BI architektúrája (a múltból...)

3 és fél éve úgy gondoltam, hogy évzárónak írok egy hosszabb eszmefuttatást a jövő üzleti intelligenciájáról. Meg is írtam, de aztán nem publikáltam. Most mégis megteszem, ugyanis az akkori architektúra egy hiányos láncszeme megjelenni látszik dobozos termék formájában... Következzen a cikk:

Milyen lesz a jövő üzleti intelligenciája?

Nem tudom. Nem hiszek a klasszikus „adattárház rajta előre definiált riportokkal” típusú megoldásokban. Nem hittem már 10 évvel ezelőtt sem, ugyanakkor látom, hogy él és virul. Úgyhogy nem tudom megmondani, hogy milyen lesz a jövő üzleti intelligenciája :-)

Ugyanakkor látom a gyártók kínálatát, látom hogy mitől szenvednek a BI-t használó, vagy használni akaró cégek és vannak elképzeléseim is arról, hogy milyen lenne a szervezet szempontjából egy ideális BI ökoszisztéma. Következzen az eszmefuttatás:

A felhasználók az alkalmazás boltokhoz hasonlóan vásárolnak adatokat. „Szükségem van a forgalmi adatokra és ehhez szeretnék vevő adatokat, termék adatokat is kapni”. A felhasználó letölti az adatokat, a rendszer megkeresi és létrehozza köztük a kapcsolatokat. A rendszer okos. Tudja azt is, hogy mások, akik letöltötték ezeket az adatokat, milyen más adatokat töltöttek még le, úgyhogy felajánlja azokat is. Beépíttet meta adat adatbázisából látja azt is, hogy milyen adatokkal kapcsolható még össze a letöltött adat, így felajánlja azt is. A felhasználó a letölti az adatokat, abból összegyúr egy kockát és azt megosztja másokkal felpublikálva a központi szerverre.

Utópisztikus? Egy ponton mindenképp. Mégpedig a forrásadatok elérhetőségével kapcsolatban. Azok ugyanis rendkívül nehezen érhetőek el az üzleti felhasználók számára. Még kézzel is, nemhogy automatikusan. De lépjünk ezen túl egy kicsit (mert ez nem technikai probléma) és képzeljük el, hogy az adatok hozzáférhetőek felhasználóink számára.

A következő feladatunk a vállalati adatvagyon feltérképezése lenne. Tudjuk, hogy forrásrendszerink metaadatai siralmasan szegényesek. Szükségünk lenne egy letapogató programra, amely végignyalja a forrásrendszereket és készít azok adatairól, szerkezetéről egy metaadat adatbázist.

A letapogató program intelligens. Nem csak létező kapcsolatokat derítené fel, hanem adatprofilozással, esetleg adatbányászati módszerekkel olyan adatok között is kapcsolatot tudna találni, amelyek között a forrásrendszerben nincs fizikai vagy logikai kapcsolat (Join).

A letapogató program a metaadatokból felépít egy kereshető, verziózott adatbázist. Ezt a metaadat adatbázist használhatnák

  • Az önkiszolgáló üzleti felhasználók, adatok keresésére, az adatok jelentésének, kontextusának megértésére
  • Adatgazdák, a vállalati adatvagyon nyilvántartására, karbantartására
  • BI és adattárház fejlesztők.
  • és végül a mondanivaló szempontjából a legfontosabb: Ebből a metaadat adatbázisból legenerálható lenne automatikusan, gombnyomásra egy historikus stage vagy egy Data Vault modellezési módszertannal felépített forrásközeli adattárház réteg.

A metaadatok alapján le tudnánk generálni a Historikus stage vagy a forrásközeli, nyers Data Vault adattárházunk betöltőit is. Automatikusan, kézi beavatkozás nélkül.

A historikus stage / Source data vault réteg tetejére nézetekből építenénk egy olyan területet, amelyhez a felhasználók hozzáférnek. Ez a réteg lehetne csak egy, a historikus stage táblákra rádobált Ahogy van/ahogy volt nézetek, lehetne egy csillagsémás szakterületi adatpiac is. Forrásrendszerek közti integráció ebben a rétegben még nem valósulna meg, ez a réteg csak a szakterületi BI felhasználók igényeit szolgálná ki. (Olyan felhasználók igényeit, akik igényei kielégíthetőek egy forrásrendszerből)

Az integráció (több különböző forrásrendszer adatainak integrálása) egy magasabb adattárház rétegben valósulna meg. Ez a réteg felelne az integrációért, itt lennének megtisztítva az adatok és itt valósulnának meg az üzleti transzformációk is. Kódok jelentéssel való felruházása, mértékegységváltás, mennyiségből és egységárból forgalom számítás, stb.

E réteg feltöltése és legenerálása már nem lenne teljesen automatizálható, de jelentős része még igen. Az automatizálhatóság mértéke elsősorban a forrásrendszerek minőségétől és az integráció fokától függ. Minél jobban lefedi a vállalat folyamatait a forrásrendszer, minél szorosabb az integráció a forrásrendszerek között, annál inkább automatizálható az adatmodell és a hozzá tartozó betöltők generálása.

Az üzleti felhasználók számára hozzáférhető terület adatiból (Elsősorrban az adattárházból, de erős felhasználóknak a historikus stage/Data Vault területből is) nyitnánk egy adatáruházat, ahonnan a felhasználók az alkalmazásboltokhoz hasonlóan tudnának letölteni adatokat maguknak. A mai divatnak megfelelően nagyképűen csak Store-nak neveznénk. Kereshetnének entitásokhoz mutatókat, vagy mutatókhoz entitásokat (dimenziókat) Az adatáruház intelligens lenne, öntanuló lenne, hasonlóan egy webáruházhoz, vagy egy alkalmazás bolthoz.

Az adatáruházból letöltött adatokból a felhasználók önkiszolgáló BI eszközökkel adatkockákat építenének. A kockákat saját célra használnák, de a népszerű kockákat meg tudnák osztani a vállalat többi elemzőjével is...”

Hölgyeim és Uraim. Ezt a cikket három és fél éve írtam évzáró cikknek, de aztán mégse publikáltam, mert túl sok munkát kellett volna még beleölni, hogy jó cikk legyen :-(

Most azonban mégis leközöltem. Ennek legfőbb oka, hogy megoldódni látszik a vázolt architektúra egy komoly problémája...

Úgy fest ugyanis, hogy az architektúrában csak letapogató programnak nevezett komponensre lesz gyári megoldás. Legalábbis az eddig napvilágot látott cikkekből az derül ki, hogy az Azure Data Catalog ezt a célt szolgálja majd...

Mit várnék az Azure Data Catalogtól? Azt, hogy

  • végignyalja a különböző forrásrendszereket és azok metaadatait közös adatbázisba töltse.
  • ezeket verziózottan, egyéb metaadatokkal dúsíthatóan tárolja
  • és más alkalmazásokkal integrálja. Gondolok itt a Power BI komponensekre, az ETL szoftver SSIS-re, és minden olyan szoftverre, amelyet a BI és adattárház rendszerek építése során használunk...

A metaadat menedzsment sajnos örök mumusa a Microsoftnak. Amióta MS BI-jal foglalkozom, azóta nem tudja megugorni az MS ezt az akadályt. Voltak kísérletek a megoldására, de azok vagy elhaltak (Lásd Repository úgy jó 15 évvel ezelőtt), vagy be sem fejeződtek (lásd Projekt Barcelona) vagy használhatatlanok voltak (Lásd Data Catalog).

Most azonban újra bizakodó vagyok és bízom benne hogy szép lassan kialakul majd az az MS BI stack, amelynek komponensei a központi metaadatbázison keresztül integrálhatóak lesznek egymással és ezen komponensek felhasználásával új, a jelenleg használt architektúráktól eltérő, az üzleti felhasználóknak nagyobb szabadságot nyújtó architektúrák építhetőek majd. Vagy ha ez most még nem is valósul meg, akkor legalább kapunk egy eszközt, amely az adatvagyon felelősnek segít majd a vállalati adatvagyon nyilvántartásában, és az üzleti felhasználóknak az adatok elérhetőségének, megértésének egyszerűsítésében.

Utoljára 2 éve bíztam ebben ennyire...

Kővári Attila - BI projekt

Új hozzászólás