Hol képezzük a deltát?

A deltaképzés célja, hogy megállapítsuk mi változott a legutolsó betöltés óta, azaz milyen adatok keletkeztek vagy változtak meg a forrásrendszerben amióta utoljára elhoztuk az adatokat. Ezt megállapíthatjuk a forrásoldalon és adattárház0 oldalon is. Minél hamarabb történik a delták meghatározása, annál kevesebb adattal kell dolgoznia az adattárház különböző rétegeinek, és annál gyorsabb lesz az adattárház betöltése.

Nekünk adattárházasoknak a legjobb az lenne, ha a forrásrendszer már eleve csak a deltát adná fel, ráadásul úgy hogy minden egyes rekordról megmondaná, hogy az a rekord új, törölt vagy csak valamelyik mezője megváltozott. (Erre igazából, csak a CDC - Change Data Capture technológia ad jó megoldást) 

Ha ez nem járható (és ez ritkán járható) akkor a következő jó megoldás az adatkör szűkítése azokra a rekordokra amelyek tartalmazhatnak változást vagy új rekordot. És ha még ez sem megoldható, akkor az adattárháznak át kell hoznia mindent és neki kell meghatároznia, hogy mi változott meg az utolsó betöltés óta.

Megj.: Az adattárház mindenképpen képez deltákat. Ezt a feladatot nem veheti át tőle a forrásrendszer, hiszen az adattárházban a historizáció lehet üzleti alapú is, az adattárház sokszor csak az üzleti események változását historizálja nem a forrásrendszerek változását. 

Összefoglalva: A legjobb gyakorlat szerint az adattárház már csak forrásrendszeri deltát kap, azaz csak azokat a rekordokat kapja meg, amelyek az utolsó betöltés óta keletkeztek vagy megváltoztak. Ez azonban - valamilyen korlát miatt - ritkán valósul meg. Korlát lehet a  

  • forrásrendszerek erőforráshiánya (A deltaképzéssel járó terhelésnövekedést nem bírja el a szerver), 
  • forrásrendszerek emberi erőforrás (fejlesztő) hiánya, 
  • a forrásrendszer zártsága (Fekete doboz, senki sem látja a lelkét), 
  • a forrásrendszeri fejlesztés költsége, 
  • a forrásrendszeri fejlesztés időigénye (átfutási idő), 
  • a deltaképzéshez szükséges tudás hiánya. 
  • stb.

Mind-mind olyan tényezők amely befolyással lehet arra, hogy hol képezzük a deltákat. De minél közelebb történik a forrásrendszerekhez, annál kevesebb adatot kell átrángatnunk az adattárház architektúra egyes rétegein és annál gyorsabb lesz az adattárház betöltése.

Kővári Attila - BI projekt

Új hozzászólás