Cikkek BI & DWH tervezőknek és fejlesztőknek

Az alábbi oldalon összeszedtem minden olyan infót, BI és adattárház oktató anyagot, amely a BI/adattárház bevezetések műszaki/technológiai oldalával foglalkozik és elsősorban leendő adattárház tervezők, architektek, fejlesztők és dba-k fognak belőle profitálni.

Könyvek

Az utóbbi időben rám a legnagyobb hatással az alábbi könyvek voltak:

  • Dan Linstedt: Building a Scalable Data Warehouse with Data Vault 2.0 című könyve. Szívből ajánlom azoknak is, akik nem Data Vault módszertan alapján modellezik adattárházukat.
  • Ralph Kimball: The Microsoft Data Warehouse Toolkit-jét szintén rongyosra olvastam anno. Aki csillagsémás adattárháztat épit Microsoft-os környezetben annak kötelező. 

 

Adattárház tervezéssel és fejlesztéssel foglalkozó cikkek

Pokolba a csillagsémával

A minap a szemem láttára koncoltak fel egy fejlesztőt, mert letért a csiilagsémás modellezés kikövezett útjáról. "Pokolba a csillagsémával, ha nem az adja a legjobb megoldást" - mondta. És ekkor merült fel a kérdés, hogy meddig kell ragaszkodnunk a csillagsémás modellezés szigorú elveihez? Mikor engedhetjük el ezeket, egyáltalán elengedhetjük-e. Erről szól a cikk.

Tovább

A lyukacsos tér

Hozok megint egy teljesítményt romboló példát az adatmodell tervező tanfolyamról. Vaciláltam, (vacilálok még most is), hogy részévé tegyem-e a fizikai adatmodell tervezés standard tematikának, mert az adatmodell tervezésre nincs közvetlen hatással. Meglátjuk. De kidolgozom, opcionálisan lehet majd kérni, illetve kiteszem ide a BI projekt blogba is, hogy miért nem szabad beimportálni felesleges sorokat Power BI-ba.

Tovább

Üzleti és technikai historizáció az adattárházakban

Az adattárházakban historizáltan tároljuk az adatokat. Ez azt jelenti, hogy ha egy vevőnek megváltozik a címe, akkor felülírás helyett eltároljuk, hogy mettől meddig lakott Tatabányán és mettől meddig Miskolcon. A kérdés csak az, hogy az új címe mikortól érvényes? Attól az időponttól, amikor betöltöttük a vevő rekordokat az adattárházba (reggel 05:30), vagy akkortól amikor a vevő rekordja megváltozott a forrásrendszerben (tegnap 15:36)

Tovább

Az extraktálás kockázatának csökkentése

Adott egy adattárház projekt. Ennek az első lépése, hogy valahogy kinyerjük az adatokat a forrásrendszerekből. Ezt a kinyerést rábízhatjuk az 1) adattárház szállítójára 2) az adattárház megrendelőjére, 3) a forrásrendszer szállítójára, aki kiteszi az extraktumokat valahová, ahonnan az adattárház szállítója elveszi Ez utóbbi a leggyakoribb, telis-tele kockázatokkal. Hogyan csökkenthető ez a kockázat? Erről szól a cikk...

Tovább

Személyek modellezése Power BI-ban

A múltkori ismétlődő szóközök megtartásával foglalkozó cikkben elkezdtük már pedzegetni, hogy milyen megoldások vannak Power BI-ban az azonos nevű személyek összevonásának elkerülésére. Ott az volt a megoldás, hogy az az azonos nevű személyek nevéhez hozzáfűztünk 1, 2, 3… n láthatatlan szóközt. Ezzel be tudtuk csapni a Power BI-t hiszen ő 1,2,3…n különböző személyt látott, de megjelenítésben nem látunk köztük különbséget. Működik ez a megoldás most is de ma már mást használunk helyette. Mit? Erről szól a most következő cikk…

Tovább

Összeérő idősort építsünk az adattárházban?

Az adattárházak historizáltak, azaz az adattárház minden egyes soráról meg tudjuk állapítani, hogy az mettől meddig volt érvényes. Tegyük fel hogy az érvényesség kezdetét a ValidFrom, a végét a ValidTo oszlopokban tároljuk. Kérdés: A korábbi rekord ValidTo-ja egyezzen a későbbi rekord ValidFrom-jával, vagy legyen közte egy miliszekundum rés? Másképpen fogalmazva összeérő idősort építsünk, vagy inkább össze nem érőt? A válasz kiderül a cikkből...

Tovább

Cross join Power Query-ben

Power Query-vel nagyon könnyű két táblát cross joinnal összeszorozni, csak a gyári megoldás sajnos nagyon lassú… Mondjuk annyira, hogy egy 6000 soros tábla összeszorzása egy 12 elemű oszloppal nem fut le pár percen belül. Mi a megoldás? Kiderül a cikkből...

Tovább

Tizedestört adattípusok Power BI-ban

Miért ne használjunk Decimal (Tizedes tört) adattípust Power BI-ban? Mi a különbség a Decimal Number (Tizedes tört) és a Fixed Decimal Number (Fixpontos tizedes tört) adattípusok között? Kiderül a cikkből.

Tovább

Excel (Power Pivot) fájlok időzített frissítése

A most következő cikkben megnézzük, hogy milyen lehetőségeink vannak a Power Pivotos Excel dashboardok időzített frissítésére. A témának az ad aktualitást, hogy a korábbi SharePointos megoldások nyugdíjazásra kerülnek, úgyhogy keresnünk kell helyette valamilyen más megoldást.

Tovább

Szerepjátszó dimenziók a Power BI-ban

Újra felmerült a haladó tanfolyamokon, hogy ,,milyen gagyi má, hogy nincsenek szerepjátszó dimenziók a Power BI-ban" Tényleg gagyi, de 1) ritkán van rá szükségünk 2) és van alternatív megoldásunk a problémára.

Tovább

Kódok vagy megnevezések?

Örök dilemma, hogy használjunk-e hosszú, mindenki által érthető, megnevezéseket az adatpiacokban, ad-hoc elemzésekre szánt adatkockákban, vagy használjuk inkább azok rövidebb, a szakterületek által használt megfelelőit...

Tovább

Új Cső

Örömmel jelentem, hogy elkészült a Cső második verziója. Nem kerültek ki előzetesen kémfotók a netre, nem szivárgott ki a bejelentés dátuma, a bejelentés során nem hangoztak „minden idők legjobb magyar nyelvű real-time BI könyve” jellegű kifejezések, nincs „one more thing”. Egész egyszerűen csak megjelent :-) Részletek a cikkben.

Tovább

Oldalak