Adatbetöltés (ETL)

Cikkek az adattárház és üzleti intelligencia rendszerek feltöltéséről, az adatbetöltések szintjeiről, fajtáiról, módszereiről és az architekturális kérdéseiről


Hol hajtja végre a transzformációkat a Power Query?

Tegyük fel, hogy Power Queryvel kell átemelnünk 2 rekordot egy 2 millió soros táblából a Power BI-ba. Ki fogja elvégezni a szűrést? A Power Query vagy a forrásrendszer? Kiderül a cikkből
Elolvasom a teljes cikket
2017. március 13.

Push vagy pull legyen az adattárház töltési stratégiája?

Adott a következő kérdés: Az adattárház húzza át az adatokat a forrásrendszerekből vagy a forrásrendszer tolja ki azokat az adattárháznak? A válasz kiderül a cikkből...
Elolvasom a teljes cikket
2017. február 14.

Önkiszolgáló ETL újratöltve

Adatbetöltő programokat eddig tipikusan az IT/BI fejlesztők írták. Ma azonban már elérhetőek azok az önkiszolgáló ETL eszközök, amelyekkel az elemzők saját maguk képesek adatbetöltőket írni, adatot tisztítani, transzformálni. Kérdés csak az, hogy képesek-e/akarják-e magukra húzni ezt a feladatot is. Ennek járunk utána
Elolvasom a teljes cikket
2016. április 20.

GRAPHISOFT BI és adattárház esettanulmány

A GRAPHISOFT-nál a BI bevezetés indikátora ugyanaz volt, mint bármely más hasonló cég esetében: Hozzáférést szerettek volna kapni saját adataikhoz. Nem riportokra vágytak, hanem egy adattárházra, amelyből minden kérdésükre nagyon rövid időn belül választ kaphatnak. Ebben eddig nincs semmi különös. Abban azonban már igen, ahogyan az adattárházukat fel akarták építeni. Ők ugyanis saját maguk szerették volna felépíteni a világ minden tájáról táplált, budapesti központú adattárházukat. Nem szállítót vagy erőforrást kerestek a probléma megoldásra, hanem szaktudást. Így találtunk egymásra 2012 tavaszán...
Elolvasom a teljes cikket
2013. október 13.

UPC BI esettanulmány

A UPC-s BI projektet anno nagyon szerettem volna megnyerni… Megnyertük. Aztán megcsináltuk. Ma pedig ott tartunk, hogy esettanulmány is készült belőle. Olvassa el. Sokat tanulhat belőle és betekinthet a kulisszák mögé, amire ritkán nyílik csak lehetőség.
Elolvasom a teljes cikket
2013. szeptember 09.

Német adattárházak nyelvi problémái

Tépelődtünk már egy párszor itt a BI projekt blogon a nyelvi különbségek kezeléséről. A magyar nyelvvel már foglalkoztunk eleget, most jöjjön a német nyelv :-)
Elolvasom a teljes cikket
2013. augusztus 12.

MS BI és adattárház best practice cikkek

A most következő cikkel az a célom, hogy bemutassam a legjobb best practice tanulmányokat és ezáltal segítsek az adattárház fejlesztőknek, hogy jó, szerethető és sikeres BI rendszereket vagy adattárházakat építsenek. Olyanokat amelyre évek múltán visszatekintve is büszkék lesznek. És nem csak ők, hanem a megrendelőik is.
Elolvasom a teljes cikket
2012. október 25.

Adattisztítás Microsoft BI eszközökkel

Az SQL Server 2012-ben debütált Data Quality Services-zel tovább nőtt az adattisztításra használható eszközeink száma, úgyhogy ideje áttekinteni az SQL Server adatminőség javítással kapcsolatos kínálatát.
Elolvasom a teljes cikket
2012. július 04.

SSIS 2012 újdonságok - Paraméterátadás

SSIS csomagoknak eddig (2005- 2008 R2 verziók) paramétert kétféleképpen tudtunk átadni:1. Hívó SSIS csomag változóin keresztül2. Az SSIS csomagok konfigurációjávalNézzük az elsőt:Paraméterátadás a hívó SSIS csomag változóin keresztülA hívott SSIS ...
Elolvasom a teljes cikket
2012. április 10.

SSIS 2012 újdonságok: Üzemeltetői riportok

Az adattárház betöltőinek naplózásával szorosan összefügg az üzemeltetői riportok kérése is. Ahogy a korábbi SSIS verziókkal fejlesztett adattárházak esetén saját naplózási szolgáltatást kellett fejlesztenünk az általunk e...
Elolvasom a teljes cikket
2012. április 03.

SSIS 2012 újdonságok: Naplózás

Az Integration Services korábbi verzióinak naplózási szolgáltatása kevés volt ahhoz, hogy csak azok segítségével valósítsuk meg az adattárház betöltésének naplózását. Olyannyira, hogy a gyári beépített naplót csak a betöltési hibák rögzítésére has...
Elolvasom a teljes cikket
2012. április 02.

SSIS 2012 újdonságok: Szerkesztést támogató SSIS újdonságok

Néhány „végre” funkció bemutatása következik, amely bár nem tartozik a nagy durranások közé, de jelentősen egyszerűsíti a fejlesztési munkát:Megváltoztatható a változó scope-ja az integration services 2012-es verziótól kezdve.Egyike volt a legideg...
Elolvasom a teljes cikket
2012. március 30.

SSIS 2012 újdonságok: Adatkivezetés az adatfolyamból (Data tap)

A Data Tap egy kivezetés az adatfolyamból amin keresztül az adatfolyam egy szakaszának adatait tudjuk kivezetni CSV fájlba. Különösen hasznos ez a funkció hibakeresés közben, amikor nem annyi, vagy nem olyan formátumú rekord jön ki a...
Elolvasom a teljes cikket
2012. március 29.

SSIS 2012 újdonságok: Kifejezés jelölők

Az SQL Server 2012 Integration Services megjelöli azokat az objektumokat (connection menedzsereket, változókat, taszkokat), amelyek tartalma nincs fixen beégetve az objektumokba, hanem futás közben kapnak értéket. Így például ha egy változó egy ki...
Elolvasom a teljes cikket
2012. március 27.

SSIS 2012 újdonságok: Új XML formátumú SSIS csomagok

Egyszerűsödött az SSIS fájlok szerkezete. Könnyebben olvasható lett az XML kód, aminek akkor fogjuk hasznát venni, ha kézzel kell matatni a kódban, vagy össze akarunk hasonlítani ugyanabból az SSIS csomagból két eltérő verziót. Mikor kell kézzel m...
Elolvasom a teljes cikket
2012. március 27.

SSIS 2012 újdonságok: Change Data Capture támogatás

Az SQL Server 2012 CDC komponensei segítségével könnyebben be fogjuk tudni tölteni az adatokat az adattárházakba olyan forrásadatbázisok használata esetén amelyek támogatják a change data capture (CDC) technológiát, hiszen az új CD...
Elolvasom a teljes cikket
2012. március 26.

Data Explorer

A Data Explorer a Microsoft új önkiszolgáló, felhőben futó ETL eszköze. Még nem termék. Nem is biztos, hogy az lesz belőle. De aki üzleti intelligenciával foglalkozik, annak érdemes egy kicsit megismerkednie vele és elgondolkoznia azon, hogy hol, mire fogja tudni használni majd. Ha nem is magát a terméket, akkor azt a szemléletet ami a Data Explorer koncepciója mögött található.
Elolvasom a teljes cikket
2012. február 09.

Önkiszolgáló ETL

Az önkiszolgáló ETL kapcsán elgondolkodunk azon, hogy vajon érdemes-e az adatbetöltő eszközt adni az üzleti felhasználók kezébe, és ha igen, akkor milyet.
Elolvasom a teljes cikket
2012. február 06.

SSIS komponensek Microsoft termékekben

Eddig nem tudtam, hogy az Integration Services-ből ismert- Fuzzy Lookup taszk segít a Bing Map-nek a beírt kérésekhez megtalálni a megfelelő koordinátákat, - a Fuzzy Grouping taszk segít a Bing Shopping-nak kiszűrni a duplikált termék neveket és l...
Elolvasom a teljes cikket
2012. január 05.

SSIS újdonságok: Visszavonás/Mégse (Undo/Redo)

Az SQL Server következő verziójában lehetőségünk lesz a betöltő csomagok szerkesztése közben végrehajtott műveletek visszavonására és a visszavont művelet visszavonására (Undo/Redo) Nagyjából úgy, ahogy az Officeban megszoktuk:Nagyon hiányzott ez ...
Elolvasom a teljes cikket
2011. november 09.

Balanced Data Distributorn

Az SQLCat-os fejlesztők készítettek egy SSIS komponenst, amellyel párhuzamosíthatók a transzformációk és ezzel - bizonyos esetekben – gyorsíthatóak a betöltések. Maga a Balanced Data Distributor komponens nem soronként, hanem az SSIS pipeline-ba b...
Elolvasom a teljes cikket
2011. augusztus 16.

Azt mondja most, hogy Success, ránézel azért?

Egy kedves kis történet az adattárházak üzemeltetéséről.
Elolvasom a teljes cikket
2011. június 08.

Money, Money, Money...

Megmondom őszintén eddig nem nagyon használtam sem a money adattípust a relációs oldalon, sem a currency adattípust a többdimenziós oldalon. Miért? Nem tudom. Egyszer biztos rossz élményem volt vele, mert tudatosan nem használom. Pedig érdemes len...
Elolvasom a teljes cikket
2010. október 27.

Miért naplózzuk az adattárház betöltését?

Az adattárház betöltésének naplózásakor naplót vezetünk a betöltés során keletkezett minden egyes eseményről. Felírjuk, hogy mikor indult egy folyamat, mikor állt le, mennyi ideig futott, milyen eredménnyel fejeződött be, hány rekordot olvasott be...
Elolvasom a teljes cikket
2010. október 11.

Betöltések gyorsítása: Derived column task bontással

A derived column taszk egy szinkron transzformációt megvalósító egység, így definíció szerint a taszk részfeladatokra történő bontásával nem tudunk párhuzamosítani, hiszen nem fog létrejönni új execution tree, és így minden egy szálon fog futni to...
Elolvasom a teljes cikket
2010. augusztus 27.

Adattárház könyvek: Microsoft adattárházak

Amíg csak adattárház elméletről, módszertanról keresünk könyvet addig viszonylag egyszerű dolgunk van: ki kell választanunk egyet Inmon vagy Kimball könyvei közül, és kész. Nem nagyon tudunk mellényúlni. Ha azonban olyan könyvet keresünk, amely megmutatja azt is, hogy hogyan kell felépíteni egy adattárházat a rendelkezésre álló Microsoft szoftverek felhasználásával, akkor már komoly problémákba ütközünk. Túl sok könyv létezik ugyanis, és ezek közül nehéz kiválasztani azt, amely valóban segíteni tud egy adattárház felépítésében. Ebben próbálok most segíteni
Elolvasom a teljes cikket
2010. augusztus 01.

Adattárház könyvek: Általános adattárház elmélet

Még februárban kezdtem el írni egy cikket annak apropóján, hogy Kimball-nak új adattárház könyve jelent meg, de végül nem publikáltam. Nem publikáltam, mert 1) akartam még érlelni egy kicsit az első benyomásaimat 2) írni akartam még azokról az adattárház könyvekről is, amelyekről azt gondolom, hogy segítséget fognak nyújtani másoknak is. Ezek következnek most.
Elolvasom a teljes cikket
2010. július 26.

Az SSIS architektúrája és az optimalizáció lehetőségei

A most következő cikkből megismerheti a Microsoft adatbetöltő (ETL) eszközének főbb komponenseit, és ezen keresztül a betöltési folyamatok gyorsításának lehetőségeit.
Elolvasom a teljes cikket
2010. június 30.

Honnan tudni, hogy hány sort dolgozott fel egy SSIS SQL task?

Eddig nem tudtam róla, hogy az Integration Services ExecuteSQL task-jában futó SQL utasítások által feldolgozott sorok számát az SSIS látja és tárolja is. Ha eddig az Execute SQL task által feldolgozott sorok számát vissza akartam kapni, akkor min...
Elolvasom a teljes cikket
2010. május 06.

Megdőlt az SSIS 1 terabájtos betöltési rekordja

Megdőlt az SSIS 1 terabájtos betöltési rekordja. Nem is kicsit. A korábbi 30 perc körüli betöltési idő most 10 perc alatt jár, ami 3,5 szörös teljesítménynövekedés. A megdöntő ETL eszköz az SSIS, a megdöntő gép egy Unisys masina. Mint az a 3,5 szö...
Elolvasom a teljes cikket
2010. április 27.

POWER BI WORKSHOP

Tudjon meg többet az itt elhangzottakról! Jöjjön el a 2017. november 30.-i Power BI workshopra. Részletek >>