Adattisztítás Microsoft BI eszközökkel


Az adatminőség akkor kezd problémává válni, amikor elemezzük az adatokat. Amíg csak dolgozunk velük a forrásrendszerekben, addig vagy nem találkozunk adatminőségi problémákkal, vagy nem fáj a létezésük. Jó lenne, ha tiszták lennének az adataink és nem találkoznánk ilyennel:

Adathiba

De igazából nem fáj. A postás megtalálja a címzettet.

Az igazi probléma akkor merül fel, ha az adatokat elemezni szeretnénk: Mennyi volt a balatonfüredi vevők forgalma? Erre a kérdésre a fenti képen szereplő adatbázisból nem kapnánk megbízható képet.

A probléma tovább súlyosodik, ha több rendszerből származó adattal kell dolgoznunk. Ahhoz ugyanis, hogy megtudjuk hány vevőnk van, vagy ahhoz, hogy elkerüljük az egy vevőnek többszöri értesítést - már össze kell párosítanunk a 2 rendszer adatait. És ha azok nem tiszták, akkor bizony nehéz feladat előtt állunk.

A most következő cikk célja, hogy segítséget nyútson azoknak, akik SQL Serverrel próbálják megoldani adattisztítási problémáikat. A döntés ugyanis korántsem egyszerű, hiszen az SQL Server programcsomag 3 olyan külön-külön is életképes szoftvert is tartalmaz, amely segítségével adatokat tudunk tisztítani.

Megj.: Magának az az SQL Server adatbázis-kezelőnek is vannak adattisztítást támogató függvényei, (SOUNDEX, CONTAINS CONTAINSTABLE), de ezeket csak a rend kedvéért említem meg. Ma már nem őket használjuk, mert vannak nála jobb eszközök is az SQL Server programcsomagban. Nevezetesen a Master Data Services, az Integration Services és a vadonatúj Data Quality Services.

Master Data Services (MDS)

A Master Data Services a Microsoft központi törzsadatkezelő rendszere. Adattisztítás szempontjából a proaktív adattisztítás eszköze. A klasszikus utólagos tisztítás helyett elsősorban a bekerülésre helyezi a hangsúlyt és arra koncentrál, hogy a törzsadatok közé csak az általunk definiált szigorú szabályoknak megfelelt, validált adatok kerülhessenek be.

A Master Data Services is ad támogatást a beérkező adatok tisztítására, a duplikátumok kiszűrésére. Használja a leütési távolság (Edit (Levenstein) distance és egyéb ( Jaccard coefficient, Jaro-Winkler, stb.) algoritmusokat, de erre a célra sokszor jobban megfelel az Integration Services

Integration Services (SSIS)

Az Integration Services a Microsoft ETL eszköze, és mint ilyen szintén tartalmaz adattisztító megoldást.

  • A Data Profiling taszkjával előzetesen analizálhatjuk az adattárházba betöltendő extraktumok adatminőségét
  • A Fuzzy Lookup és Fuzzy Grouping taszkok segítségével pedig megkereshetjük és összepárosíthatjuk az általunk megadott hasonlósági indexet elért adatpárokat.

Data Quality Services (DQS)

A Data Qualyty Services alapja a 2008-ban felvásárolt Zoomix technológia. Ezt fejlesztette tovább a Microsoft és tette az SQL Server 2012 programcsomag részévé (BI edition-től fölfelé)

A Data Quality Services lehetőséget biztosít arra, hogy segítségével felépítsünk egy tudásbázist. A tudásbázis az a hely ahol az adatainkkal, adataink minőségével kapcsolatos tudásunkat rendszerezzük, kezeljük. E tudásbázis célja, hogy a benne található információkat, a megszerzett tudást, - amely előállhat tanulás eredményeképp, egy üzleti folyamat eredményeként, stb. - újrahasznosíthatóan, más alkalmazások számára elérhetően tároljunk. A kulcs az újrahasznosíthatóság. Azért csináljuk és fejlesztjük folyamatosan a tudásbázist, hogy azt egyre nagyobb hatékonysággal használhassuk adattisztítási feladatok megoldására.

Mint látható az egyes eszközök között (MDS, SSIS, DQS) elég nagy az átfedés adattisztítást támogató szolgáltatások tekintetében. Ennek oka abban keresendő, hogy a Microsoft saját fejlesztésű adattisztító eszközei mellett (pl. a Bing Map-ben és a Bing Shoppingban használt Fuzzy Lookup és Fuzzy Grouping komponensek) akvizíciók révén hozzájutott és integrált olyan komponenseket is (Stratature, Zoomix) az SQL Server programcsomagba, amelyek szintén tartalmaztak adattisztítást támogató komponenseket.

A későbbiek során valószínűleg tisztulni fog a kép, és az eszközök egyre szorosabb integrációjával megszűnnek a párhuzamosságok. Az Integration Services 2012 már használja a Data Quality Services Domain alapú adattisztítási szolgáltatásait és a Master Data Services 2012-höz megjelent Excel bővítmény is használja a Data Quality Services párosító algoritmusát. A teljes integrációig el kell telnie még pár évnek, de vannak már olyan szcenáriók, amikor a három termék tökéletesen együtt tud működni. Mondok egy példát:

  1. A betöltendő adatokat megkeressük először a törzsadat kezelőben. Ha megtaláljuk, akkor az adat tiszta, betöltjük az adattárházba. Ha nem, akkor
  2. Megkeressük a Data Quality Services tudásbázisában. Ha megtaláljuk, akkor a tudásbázisban hozzá kapcsolódó tisztított adator visszaküldjük a törzsadat kezelő felé.
  3. Ha ott megtaláljuk, akkor nyert ügyünk van, és továbbítjuk az adatokat az adattárház felé

Persze a való élet ennél sokkal bonyolultabb. A fenti példa is sokkal több elágazást tartalmaz, de remélem a segítségével sikerült bemutatnom, hogy milyen szerepei lehetnek a 3 szoftverkomonensnek egy vállalat adatmenedzsment stratégiájában.

Elválasztó

Már készül a következő cikk. Kérjen értesítést a megjelenéséről itt.

|

1 Hozzászólás

megállapodás

Egyetértek ezzel 100%-ban :-)

Szóljon hozzá!

Szabály: Legyen kedves, segítõkész és vállalja a nevét.
A mező tartalma nem nyilvános.
  • A web és email címek automatikusan linkekké alakulnak.
  • Engedélyezett HTML elemek: <a> <em> <strong> <cite> <code> <ul> <ol> <li> <dl> <dt> <dd>
  • A sorokat és bekezdéseket automatikusan felismeri a rendszer.
ANTI SPAM
A robot regisztrációk elkerülésére.
Image CAPTCHA
Figyeljen a kis és nagybetűk használatára