ETL Betöltési rekordot állított fel az SSIS 2008

A hír nem új, hiszen a Microsoft már február végén bejelentette, hogy új ETL betöltési rekordot állított fel azáltal, hogy kevesebb, mint fél óra alatt belegyűrt egy SQL 2008-as (CTP6 előtti) adatbázisba 1 terabájtnyi adatot text fájlokból. (egészen pontosan 25 perc 20 másodperc alatt)

Ugyanazt az SSIS csomagot futtatták 4 különböző szerveren. A textfájlok az SSIS szerverek gépén voltak és innen tolták át őket az atomerőműbe (amin SQL 2008 és Win 2008 futott. A konfigurációt itt megtekintheti:

Az ETL betöltési rekord felállításához használt architektúra.

Az ETL betöltési rekord felállításához használt architektúra.
Forrás: http://blogs.msdn.com/sqlperf

Ez mindenképpen szép teljesítmény, és örülünk ennek az új világrekordnak, de mit árul el ez a benchmark és másokhoz képest mennyire jó vagy rossz ez a fél óra alatti teljesítmény?

Tudnia kell, hogy jelenleg nincs általánosan elfogadott ETL benchmark, tehát egy az egybe nem lehet összehasonlítani különböző gyártók ETL teljesítményét. Olyannyira nem, hogyha felmegy a webre és elkezd 1 terabájtos ETL benchmark adatokat keresni, akkor számtalan „világrekordot" talál, de egyik sem összehasonlítható.

Az Informatica-nak például van 36 perces benchmark adata 1 tera betöltésére, de az text fájlból töltött text fájlba. Vagy van 45 perces benchmark adata is, ami teljesen hasonló forrást használt, mint az SSIS, és a cél is adatbázis volt (igaz ORACLE). Talán ezt lehetne összehasonlítani legjobban az SSIS benchmarkkal, de ugyanakkor itt azt olvashatja, hogy az Informatica-nak van egy 45 perces benchmarkja is, „komplex transzformációkkal"

Szóval ember legyen a talpán, aki ezek alapján felállít egy rangsort és pusztán betöltési sebesség alapján el tudja dönteni, hogy az egyik ETL eszköz gyorsabb-e mint a másik pláne úgy, hogy nem egy időben történnek a felmérések. (Az Informatica benchmark adatai például majdnem két évesek)

De ezt a versenyt jelenleg az Integration Services vezeti, és ez mindenképpen jó hír, mert megmutatja, hogy az SSIS képes nagy adatmennyiségekkel is gyorsan megbirkózni és indirekt módon azt is, hogy az SSIS oldalra (azaz több, egyszerre párhuzamosan dolgozó "olcsóbb" szerverre) remekül skálázható.

Más. Tegnap, 5 nap után lehoztam Józsi macskáját a fáról, úgyhogy ha szeretne egy kicsit kikapcsolódni akkor olvassa el a macsek megmentésének történetét.

Kővári Attila - BI projekt

Új hozzászólás