A Microsoft referencia adattárház architektúrája

Jelenleg a Microsoft 4 megoldást kínál azoknak, akik adattárházat akarnak építeni. Ezek: SQL Server enterprise edition (csak szoftver), Fast Track Data Warehouse, Data Center és Parallel Data warehouse.

Microsoft Data Warehouse Offerings

A belépő megoldás az SQL Server szoftver Enterprise verziója. Ez az, amit mindenki ismer, amiről konferenciákat tartunk, amiről anyagok jelennek meg, amiről blogolunk.

A következő lépcső a Fast Track Data Warehouse referencia architektúra (erről lesz most szó), majd következi k a Data Center és végül az SQL Server Parallel Data Warehouse. Ez utóbbi a Microsoft Data Warehouse appliance-e.

A Parallel Data warehouse appliance-ek magyarországi megjelenésére még jó pár évet várni kell. Nem is azért mert a jelenlegi verzió csak a latin (ékezet nélküli) karaktereket támogatja, hanem inkább azért, mert a tipikus magyarországi cégméretek még nem követelik meg ezeket a többtíz, többszáz terás adattárház appliance-eket. Ami tehát nekünk per pillanat fontos lehet, az a Fast Track Data Warehouse referencia adattárház architektúra.

Mi az a Fast Track Data Warehouse referencia architektúra?

A Fast Track Data Warehouse referencia architektúra nem más, mint 4-48 terabájtos relációs adattárházakra optimalizált hardver + szoftver konfiguráció együtt.

Fizikai megjelenését tekintve azonban csak egy doksi. Egy olyan módszertan és best practice gyűjtemény, amely megmutatja, hogy hogyan kell összeállítani egy néhány 10 terás adattárház architektúrát úgy, hogy annak hardverkomponensei kiegyensúlyozottan szolgálják ki az adattárház felhasználók igényeit.

Kiegyensúlyozott adattárház architektúra

A kulcs a hardverkomponensek kiegyensúlyozottságában van. A Fast Track data warehouse referencia adattárház architektúra megvalósításakor a fő cél egy olyan konfiguráció összeállítása volt, amelynek minden komponense x GB/sec-es teljesítményt tud kiszolgálni. Nem többet. Ha például a diszk alrendszer csak 2 GB/sec-et bír, akkor csak annyi és olyam memóriát, processzort, stb. tegyünk a gépbe, amennyi ezt a 2 GB/sec-et ki tudja szolgálni. Ne többet.

Ha most ennek fényében elővennék egy-két korábbi adattárház hardverspecifikációt, akkor azt látnám, hogy jelentős részük processzor túlsúlyos (és memória szegény :-) ), azaz sokkal több processzort tartalmaznak, mint ami a diszk átviteli sebességének kiszolgáláshoz szükséges lenne.

A referencia architektúra célja tehát pont az, hogy kiegyensúlyozott legyen: Csak annyi és olyan hardver alkatrészt tartalmazzon, ami a referenciaként megálmodott lekérdezési teljesítményt ki tudja szolgálni. Másképpen fogalmazva az adott teljesítményküszöb elérését a legjobb áron oldja meg.

Kérek egy adattárházat

Ami nagyon fontos, - és ami engem egy kicsit meglepett - az az, hogy a Fast Track Data Warehouse referencia architektúra nem egy dobozos adattárház. Nem tudok bekopogni a Dell-hez, HP-hez, ... , hogy kérek egy 2 terás adattárház vasat SQL Serverrel. E helyett azt tudom mondani, hogy kérem ennek az adattárház referencia architektúrának az alkatrészeit és kapok egy ilyet:

Hardver

Utána előveszem a manuált, összeállítom a szervert, telepítem rá a szoftverkomponenseket, kimérem teljesítményüket és üzembe állítom az vasat. De ez azért korántsem ilyen egyszerű, mint ahogy ezt ide leírtam.

Csodák nincsenek

A másik dolog, ami szintén meglepett, hogy ezeket az architektúrákat is felhasználói terhelés alapján kell kiválasztani. Persze ebben nincs semmi meglepő, ha végiggondolja az ember, de korábban arra gondoltam, hogy felhasználószám, méret és még néhány paraméter alapján EGYSZERŰEN ki fogjuk tudni választani a legmegfelelőbb architektúrát. Ez azonban tévedés. A Fast Track referencia adattárház architektúra esetén is ugyanúgy várható terhelés (workload) alapján kell kiválasztani a hardvert, mint egy közönséges adattárház esetén. Ez pedig egy zöldmezős bevezetés esetén nem egy egyszerű történet...

Mennyibe kerül

A referencia architektúra alapján összeállított adattárház architektúrák ára 107 eUSD és 683 eUSD között mozog. (nyilván attól függően, hogy melyik gyártó (DELL, HP, IBM, ...) vasait használjuk, és hogy milyen terhelést akarunk kiszolgálni vele. (Az árban benne van a vas is és a szoftver is)

Ha az árat 1 terára vetítjük akkor azt kapjuk, hogy 14,2 - 26,75 eUSD - be kerül 1 terányi adathoz a kiszolgáló architektúra. Csak összehasonlításul: a nagy tesó, a Parallel Data Warehouse esetén ez az összehasonlító ár 13 eUSD/1 tera

Összefoglalva: A Fast Track Data Warehouse nem egy előrecsomagolt adattárház megoldás. Nem egy „bemegyek a boltba és kérek egy 2 terás adattárházat" típusú történet. A Fast Track Data Warehouse nem más, mint egy a best practice-ek alapján kidolgozott bevásárló lista és egy üzemeltetési módszertan. Azt mutatja meg, hogy a felhasználói terhelés és méret függvényében

  • a kiválasztott gyártó melyik hardverkomponenseiből érdemes összeállítani a vasat,
  • és milyen módszertan szerint kell feltölteni és karbantartani a vasra épített több terás adattárházat

hogy az hosszútávon is olyan performanciával működjön, ahogy azt a kezdet kezdetén megálmodtuk.

Megj.: a jövő héten továbbmegyünk és megmutatom, hogy milyen trükköket leshetünk el egy ilyen többterás adattárház referencia architektúra felépítéséből, betöltéséből és üzemeltetéséből. Folyt köv.

Update: a folytatás itt található:Barangolások a 4 Tera feletti adattárházak világában

Kővári Attila - BI projekt

Új hozzászólás