Data Webhouse


Emlékszik még valaki az előző évtized weblog elemzési hype-jára? Túl voltunk már a 2000-es év problémájának (Y2K) megoldásán és mindenki arról beszélt, hogy a következő „nagy kihívás” a Web által támasztott igények kielégítése lesz. A Web (így nagy W-vel) ugyanis nem csak egy új technológia, hanem egy új és a korábbinál sokkal olcsóbb kommunikációs forma amely forradalmat fog csinálni  (Web revolution), társadalmakat fog megváltoztatni, és mint ilyen hatással lesz a BI és adattárház piacra is. Ebben az új webes világban a weblog lesz az „új olaj” amelynek elemzése fogja majd megkülönböztetni a győztes vállalatokat a lemaradóktól.

Így lett? Nem. Nem épültek tömegesen Data Webhouse-ok. Pedig voltak rá kísérletek nálunk is (ennek az eredménye pl. ez a cikk is), de a várva várt áttörés nem következett be. Ennek több oka is volt:

  • A 2000 es évek nagyvállalatai nem a weben éltek. A web csak egy kommunikációs csatorna volt számukra, egy digitális prospektus, egy alternatív csatorna a hagyományos személyes és telefonos csatornák mellett, amely ráadásul elenyészően kicsi részesedéssel részesült a többi csatorna forgalmából.
  • A legkisebb problémájuk is nagyobb volt annál, minthogy a weblogok elemzéséből nyert információkkal növeljék a nyereségüket. Bőven voltak, más az alaptevékenységet érintő területek, amelyek hatékonyságának növelésével sokkal gyorsabban és jobban volt javítható az eredmény, mint ahogyan a weblog elemzésből nyert tudással javíthatóak lettek volna.
  • Megjelent a Google Analytics és szép lassan egyre jobb és jobb lett. Vagy legalábbis annyira jó lett, hogy a vállalatok megelégedtek az általa ingyenesen kínált elemzési lehetőségekkel.

De nem csak ezek a „hagyományos” vállalatok nem haraptak a weblog elemzésre, hanem azok sem amelyek forgalmának jelentős része a webről származott. Ezek a fiatal, már-már a webre épülő vagy a web előnyeit nagyon erősen kihasználó cégek sem kértek a Data Webhouse-ból. Miért?

  • Nekik is volt még bőven tartalékuk az alapfolyamatokban így nyereséget azok javításával könnyebb volt elérni, mint webanalatikával.
  • Ezekben az években elsődleges céljuk a gyors növekedés volt és ennek oltárán feláldozták az információgyűjtést. Nem kértek regisztrációt, vagy ha igen akkor is csak a legszükségesebb adatokat kérték be és emiatt eleve korlátozva volt az elemzési lehetőségek tárháza.
  • Ár: Egy Data Webhouse felépítése drága volt: Szerver + tárkapacitás + adatbázis kellett hozzá amelyek már önmagában jelentős költséget képviseltek és ehhez még hozzá kellett számolni az azon fejlesztők költségét is, akik felépítik a Data Webhouse-t megírják annak betöltőit, elkészítik rá a riportokat. Ezek így együtt elég szép summát eredményeztek
  • Méret: Csak egy-két hónapnyi weblogot tudtunk az elemzésre használt adatbázisban tárolni. Hosszabb trendek megfigyelésére a 10 évvel ezelőtti technológia még nem biztosított ésszerű lehetőségeket.
  • Késleltetés: Nem tudtunk megoldást adni a real time típusú döntéstámogatási problémákra. Maga az architektúra ugyanis nem tudta volna olyan sebességgel kiszolgálni a real time igényeket, mint amilyenekre szükség lett volna. Mondok egy példát: Azokat a tranzakciókat kellett kiszűrnünk, amelyeket lopott hitelkártyával fizettek, de nem utólag – ahogy a kor technológiája lehetővé tette - hanem valós időben, amikor a vevő még a webshopban tartózkodik.

Mindezeknek az lett az eredménye, hogy nem építettünk Data Webhouse-okat. Igény lett volna rá, de az akkori technológiák felhasználásával csak olyan költségszinten tudtuk volna ezeket kielégíteni, amely egész egyszerűen nem érte meg.

De mindez már 10-15 éve történt, nézzük meg mi változott azóta:

  • Megjelentek a Big Data technológiák és ma már nem kell a weblogokat relációs adatbázisba tölteni ahhoz, hogy elemezni tudjuk az adatokat. Érdemes megnézni például a Yahoo! 24 terabájtos OLAP kockáját
  • Megjelentek stream processing technológiák, amelyek már lehetőséget biztosítanak a valósidejű döntéstámogatási problémák megoldására.
  • Megjelent a felhő is mint platform, infrastruktúra vagy szoftver így ma már nem probléma ezek beszerzése, üzemeltetése, felépítése. Ráadásul a weblogok nem tartoznak a vállalatok legérzékenyebb adatai közé, így valószínűleg ezen a területen kisebb lesz az ellenállás a felhővel szemben, mint a mondjuk a core tevékenységet lefedő alkalmazások felhőbe mozgatásával szemben.
  • Egyszerűsödnek a technológiák: Ma már egyre könnyebben kezelhetőek lesznek a Big Data eszközök. Nem kell feketeöves programozóként Hadoop clustereket heggeszteni ahhoz, hogy egy Data Webhouse-t felépítsünk.
  • Megjelentek az önkiszolgáló BI elemzőeszközök, amelyek segítségével az üzleti felhasználók saját maguk képesek az elemzések egy részét elkészíteni. Nem kell tehát kapásból azzal kezdeni, hogy felépítünk a historikus adatok elemzésére egy bitang nagy adattárházat, rá egy hatalmas kockát, kidolgozni az összes mutatószámot. A fejlesztés egy része ma már átadható az üzleti felhasználóknak.
  • És ami szintén nagyon fontos, hogy mindezen technológiák elérhető áron és EGYSZERŰEN váltak bérelhetővé ami jelentősen lecsökkentette a belépési küszöböt.

Összefoglalva: A Big Data, a felhő, a stream processing, és az önkiszolgáló BI technológiák megjelenése lehetőséget biztosít arra, hogy újragondoljuk a weblogok elemzésének problémáját. Amit anno technológiai, költség vagy erőforrás korlátok miatt nem tudtunk megvalósítani, az nemsokára a tömegek számára is elérhető lesz...

POWER BI WORKSHOP

Tudjon meg többet az itt elhangzottakról! Jöjjön el a 2018. február 20.-i Power BI workshopra. Részletek >>

  

Elválasztó

Már készül a következő cikk. Kérjen értesítést a megjelenéséről itt.

|

2 Hozzászólás

Felhő technikák

Tisztelt Kövári Attila!

Nagyon jó ez az összefoglalás! Azonnal körbeküldtem volt CEUs/IMCs kollégáimnak, főleg a 'felhő' platformok és infrastruktúrák miatt. Én már jó ideje harcolok azért, hogy szabaduljunk meg ezektől a az 500 szavas, 15 ezer szavas esszéktől, illetve disszertációktól és használjunk poszter, felhő és egyéb technikákat. Használjuk ki a weben megjelenő hallatlanul gazdag vizuális adatbázisokat - sokkal gyorsabban lehet belőlük tanulni, illetve velük saját 'content'-et elemezni.
Mint nyelvész 15 évig voltam nyelvvizsgáztató (szövegértés, fordítás). Másod diplomámat Angliában Portfolio Építés és Készségprofil Készítésből szereztem. Majd a Case Western Egyetemen (US)-- a Nemzetközi Menedzser központ társintézetében - kompetencia értékelés és menedzsment terén kaptam képzést (content analysis of verbal explanation) és igy tovább. Angliában az NVQ rendszer épp az emberi viselkedés és tudás algoritmusainak a leírásán alapszik. Nem véletlen talán, hogy az általam csodált David McCandless, a tartalom-elemzés és vizualizálás mestere is angol. (Az Információ Gyönyörű - Typotex)
Szóval, valahogy ebbe a túlságosan balféltekés poroszos gondolkodásba bele kellene vinni a 'Felhő' technikákat is.
Most olvasom Mayer-Schönberger-Kenneth Cukier könyvét, a Big Data-t. A legközelebbi Research Method kurzusba beteszem. Ha szabad!!!!!!!
De Attila blogjait mindenképpen. Kevés embert találtam, aki ilyen praktikusan - mondhatnám zseniálisan - tudná elemezni ezeket a bonyolult kérdéseket.
Köszönöm
Czobor Zsuzsa

Köszönöm Zsuzsa!

Nézze meg mindenképpen Bőgel György: A Big Data ökoszisztémája könyvét is. Az is jó sok példát sorakoztat fel és van egy csomó hazai vonatkozása, ami segít egy kicsit kontextusba helyezni hogy milyen sikereket értek el/érhetnek el a hazai vállalatok a Big Datával.

Üdv,
Attila

Szóljon hozzá!

Szabály: Legyen kedves, segítõkész és vállalja a nevét.
A mező tartalma nem nyilvános.
  • A web és email címek automatikusan linkekké alakulnak.
  • Engedélyezett HTML elemek: <a> <em> <strong> <cite> <code> <ul> <ol> <li> <dl> <dt> <dd>
  • A sorokat és bekezdéseket automatikusan felismeri a rendszer.
ANTI SPAM
A robot regisztrációk elkerülésére.
Image CAPTCHA
Figyeljen a kis és nagybetűk használatára

POWER BI WORKSHOP

Tudjon meg többet az itt elhangzottakról! Jöjjön el a 2018. február 20.-i Power BI workshopra. Részletek >>