Zdiagnozuj swoją hurtownię danych

Komentarze ekspertów / Technologie i innowacje

Jednym z moich ulubionych bohaterów książek jest Sherlock Holmes stworzony przez sir Arthura Conan Doyle’a. Postać ta jest o tyle ważna w literaturze, że to na jej archetypie bazuje większość powstałych w późniejszych czasach filmów czy seriali detektywistycznych, a nawet takie produkcje jak „Dr House”. Głównym motywem każdej historii związanej zarówno z samym Sherlockiem, jak i z jego „naśladowcami” jest rozwikłanie pewnej zagadki, można powiedzieć niewiadomej, posiadając do dyspozycji nie tyle jasne informacje, ile pewne wskazówki, symptomy ‒ pisze Łukasz Nienartowicz, Head of Business Intelligence, Britenet Sp. z o.o.

Łukasz Nienartowicz, Head of Business Intelligence, Britenet Sp. z o.o.
Łukasz Nienartowicz, Head of Business Intelligence, Britenet Sp. z o.o. Źródło: Britenet

Jednym z moich ulubionych bohaterów książek jest Sherlock Holmes stworzony przez sir Arthura Conan Doyle’a. Postać ta jest o tyle ważna w literaturze, że to na jej archetypie bazuje większość powstałych w późniejszych czasach filmów czy seriali detektywistycznych, a nawet takie produkcje jak „Dr House”. Głównym motywem każdej historii związanej zarówno z samym Sherlockiem, jak i z jego „naśladowcami” jest rozwikłanie pewnej zagadki, można powiedzieć niewiadomej, posiadając do dyspozycji nie tyle jasne informacje, ile pewne wskazówki, symptomy ‒ pisze Łukasz Nienartowicz, Head of Business Intelligence, Britenet Sp. z o.o.

Piszę o tym, gdyż wielu z nas wciela się czasem w rolę takiego właśnie Sherlocka Holmesa i próbuje zdiagnozować stan systemów IT w swojej firmie. Jest to trudne zadanie, w szczególności dla specjalistów z obszarów biznesowych. Dla eksperta IT diagnozowanie problemów spoza jego wąskiej dziedziny wiedzy również bywa kłopotliwe.

Łącząc powyższy problem z moją specjalizacją, postanowiłem opisać cztery najpopularniejsze symptomy, które wskazują na to, że z naszą hurtownią (a szerzej z całym ekosystemem) danych jest coś nie tak.

Pod grubą warstwą kurzu

Pierwszym i najprostszym do zauważenia symptomem jest sytuacja, w której hurtownia danych w naszej firmie to tylko kurzostojka ‒ bibelot, którego jedynym celem jest stanie na półce i zbieranie kurzu. W takiej sytuacji hurtownia danych przypomina pamiątkę z wakacji, za którą zapłaciliśmy, a teraz leży gdzieś w piwnicy, to znaczy w serwerowni.

Aby potwierdzić taką sytuację, wystarczy zadać proste pytanie: w jaki sposób korzystamy z naszej hurtowni danych? Jeśli odpowiedź okazuje się zawiła lub samo pytanie wywołuje popłoch wśród osób odpowiedzialnych za dane w firmie, to temat trzeba zweryfikować.

Hurtownia danych sama w sobie nie ma wartości biznesowej. Powinna natomiast służyć do rozwiązywania problemów biznesowych lub budowania przewagi konkurencyjnej przy pomocy danych. Tylko tyle i aż tyle!

I nie ma tutaj znaczenia czy chodzi o raportowanie, machine learning, ocenę ryzyka, liczenie wyniku finansowego bądź wsparcie marketingu czy sprzedaży. Jeśli Twoja hurtownia danych jest tylko zakurzonym, nieużywanym antykiem, to czas to zweryfikować.

Czytaj także: XV Kongres Gospodarki Elektronicznej, co przyśpiesza transformację cyfrową w gospodarce?

Musztarda po obiedzie

W języku polskim używamy powiedzenia „musztarda po obiedzie”. Gdyby spróbować przełożyć je na język biznesowy brzmiałoby ono: informacja po podjęciu decyzji. Informacje mają pewną długość życia. Niektóre są potrzebne w sekundy po powstaniu, na inne można poczekać kilka godzin, a nawet dni. Ważne jest, aby potrafić odróżnić te kategorie i budując ekosystem danych zapewnić biznesowi dane na czas. Hurtownia danych nie może być zawsze spóźniona.

Odbiorcy danych powinni z pełną odpowiedzialnością potrafić określić, kiedy i jakich danych będą potrzebować.

Oczywiście z drugiej strony nie ma sensu budować rozwiązań działających w czasie bliskim rzeczywistemu, jeśli nie ma takiej potrzeby, ponieważ generuje to duże koszty.

W związku z tym odbiorcy danych powinni z pełną odpowiedzialnością potrafić określić, kiedy i jakich danych będą potrzebować. Niezależnie od tego, osoby odpowiedzialne za ekosystem danych powinny budować go z myślą, że choć dziś nie potrzebuję danych w czasie rzeczywistym, to kiedyś taka sytuacja może wystąpić. Jeżeli jednak dane z poprzedniego dnia dostępne są w hurtowni nie o godzinie 8:00, kiedy rozpoczynasz pracę i ich potrzebujesz, a o godzinie 16:00, kiedy ją kończysz, to czas ją zweryfikować.

Czy ufasz swoim danym?

Najpopularniejszy proces powstawania hurtowni danych składa się z czterech etapów. W pierwszym definiujemy wymagania względem hurtowni danych. W drugim budujemy hurtownię. W trzecim weryfikujemy hurtownię i poprawiamy ją.

Te pierwsze trzy kroki, wykonujemy zazwyczaj wielokrotnie weryfikując wymagania biznesowe i dostosowując do nich rozwiązanie. Kiedy hurtownia jest już przygotowana, zgodnie z wymaganiami, uruchamiamy ją produkcyjnie i ogłaszamy sukces. Jest to podejście standardowe, a jednocześnie najkrótsza droga do porażki.

Dopiero na tym etapie, dzień po dniu hurtownia danych zyskuje zaufanie organizacji, jako źródło pewnych i aktualnych informacji. Jest to swego rodzaju biznesowe wdrożenie tego narzędzia w firmie, a proces ten jest najczęściej trudniejszy niż samo techniczne zbudowanie hurtowni.

Jeżeli więc hurtownia w Twojej firmie nie jest wiarygodnym źródłem danych lub jest nowym rozwiązaniem, które jednak nie zyskuje z dnia na dzień tej wiarygodności, to poważny powód, aby poddać ją weryfikacji. Z dużym prawdopodobieństwem coś na etapie jej budowy i rozwoju poszło nie tak.

Czytaj także: Outsourcing usług serwisowych – czyli jak zoptymalizować procesy serwisowe i czy to się opłaca?

Prawie jak Hurtownia Danych

W 2005 roku Grupa Żywiec stworzyła kultową (i dla mnie niezapominaną) kampanię, w której pokazywano różne obrazy, takie jak kura czy tradycyjny list z komentarzem, że są kolejno prawie jak orzeł i prawie jak e-mail. Reklam było wiele, a wszystkie prowadziły do konkluzji, że inne piwa są prawie jak produkt autorów reklamy. Dlaczego o tym piszę? Bo niestety wiele firm posiada „prawie jak” hurtownię danych.

Często za hurtownię uchodzi baza z kopią danych z systemów źródłowych. Bazę taką w zależności od sposobu wykonania możemy nazwać Stage lub Data Lake. Przydaje się ona, ponieważ: zbiera wszystkie dane z firmy w jednym miejscu, separując je od systemów źródłowych, jest szybka i tania do wykonania (kosztuje ok. 10‒20% całego projektu hurtowni), w końcu może być podstawą do budowy kolejnych warstw analitycznych w tym właściwej hurtowni danych. Niektóre (często mniejsze) firmy decydują się na budowę tylko tej warstwy i raportowanie prosto z niej. W wielu przypadkach jest to uzasadnione.

Często za hurtownię uchodzi baza z kopią danych z systemów źródłowych. Bazę taką w zależności od sposobu wykonania możemy nazwać Stage lub Data Lake.

Gorzej, gdy dostawca IT (wewnętrzny lub zewnętrzny) wmawia organizacji, że baza taka to hurtownia. A jeszcze gorzej, gdy dostawca próbuje w taki sposób wygrać przetarg na budowę DWH (bo będzie tańszy). To już zwykłe oszustwo.

Jeżeli więc przygotowywanie zwykłych raportów lub analiz danych z hurtowni danych w Twojej organizacji jest bardzo pracochłonne i czasochłonne, to warto poddać to rozwiązanie weryfikacji. Może tak naprawdę tylko udaje hurtownię danych.

I co dalej?

Pozostaje pytanie, co możemy zrobić, jeśli zaobserwujemy w naszej firmie powyższe lub inne niepokojące symptomy wskazujące na to, że z naszym ekosystemem danych jest coś nie tak? Oczywistym jest, że osoby, które budowały to rozwiązanie lub te, które odpowiadały za jego budowę, nie będą umiały lub nie będą chciały dobrze go zdiagnozować.

Tutaj pojawia się potrzeba znalezienia odpowiednich specjalistów, którzy będą w stanie przeprowadzić audyt hurtowni danych. Tylko jak ich wybrać?

Kluczowe w ocenie są dwa elementy. Po pierwsze partner musi mieć duże doświadczenie w budowaniu ekosystemów danych. I tutaj mamy dwie pułapki. Po pierwsze fakt, że zupełnie inny zespół pracujący w innym kraju lub wręcz na innym kontynencie nie spowoduje, że inny zespół działający tu w Polsce dokona poprawnej weryfikacji naszego rozwiązania. Warto zweryfikować CV poszczególnych członków zespołu audytowego.

Ponadto w Polsce dominuje sprzedawanie usług informatycznych w formie outsourcingu specjalistów. Warto więc sprawdzić, czy zespół rzeczywiście odpowiadał za koncepcję budowy ekosystemów danych, czy tylko wykonywał zadania otrzymane od zamawiającego.

Po drugie należy baczniej przyjrzeć się cenie takiego audytu. Diagnoza ekosystemu, jeśli nie mylimy jej z jego naprawianiem, to maksymalnie kilkanaście dni pracy grupy specjalistów.

Po takim czasie powinni oni być w stanie stworzyć dokument opisujący bolączki naszej hurtowni danych, jak i propozycje rozwiązania poszczególnych problemów. Diagnoza hurtowni danych powinna być sprawna, tak aby móc szybko przejść do leczenia i w konsekwencji uzdrowienia naszego pacjenta.

Łukasz Nienartowicz,

Head of Business Intelligence,

Britenet Sp. z o.o.

Źródło: aleBank.pl
Udostępnij artykuł: