Nie bądź neandertalczykiem danych

Komentarze ekspertów / Technologie i innowacje

Big Data, Neandertalczyk
Źródło: Britenet

Patrząc na historię ludzkości, możemy dostrzec pewien paradoks. Przez większość jej trwania zmagano się z brakiem jedzenia. W czasach prehistorycznych przeżywał ten, kto zdobył więcej pożywienia. Dziś jest dokładnie odwrotnie. W krajach rozwiniętych więcej ludzi ma problemy z otyłością niż z brakiem jedzenia. Piszę o tym, ponieważ podobny paradoks przeżyliśmy w ostatnich latach w kontekście danych, którymi karmimy nasze firmy.

#ŁukaszNienartowicz: Zamiast zdobywać kolejny zbiór danych, którego nie będziemy w stanie skonsumować, skupmy się na zbiorach, które już posiadany. Bo przewagi konkurencyjnej nie buduje posiadanie danych. Buduje ją zdolność do ich użycia #BigData #NoweTechnologie @Britenet_

Przez lata trwała walka o to, aby zgromadzić ich jak najwięcej. Nazwaliśmy to zjawisko „Big Data” i uznaliśmy za świetny sposób budowania przewagi konkurencyjnej.

Okazało się jednak, że od tak wielkich ilości danych algorytmy machine learning dławią się, a nasze raporty są ociężałe z przejedzenia. Bo w obecnych czasach z danymi jest jak z jedzeniem: liczy się nie ilość, a jakość.

Oczywiście o jakości danych mówimy od lat, ale od słów do czynów pozostaje długa droga. Polskie firmy, również z branży finansowej, dopiero przymierzają się do wdrożenia Ładu Danych (ang. Data Governance), czyli procesów, ról, narzędzi i tego wszystkiego, co ma im zapewnić dane odpowiedniej jakości.

I właśnie dla tych, którzy dopiero rozpoczynają swoją przygodę z jakością danych, zebrałem pięć najpopularniejszych mitów związanych z tą dziedziną.

1. To nie nasz problem

Jeśli zapytamy osoby decyzyjne: „Czy macie problem z jakością danych?” i padnie odpowiedź „Nie.” to mamy do czynienia z mitem nr 1. Dlaczego? Ponieważ wszyscy mamy problem z jakością danych!

Według raportów Experian w 78% firm złe dane mają bezpośredni wpływ na ich działanie. Z kolei z badań opublikowanych przez Harvard Business Review wynika, że tylko 3% rekordów w kluczowych zbiorach danych, które brano pod uwagę w analizowanych firmach, można ocenić jako „akceptowalne”, stosując możliwie najmniej wymagające standardy jakości.

Ale zamiast sięgać do badań wystarczy zapytać tych, którzy rozpoczęli już swoją przygodę z budowaniem ładu danych w firmie. Oni z pewnością potwierdzą, jak dużo jest jeszcze do zrobienia.

2. Jakość danych to projekt

Z powyższym stwierdzeniem wiąże się mocno drugi mit związany z jakością danych. Często jest tak, że firmy, które zrozumiały, że problemy z danymi dotyczą również ich, przechodzą do następującego planu: Zróbmy projekt, który rozwiąże problemy z jakością danych.

Ale to tak nie działa! Przy pomocy projektu możemy osiągnąć dwa cele. Po pierwsze jesteśmy w stanie określić odpowiedzialność i procesy zarządzania danymi. Po drugie możemy wdrożyć narzędzia i uruchomić algorytmy automatycznego czyszczenia danych.

Ale obydwa te cele, nawet jeśli uda nam się je z sukcesem zrealizować, to do dopiero początek. Bowiem dbałość o jakość danych to codzienne udoskonalanie procesów i narzędzi przez odpowiedzialnych za nie ludzi.

Czytaj także: Raport NBP: banki w Polsce inwestują w rozwój innowacji finansowych, ale nie wszystkie po równo

3. Dane są czarne lub białe

Mit nr 3. opiera się na założeniu, że dane są dobrej lub złej jakości. W rzeczywistości jakości danych nie doprowadzimy do perfekcji z dwóch powodów.

Po pierwsze nikogo na to nie stać. Cena takich działań byłaby ogromna, a ich realizacja i tak nie gwarantowałaby pełnego sukcesu. A po drugie to nie ma sensu, ponieważ dane nie mają być perfekcyjne, a użyteczne.

Tu objawia się kluczowa rola biznesu, czyli udzielnie odpowiedzi na pytanie: „Do jakiego poziomu jakości należy doprowadzić dane, żeby móc poprawnie realizować oparte na nich procesy biznesowe?”

Na dane nie można patrzeć, jak na koszulę z reklamy proszku do prania, która albo jest całkowicie brudna, albo zupełnie czysta. Świat danych nie jest bowiem jednolity i ma wiele odcieni szarości.

4. To zadanie dla IT

Mit 4. opiera się na oczywistym stwierdzeniu: Dane są w bazie danych, na dyskach twardych, na serwerach, więc dane to problem IT. Oni się tym zajmą!

Otóż nie! Za jakość danych odpowiada każda osoba, która bierze udział w ich przetwarzaniu. Zarówno ci, którzy są odpowiedzialni za tworzenie danych bezpośrednio, jak i pośrednio np. poprzez przygotowywanie wymagań względem systemów IT. W tym gronie znalazły się także osoby korzystające z danych, bo to od nich zależy jakie reguły i wymagania powinny one spełniać, aby były użyteczne w analizach biznesowych.

Za jakość danych odpowiadają również osoby, które obliguje do tego funkcja, jaką pełnią w organizacji, np. data stewardzi, IOD, CDO itp. Nie możemy w końcu pominąć tych, którzy są odpowiedzialni za przetwarzanie danych (w tym IT) oraz pilnują, aby w trakcie tego procesu nie pojawiały się dodatkowe błędy i nieścisłości.

Podsumowując: finanse, księgowość, kadry, sprzedaż, marketing, HR, ryzyko, IT ‒ w naszych firmach wszyscy odpowiadamy za jakość danych!

Czytaj także: EBA o Big Data i Machine Learning w sektorze bankowym. Report on Big Data and Advanced Analytics

5. Chodzi o czyszczenie

Mit 5. brzmi: w ładzie danych chodzi o ich czyszczenie. Niby jest to prawdą, ale to stwierdzenie to tylko wierzchołek góry lodowej. Pod powierzchnią wody znajdziemy natomiast profilowanie danych, czyli analizę ich aktualnego stanu, określenie reguł i oczekiwanej jakości danych, analitykę i raportowanie jakości danych i tworzenie architektury aplikacji, tak aby reguły wprowadzania i przechowywania danych zapewniały ich jakość.

Ponadto w głębinach odkryjemy także projektowanie UX aplikacji, aby użytkownicy chętniej uzupełniali dane, analizowanie powstawania błędów w danych na etapie ich wprowadzania i przetwarzania, role, odpowiedzialności i procesy zarządzane danymi i wiele, wiele więcej.

Nie dajmy się zmylić pierwszemu wrażeniu. Samo czyszczenie danych to tylko wycinek pracy, jaką musimy wykonać, aby były one zdatne do użycia.

Przestawić myślenie

Oczywiście mitów o jakości danych można byłoby znaleźć znacznie więcej. Ale najważniejsze co z nich wynika, to fakt, że musimy przestawić nasze myślenie w dwóch aspektach. Po pierwsze, jeśli chcemy budować organizacje data-driven, to wszyscy powinniśmy wziąć odpowiedzialność za dane i ich jakość.

Po drugie musimy przestać myśleć o danych w prehistoryczny, neandertalski sposób. Zamiast zdobywać kolejny ogromny zbiór danych, którego i tak nie będziemy w stanie skonsumować, skupmy się na zbiorach, które już posiadany i spowodujmy, aby stały się jadalne. Ba, nawet smaczne… Bo przewagi konkurencyjnej nie buduje posiadanie danych. Buduje ją zdolność do ich użycia.

Łukasz Nienartowicz, Head of Business Intelligence w Britenet
Łukasz Nienartowicz, Head of Business Intelligence w Britenet Fot. Britenet

Źródło: aleBank.pl
Udostępnij artykuł: