O autorze
Paweł Jarosz - jestem od lat zafascynowany analizą danych pod różną postacią. Od wielu lat pracuję w Instytucie Informatyki na Politechnice Krakowskiej jako pracownik akademicki. Współpracuję również przy projektach komercyjnych. Aktualnie prowadzę firmę Dacision, gdzie staramy się pomagać biznesom podejmować lepsze decyzje biznesowe w oparciu o dane. Na tym blogu będę przybliżał tematykę możliwości wykorzystania ogromnych ilości danych w biznesie.

Data Scientist – detektyw danych, czyli czy Sherlock Holmes może nam pomóc w analizie danych?

Kilka lat temu było głośno o zawodzie Data Scientist. Został on uznany za najseksowniejszy zawód XXI wieku (Data Scientist: The Sexiest Job of the 21st Century), a Data Science (nauka o danych) dziedziną która może spowodować ogromny postęp w rozwoju firm i organizacji. Wiele zachodnich firm zrozumiało to wyzwanie i podjęło działania w celu optymalizacji swojej działalności poprzez wdrożenie najnowszych osiągnięć w nauce o danych. Data Science pozwala na nowe spojrzenie na niemal KAŻDY obszar działalności. Marketing, zarządzanie, sprzedaż, produkcja itd. - w każdej tej części działalności generowane są olbrzymie zbiory danych. I w każdym z tych obszarów możemy wznieść się ponad to co oferuje nam ludzkie oko i spróbować odnaleźć trendy, ciekawe zależności, wskazówki czy wręcz przewidywać przyszłość.

Jak to zrobić? Jak się powinno spojrzeć na projekty Data Science? Chciałbym zaproponować na porównanie pracy Data Scientist'a z detektywem – spróbujmy powołać się na wielkiego Sherlocka Holmes'a i zobaczyć co on sądzi na temat swoich projektów i czy można wykorzystać te wskazówki w projektach związanych z danymi.

Nie ma nic nowego pod słońcem. Wszystko wydarzyło się już kiedyś w przeszłości.
Źródło: Arthur Conan Doyle, Studium w szkarłacie


Celem projektów Data Science jest odnalezienie relacji między przeszłością, a przyszłością w naszej biznesowej rzeczywistości. Dane, które firma posiada są obrazem, opisem przeszłości. Można w nich odnaleźć sporo wskazówek, dotyczących tego, jakie podjąć decyzje w bieżącej działalności firmy (przyszłość). Dzięki takim narzędziom jak uczenie maszynowe proces ten można częściowo zautomatyzować i dzięki temu uzyskać niezwykle istotne informacje, dotyczące np. zachowań klientów, związków pomiędzy procesami, wpływu reklamy na sprzedaż itd. Pozwala nam to spojrzeć w przyszłość i podjąć decyzje nie tylko opierając się na doświadczeniu i intuicji, ale również na stworzonych modelach.

Koncepcje muszą być tak szerokie jak natura, jeżeli mają ją ogarnąć.
Źródło: Arthur Conan Doyle, Studium w szkarłacie


Kluczowym słowem przy tematyce Data Science jest kontekst. Dane z działalności firmy zawsze osadzone są w jakiejś rzeczywistości (zachowanie gospodarki, konkurencja, wydarzenia w świecie rzeczywistym – np. sportowe). Dlatego należy być bardzo ostrożnym w wyciąganiu szybkich wniosków z małego fragmentu danych. Zawsze należy analizować je w odpowiednim kontekście z uwzględnieniem w miarę możliwości szerokiego horyzontu.

Podstawowym błędem jest podawanie teorii, zanim uzyska się dane. Niepostrzeżenie zaczyna się dostosowywać fakty, by zgadzały się z teoriami, zamiast próbować stworzyć teorię, która byłaby zgodna z faktami.
Źródło: Arthur Conan Doyle, Skandal w Bohemii


W projektach Data Science należy odłożyć na bok emocje, uprzedzenia, czy poglądy. W pierwszej kolejności zawsze spróbujemy znaleźć odpowiedź w faktach i na tej podstawie próbując budować model. A nie odwrotnie. Często łatwo wpaść w pułapkę przedwcześnie przyjętych założeń. Niech to dane nas prowadzą odkrywając przed nami historię.

Zatem, czy w poszukiwaniu odpowiedniego polskiego tłumaczenia określenia „Data Scientist” nie należałoby nazwać go po prostu Detektywem danych?


Chciałbym z radością powitać wszystkich na gościnnych stronach INNPoland. Od dziś będę starał się tutaj przybliżać możliwości stosowania nauki o danych (Data Science) w biznesie. Zapraszam.
POLUB NAS NA FACEBOOKU
Trwa ładowanie komentarzy...