Zacznij w IT: Data scientist

Data scientist to zawód nazwany przez Harvard Business Review najgorętszą profesją nadchodzącego stulecia. Wymaga mieszanki wielodyscyplinarnych umiejętności – zaczynając od przekroju wiedzy matematycznej, statystycznej i technologicznej po umiejętności komunikacyjne czy biznesowe. Ciężko znaleźć specjalistę z tak szerokim wachlarzem umiejętności. Jeszcze ciężej znaleźć osobę, która doskonale rozumie pojęcie Data Science.

Czym tak naprawdę zajmuje się data scientist? Jakie umiejętności są niezbędne do rozpoczęcia pracy w tym zawodzie? Jak zacząć stawiać pierwsze kroki jako „eksplorator danych”? Na te pytania odpowiemy razem z Filipem Cyprowskim, Head of Research Team z firmy Sotrender.

Czym zajmuje się data scientist?

Ilość danych cyfrowych rośnie z roku na rok w coraz szybszym tempie. Według firmy IBM w 2012 r. interakcje w sieci wytwarzały 2.5 miliarda GB danych dziennie. Obecnie szacuje się, że do 2020 r. każda osoba na świecie będzie wytwarzać 1.7 MB danych na sekundę. To ponad 143 GB danych dziennie – mniej więcej tyle co 10 sezonów amerykańskiego sitcomu „Przyjaciele”.

Nie dziwi więc, że z roku na rok wzrasta zainteresowanie eksploracją danych – stanowią one „cyfrową żyłę złota”. Przedsiębiorcy coraz częściej chcą znaleźć powiązania pomiędzy ogromnymi ilościami danych jakie są wytwarzane a ich wpływem na działania biznesowe.

Eksploracja danych

Data scientist to specjalista, który potrafi z dużych zbiorów danych (Big Data) pozyskać wiedzę potrzebną do rozwoju produktów i ulepszenia usług.

“Celem Data Science jest przetworzenie danych w taki sposób, aby uzyskany efekt dawał klientowi jednoznaczną informację do podjęcia decyzji biznesowej.“
Filip Cyprowski

Aby analizować duże zbiory danych, trzeba łączyć kompetencje różnych, pozornie odrębnych specjalności m.in. matematyki i statystyki, uczenia maszynowego czy programowania. Do wyciągania trafnych wniosków oraz tworzenia prognoz sama analiza to za mało.

Analiza to nie wszystko

Praca data scientist nie kończy się w momencie przeprowadzenia analiz i znalezienia istotnych informacji. Przetworzone dane muszą być przekazane w jasny i czytelny sposób.

“Coś co jest rzadko akcentowane w artykułach o Data Science to wizualizacja danych. Jest to jedna z ważniejszych rzeczy w całym procesie analitycznym.”
Filip Cyprowski

Dlaczego? Same dane nie powiedzą klientowi zbyt wiele. Potrzebuje on informacji, które pomogą mu zauważyć pewne zależności, dojść do konkretnych wniosków i na tej podstawie zaplanować działania.

Komunikacja

Specjalista data science poza świetną znajomością technologii, charakteryzuje się dociekliwością ukierunkowaną na rozwiązywanie problemów biznesowych. Aby trafnie określić potrzeby klienta, niezbędne są rozwinięte umiejętności komunikacyjne.

“Jedną z najważniejszych umiejętności w tym zawodzie jest zdolność komunikacji i odkrywania potrzeb klienta.”
Filip Cyprowski

Jak wygląda dzień pracy data scientist?

Charakterystyka pracy data scientist różni się w zależności od branży i profilu firmy. Specjalista od eksploracji danych będzie realizował inne zadania firmie z sektora finansowego niż w firmie zajmującej się marketingiem internetowym, w której np. będzie analizował zachowania klientów w sklepach internetowych.

Dzień z życia data scientist w Sotrender

Sotrender umożliwia analizowanie i profesjonalne raportowanie własnych kampanii w social mediach oraz podgląd tego, co robią konkurenci. Dodatkowo precyzyjne wskazówki mówią, co warto poprawić, a co działa dobrze.

Specjalista od danych w Sotrender zajmuje się tworzeniem analiz i raportów, które pomagają klientom lepiej dostosowywać komunikację w mediach społecznościowych.

Praca nad danym raportem zaczyna się od pracy nad koncepcją danej analizy. Jest to jeden z najistotniejszych elementów pracy data scientist. To od przyjętego modelu analizy zależy czy wyłowimy istotne dla nas informacje. W procesie analitycznym wykorzystuje się takie narzędzia jak Hadoop, Spark czy Hive/Pig (w dalszej części artykułu dowiesz się czym są te narzędzia).

Na tym stanowisku zdecydowanie odnajdą się indywidualiści, którzy lubią pracę samodzielną – stanowi ona niemal 80% czasu. Jednak umiejętność efektywnej komunikacji jest na tym stanowisku bardzo istotna. Na każdym etapie swojej pracy data scientist współpracuje z różnymi działami w firmie m.in. obsługą klienta (określenie potrzeb klienta), działem IT (określenie potrzeb technologicznych) czy grafikami (etap wizualizacji).

Jakie umiejętności są niezbędne na stanowisku data scientist?

Poszukiwanie dobrego specjalisty data scientist, w branży humorystycznie określa się poszukiwaniem jednorożca. Mnogość różnorodnych kompetencji i umiejętności, wymaganych na tym stanowisku może zwalać z nóg.

Nie istnieje jeden uniwersalny zestaw kompetencji data scientist. Większość specjalistów w tej dziedzinie posiada umiejętności z zakresu:

  • Gromadzenia dużych ilości nieuporządkowanych danych i ustrukturyzowania ich.
  • Technik analitycznych np. uczenia maszynowego, uczenia pogłębionego oraz analizy tekstu.
  • Przetwarzania języka naturalnego.
  • Programowania w różnych językach, w tym R i Python.
  • Statystyki m.in. testów i rozkładów statystycznych.
  • Komunikacji i współpracy z obszarem IT oraz biznesem.
  • Wyszukiwania w danych reguł i wzorców,a także wyciągania wniosków na ich podstawie.
  • Wykrywania trendów, które mogą poprawić wynik finansowy firmy.
  • Wizualizacji danych.

Jak zacząć karierę data scientist?

Większość data scientist posiada doświadczenie statystyczne lub analityczne, jednak pojawia się coraz więcej specjalistów o podłożu nietechnicznym np. ekonomicznym czy marketingowym. Czy specjaliści z różnym doświadczeniem mogą być tak samo efektywni, pracując w dziedzinie eksploracji danych?
Poza wiedzą analityczną, umiejętnościami technologicznymi i komunikacyjnymi, istotna jest bardzo dobra znajomość branży tzw. domain knowledge.

“Domain knowledge czyli wiedza o branży, którą analizujemy jest kluczowa. Poznanie specyfiki tematu naszej pracy zajmuje najwięcej czasu.”
Filip Cyprowski

W jaki sposób możesz rozpocząć przygodę z eksploracją danych? Skąd czerpać wiedzę i gdzie szukać doświadczenia?

#1 Zacznij od podstaw

Data scientist powinien mieć mocne podłoże teoretyczne. Jeżeli nie miałeś przedmiotów z algebry liniowej, analizy czy statystyki na studiach, zacznij od otwartych kursów udostępnianych przez Massachusetts Institute of Technology, Uniwersytet Harvarda czy Uniwersytet Johna Hopkinsa.

#2 Naucz się programowania

Codzienna praca specjalisty od eksploracji danych wymaga świetnej znajomości przynajmniej jednego języka programowania. Zacznij od zapoznania się z podstawowymi zagadnieniami informatyki takimi jak algorytmy, abstrakcja w programowaniu czy struktury danych.

#3 Poznaj bazy danych

Data scientist powinien sprawnie posługiwać się różnego rodzaju bazami danych m.in. MySQL, Postgres, MongoDB, Cassandra etc. Na początku zacznij od jednej, ale poznaj ją dokładnie.

#4 Odkryj narzędzia eksploracji danych

Pozyskanie znaczących informacji z wielkich zbiorów to złożony proces. Każdy z etapów wymaga innych umiejętności.

  • Data munging, czyli wydobywanie danych z wielkich zbiorów i konwertowanie ich do formatu, który ułatwia dalszą pracę. Na tym etapie, niemalże 80% pracy to kodowanie.
  • Znajomość narzędzi do wizualizacji Flare, D3.js czy Tableau.
  • Przedstawienie danych w jasny i zrozumiały sposób jest zwieńczeniem pracy data scientist. Służą do tego takie narzędzia jak R Markdown czy Spotfire.

#5 Zaprzyjaźnij się z Big Data

Przeprowadzanie obliczeń na ogromnych zbiorach danych nie jest możliwe przy wykorzystaniu tylko jednego narzędzia. Doświadczony data scientist do obliczeń rozproszonych wykorzystuje:

  • Hadoop
    Hadoop jest frameworkiem, a tak naprawdę zbiorem bibliotek, ułatwiającym pracę na Big Data. Ułatwia podzielenie wielkich zbiorów danych na sensowne grupy i ich dystrybucję do różnych komputerów.
  • MapReduce
    MapReduce to model programowania rozproszonego zaprojektowany i zaimplementowany przez Google. Umożliwia on proste przetwarzanie i generowanie ogromnych zbiorów danych.
  • Spark
    Apache Spark to nowy, bardzo szybki system analizy dużej ilości danych, zbudowany w oparciu o leniwe kolekcje rozproszone (RDD – Resilient Distributed Datasets).

#6 Zdobądź doświadczenie!

Złapałeś już podstawy teoretyczne? Świetnie! Zacznij działać.

Portal kaggle.com jest do tego idealnym miejscem. Na stronie znajdziesz różnego rodzaju otwarte konkursy z zakresu eksploracji danych, analizy statystycznej czy uczenia maszynowego. Zaproponowane rozwiązania mogą pełnić rolę Twojego portfolio w świecie Data Science.

Pamiętaj również o tym, by dać się poznać w środowisku. Bierz udział w spotkaniach dla osób zainteresowanych tematyką eksploracji danych np. Data Science Warsaw.

Czy warto?

Data Science dla niektórych to nadal branżowy buzzword. Dla innych jest już podstawą do podejmowania decyzji biznesowych. Czy eksploracja danych znajdzie zastosowanie w każdej branży? Według specjalistów – zdecydowanie tak. I jest to kwestia kilku lat.

 

Myślisz o karierze w branży IT? Przeczytaj nasz artykuł o pierwszych krokach w świecie nowych technologii.

Site Footer

Sliding Sidebar