Uczenie maszynowe to statystyka minus sprawdzanie założeń
Brian D. Ripley, Konferencja UseR, 2014

To prowokacyjne stwierdzenie może wprowadzić czytelnika w błąd, choć zawiera w sobie ważną wskazówkę - skoro weryfikacja założeń nie jest ważna w uczeniu maszynowym, to jak możemy określić poprawność i przydatność wyników uzyskanych w tej metodzie?

Leo Breiman1 udzielił na to pytanie prostej odpowiedzi: postęp w statystyce jest oparty na wzrastającej zdolności modeli statystycznych do wyjaśniania powiązań pomiędzy zmiennymi. Możliwość generalizacji wyników poza zebrane dane (próby) opiera się przy tym na weryfikacji, czy dane te spełaniają założenia nałożone przez określony model. W technikach uczenia maszynowego (lub ogólniej, uczenia statystycznego), postęp opiera się na zwiększaniu możliwości predykcyjnych opracowywanych modeli. Kryterium, które decyduje o możliwości generalizacji uzyskanych (wyuczonych, training set) wyników opiera się na ich walidacji na innym podzbiorze danych, które nie były wykorzystywane w procesie budowania modelu (dane walidacyjne, test set).

Specjalistę od uczenia maszynowego interesuje przede wszystkim zdolność predykcyjna modelu, a więc zdolność opracowanego modelu do przewidywania przyszłych danych. Z kolei statystyka interesuje przede wszystkim zdolność wyjaśniająca, czyli zdolność do wyjaśnienia i zrozumienia procesu, który doprowadził do powstania określonych zależności w zbiorze danych. Oczywiście, statystycy także chcą być w stanie przewidywać przy użyciu swoich modeli - ale ich podejście do przewidywania polega głównie na określeniu granic czy warunków, w jakich uzyskane na (zwykle małej) próbie dane mogą być generalizowane na populację, z której ta próba pochodzi. W publikacjach i prezentacjach konferencyjnych widoczny jest w ostatnich latach trend łączenia obu gałęzi nauki. Specjaliści od uczenia maszynowego korzystają z postępów w statystyce (np. prace Talagranda, Donoho), a z kolei statystycy zaczynają korzystać z narzędzi zbudowanych na potrzeby zaawansowanych technik uczenia maszynowego.

Klasyczna statystyka, jako nauka dużo bardziej dojrzała niż uczenie maszynowe, ewoluuje też dużo wolniej: bardziej opiera się krótkotrwałym trendom, nowinkom technologicznym, publikacje w tej dziedzinie są dużo bardziej sformalizowane i oparte na formułach i dowodach matematycznych. Nie ma w tym nic dziwnego, skoro o poprawność modeli statystycznych opieramy zwykle na wnioskowaniu dedukcyjnym, wychodząc od ogólnych twierdzeń i upewniając się, czy dane, które analizujemy, spełniają założenia wymagane do utrzymania prawdziwości tych twierdzeń.

Zgodność z założeniami teoretycznymi jest też jedną z podstawowych przyczyn, dla których statystyka zajmuje się takimi tematami jak dobór próby, reprezentatywność, poprawność losowania - statystycy mają bowiem często do czynienia z danymi, na których powstanie lub zebranie mogą mieć wpływ. Są to z kolei obszary generalnie ignorowane w uczeniu maszynowym, które zajmuje się przede wszystkim danymi zastanymi.

W dziedzinie uczenia maszynowego mamy często do czynienia z problemami, w których "p >> n", czyli liczba predyktorów jest bardzo większa niż liczba obserwacji - i nie stanowi to dużego problemu, tj. na takich danych wciąż można budować skuteczne modele predykcyjne. Natomiast bardzo trudno na takich danych budować wnioskowanie statystyczne - statystycy mając tego typu dane w pierwszej kolejności będą (typowo) doprowadzać do drastycznej redukcji wymiarowości danych (np. zlewając sto pytań w kwestionariuszu w jeden łączny wynik), a dopiero potem konstruować modele wyjaśniające relacje pomiędzy zmiennymi.

Z kolei statystyka dużo lepiej opanowała problemy z bardzo małym "n", tj. takie, gdzie dysponujemy próbami o liczebności kilkunastu, a nawet kilku obserwacji. Dzięki wykorzystaniu założeń dotyczących pochodzenia tych danych z populacji, a także wniosków wynikających z CTG (Centralne Twierdzenie Graniczne), statystycy mogą wysnuwać poprawne wnioski (choć przy małym n obarczone wysokim poziomem błędu). W technikach uczenia maszynowego często nie zastanawiamy się nad wstępnymi założeniami, co w praktyce uniemożliwia skuteczne predykcje na zbiorach o małym n.

Na koniec warto pamiętać, że uczenie maszynowe i modelowanie statystyczne łączą się elegancko w postaci uczenia statystycznego, które daje uczeniu maszynowemu formalne, teoretyczne ramy, opierające się właśnie na ponad stu latach rozwoju analizy danych i statystyki. Nie jest bowiem przypadkiem, że twórcy i najlepisi specjaliści technik uczenia maszynowego są najczęściej także specjalistami z doktoratami ze statystyki.

Wszystkich zainteresowanych podstawami uczenia maszynowego odsyłam do dwóch klasycznych podręczników, dostępnych bezpłatnie online (sugerowana kolejność czytania: najpierw ISL, potem ESL):

  • James, G., Witten, D., Hastie, T., & Tibshirani, R. (Eds.). (2013). An introduction to statistical learning: with applications in R. New York: Springer.
  • Hastie, T., Tibshirani, R., & Friedman, J. H. (2009). The elements of statistical learning: data mining, inference, and prediction (2nd ed). New York, NY: Springer.

  1. Breiman, Leo. Statistical Modeling: The Two Cultures (with comments and a rejoinder by the author). Statist. Sci. 16 (2001), no. 3, 199--231. doi:10.1214/ss/1009213726. (http://projecteuclid.org/euclid.ss/1009213726). 

Previous Post Next Post