Pierwszy projekt AI: Jak przewidzieć kto przeżył katastrofę Titanica?

Cześć,

Zawsze uważałem, że najlepiej uczyć się przez praktykę. Tak też zrobimy z AI. Już wiemy trochę “z czym to się je” i do czego AI się przydaje. Dziś zaczynamy praktykę.

Najłatwiej zacząć od przejścia gotowych tutoriali. Dzięki temu będziemy mogli łatwo zapoznać się z narzędziami. Skorzystamy z fajnego portalu Kaggle (https://www.kaggle.com/).

Jest to strona do pracy nad modelami Machine Learning które rozwiązują prawdziwe życiowe problemy w postaci konkursów. Każdy konkurs posiada dokładny opis problemu oraz gotowe dane, na których możemy szkolić nasz model. Jest to bardzo duży plus, ponieważ w Machine Learning największym problemem jest właśnie dostęp do danych dobrej jakości. Mamy też do dyspozycji środowisko do wykonywania kodu w Pythonie (lub języku R) oraz darmowy dostęp do mocy obliczeniowej procesorów graficznych GPU.

Co ciekawe konkursy czasami mają nagrody. I tak najbardziej płatny był projekt dla amerykańskiego U.S. Transportation Security Administration (TSA) (https://www.kaggle.com/c/passenger-screening-algorithm-challenge). Uczestnicy mieli do dyspozycji obrazy ze skanerów na lotniskach w USA i mogli trenować swoje modele aby lepiej wykrywać podejrzane ładunki. Łączna pula nagród to $ 1 500 000 (półtora miliona dolarów). To już dla zaawansowanych.

Możemy jednak zacząć prosto. Od wprowadzającego tutoriala (z instrukcjami krok po kroku i kodem, który wystarczy skopiować i wkleić). Zadanie w startowym konkursie polega na “przewidzeniu które osoby przeżyły katastrofę Titanica”. Do dyspozycji mamy dane pasażerów takie jak: nazwisko, klasa biletu, płeć, wiek, liczba rodzeństwa, dzieci i rodziców, numer biletu a nawet numer kabiny czy port gdzie weszli na pokład. Jest podział na dane do trenowania modelu oraz dane testowe, które musimy właśnie oznaczyć. Na podstawie tego czy dobrze oznaczyliśmy testowe osoby będzie oceniany nasz model Machine Learning.

Link do konkursu: https://www.kaggle.com/c/titanic

Link do tutorialu: https://www.kaggle.com/alexisbcook/titanic-tutorial

Poniżej screen z narzędzia. Widzimy język Python oraz operacje na danych. Do przykładowego trenowania modelu został użyty algorytm RandomTreeClassifier (który również został wyjaśniony w tutorialu).

Widać też jak łatwe jest trenowanie modelu. Wystarczy tylko kilk linijek kodu. O ile tylko znamy odpowiednie biblioteki języka Python 🙂 I to wszystko. Tutorial krok po kroku pokazał co należy gdzie wkleić i uruchomić żeby wysłać nasze zgłoszenie do konkursu. Taki przykładowy model nie jest bardzo dokładny i nie oszacował prawidłowo wszystkich osób. Należy go ulepszyć w przyszłości.

Na koniec mały bonus. Znalazłem bardzo ciekawy film dokumentalny na Netflix: “W świecie danych” (https://www.netflix.com/pl/title/81031737). W pierwszym odcinku widać wyraźnie, jak wiele danych jest potrzebne żeby nauczyć AI rozpoznawać twarze. Najprawdopodobniej też wszystkie nasze zdjęcia jakie wrzuciliśmy kiedyś do internetu posłużyły do trenowania modeli rozpoznawania twarzy bez naszej wiedzy i zgody. Niesamowite.

Paweł

Wpis pochodzi z newslettera. Jeżeli chcesz dostawać podobne informacje na swojego mejla uzupełnij poniższy formularz. W każdej chwili możesz się wypisać.

Newsletter Droga Programisty

Dziękuję za dołączenia do newslettera.