Program
Kurs programowania R i analizy danych w 24 godziny
Każdy może rozpocząć swoją karierę jako analityk - Data Scientist!
Dedykujemy go osobom, które chcą nauczyć się programowania w R i podstaw analizy danych.
Język programowania oraz środowisko R świetnie nadają się do analizy danych, obliczeń statystycznych oraz wizualizacji wyników. Jest to język oferujący dostęp do olbrzymich zasobów darmowego oprogramowania analitycznego i jest on niekwestionowanym liderem w Data Science, a w szczególności bioinformatyce.
Terminy zajęć:
10.10.2019 - blok 1
17.10.2019 - blok 2
24.10.2019 - blok 3
07.11.2019 - blok 4
14.11.2019 - blok 5
21.11.2019 - blok 6
28.11.2019 - blok 7
05.12.2019 - blok 8
12.12.2019 - egzamin
Opis bloków kursu
BLOK 1 - Hello woRld!
Nauczymy podstaw programowania, korzystania z R za pomocą edytora RStudio. Dowiesz się co to są zmienne, jakie są ich rodzaje i jak ich używać. Każdy napisze swój pierwszy program.
Kluczowa nabyta wiedza:
- Podstawy programowania: co to jest język programowania, omówienie funkcjonalności RStudio
- jak korzystać z wbudowanej pomocy
- blok programu
- Zmienne:
- tworzenie zmiennych i operacje na nich
- wektory i macierze
- Podstawowe funkcje arytmetyczne
BLOK 2 - Co to są stringi dla programisty?
Nauczymy się więcej o typach danych w R. Jak je tworzyć, modyfikować, wywoływać, rzutować (również niejawnie).
Kluczowa nabyta wiedza:
- Jakie są najważniejsze typy danych:
- numeryczne, tekstowe, logiczne, wektory, tabele zliczeń, data, faktory
- puste zmienne
- jak je tworzyć, modyfikować i wykonywać na nich operacje
- Operacje logiczne
- Pakiety:
- co to są pakiety, jak się je instaluje i używa
- Zapis środowiska R
BLOK 3 - Co R ma wspólnego z rodeo?
Nauczymy jak napisać własną funkcję w R. Wyjaśnimy co to jest pętla i dlaczego ona jest bardzo przydatna.
Kluczowa nabyta wiedza:
- Instrukcje warunkowe:
- rodzaje instrukcji warunkowych, ich składnia w R i zastosowanie
- Co to jest pętla, jaka jest jej składnia w R i do czego jej używać
- Pisanie i wykorzystywanie własnych funkcji
BLOK 4 – Not so BIG DATA
Nauczymy jak wczytywać pliki csv i xls do środowiska R. Jak wybierać z danych to co nas interesuje i przeprowadzać obliczenia na zbiorach danych.
Kluczowa nabyta wiedza:
- Wczytywanie danych:
- wczytywanie plików płaskich (.csv) i plików Excela
- Operacje na ramkach danych:
- tworzenie i zmiana struktury
- wybieranie i indeksowanie odpowiednich wierszy i kolumn
- łączenie ramek danych
- filtrowanie
- Listy
- czym się różnią od wektorów
- praca z listami
BLOK 5 - Słupki, pudełka czy skrzypce
Nauczymy jakie są podstawowe statystyki opisowe pozwalające się zorientować z jakimi danymi mamy do czynienia. Pokażemy jakie są najczęściej stosowane rodzaje wykresów. Nauczymy jak stworzyć wykresy i przedstawić graficznie wyniki naszych analiz.
Kluczowa nabyta wiedza:
- Statystyki opisowe:
- jak obliczyć z danych: średnie, mediany, kwartyle, odchylenia standardowe, wartości maksymalne, minimalne, wariancje, sumy, itp.
- Popularne rodzaje wykresów:
- wykresy punktowe, słupkowe, pudełkowe, skrzypcowe i histogramy
- Tworzenie wykresów w R
BLOK 6 - Analiza i wizualizacja danych
Nauczymy jak wykorzystać całą nabytą dotychczas wiedzę w celu analizy realnych zbiorów danych i tworzenia pięknych wykresów.
Kluczowa nabyta wiedza:
- Przejście pełnego procesu analizy danych od surowych danych w pliku do zbudowania czytelnego wykresu w oparciu o statystyki opisowe
- Jak zrobić dobry i czytelny wykres
BLOK 7 - Testy statystyczne
Wyjaśnimy w przystępny sposób co to jest rozkład zmiennej, po co stosować testy statystyczne, jakie są podstawowe testy statystyczne oraz które się stosuje do różnych typów danych.
Kluczowa nabyta wiedza:
- Podstawowe rozkłady statystyczne danych
- Czym się różni rozkład dwumodalny od jedno- i co wtedy?
- Rodzaje testów i ich zastosowanie
- Czym jest korelacja
BLOK 8 – Analiza statystyczna i wizualizacja realnych danych
Nauczymy się jak wykorzystać wiedzę z zakresu statystyki w celu analizy realnych zbiorów danych i tworzenia skutecznych wykresów.
Kluczowa nabyta wiedza:
- Przejście pełnego procesu analizy danych od surowych danych w pliku do zbudowania czytelnego wykresu w oparciu o analizę statystyczną
- Dwa zagadnienia z zakresu uczenia maszynowego w R
- Grupowanie danych
- Model liniowy