Program

Kurs programowania R i analizy danych w 24 godziny

Każdy może rozpocząć swoją karierę jako analityk - Data Scientist!
Dedykujemy go osobom, które chcą nauczyć się programowania w R i podstaw analizy danych.
Język programowania oraz środowisko R świetnie nadają się do analizy danych, obliczeń statystycznych oraz wizualizacji wyników. Jest to język oferujący dostęp do olbrzymich zasobów darmowego oprogramowania analitycznego i jest on niekwestionowanym liderem w Data Science, a w szczególności bioinformatyce.

Terminy zajęć:

10.10.2019 - blok 1
17.10.2019 - blok 2
24.10.2019 - blok 3
07.11.2019 - blok 4
14.11.2019 - blok 5
21.11.2019 - blok 6
28.11.2019 - blok 7
05.12.2019 - blok 8
12.12.2019 - egzamin

Opis bloków kursu

BLOK 1 - Hello woRld!

Nauczymy podstaw programowania, korzystania z R za pomocą edytora RStudio. Dowiesz się co to są zmienne, jakie są ich rodzaje i jak ich używać. Każdy napisze swój pierwszy program.

Kluczowa nabyta wiedza:
  • Podstawy programowania: co to jest język programowania, omówienie funkcjonalności RStudio
    • jak korzystać z wbudowanej pomocy
    • blok programu
  • Zmienne:
    • tworzenie zmiennych i operacje na nich
    • wektory i macierze
  • Podstawowe funkcje arytmetyczne

BLOK 2 - Co to są stringi dla programisty?

Nauczymy się więcej o typach danych w R. Jak je tworzyć, modyfikować, wywoływać, rzutować (również niejawnie).

Kluczowa nabyta wiedza:
  • Jakie są najważniejsze typy danych:
    • numeryczne, tekstowe, logiczne, wektory, tabele zliczeń, data, faktory
    • puste zmienne
    • jak je tworzyć, modyfikować i wykonywać na nich operacje
  • Operacje logiczne
  • Pakiety:
    • co to są pakiety, jak się je instaluje i używa
  • Zapis środowiska R

BLOK 3 - Co R ma wspólnego z rodeo?

Nauczymy jak napisać własną funkcję w R. Wyjaśnimy co to jest pętla i dlaczego ona jest bardzo przydatna.

Kluczowa nabyta wiedza:
  • Instrukcje warunkowe:
    • rodzaje instrukcji warunkowych, ich składnia w R i zastosowanie
  • Co to jest pętla, jaka jest jej składnia w R i do czego jej używać
  • Pisanie i wykorzystywanie własnych funkcji

BLOK 4 – Not so BIG DATA

Nauczymy jak wczytywać pliki csv i xls do środowiska R. Jak wybierać z danych to co nas interesuje i przeprowadzać obliczenia na zbiorach danych.

Kluczowa nabyta wiedza:
  • Wczytywanie danych:
    • wczytywanie plików płaskich (.csv) i plików Excela
  • Operacje na ramkach danych:
    • tworzenie i zmiana struktury
    • wybieranie i indeksowanie odpowiednich wierszy i kolumn
    • łączenie ramek danych
    • filtrowanie
  • Listy
    • czym się różnią od wektorów
    • praca z listami

BLOK 5 - Słupki, pudełka czy skrzypce

Nauczymy jakie są podstawowe statystyki opisowe pozwalające się zorientować z jakimi danymi mamy do czynienia. Pokażemy jakie są najczęściej stosowane rodzaje wykresów. Nauczymy jak stworzyć wykresy i przedstawić graficznie wyniki naszych analiz.

Kluczowa nabyta wiedza:
  • Statystyki opisowe:
    • jak obliczyć z danych: średnie, mediany, kwartyle, odchylenia standardowe, wartości maksymalne, minimalne, wariancje, sumy, itp.
  • Popularne rodzaje wykresów:
    • wykresy punktowe, słupkowe, pudełkowe, skrzypcowe i histogramy
  • Tworzenie wykresów w R

BLOK 6 - Analiza i wizualizacja danych

Nauczymy jak wykorzystać całą nabytą dotychczas wiedzę w celu analizy realnych zbiorów danych i tworzenia pięknych wykresów.

Kluczowa nabyta wiedza:
  • Przejście pełnego procesu analizy danych od surowych danych w pliku do zbudowania czytelnego wykresu w oparciu o statystyki opisowe
  • Jak zrobić dobry i czytelny wykres

BLOK 7 - Testy statystyczne

Wyjaśnimy w przystępny sposób co to jest rozkład zmiennej, po co stosować testy statystyczne, jakie są podstawowe testy statystyczne oraz które się stosuje do różnych typów danych.

Kluczowa nabyta wiedza:
  • Podstawowe rozkłady statystyczne danych
  • Czym się różni rozkład dwumodalny od jedno- i co wtedy?
  • Rodzaje testów i ich zastosowanie
  • Czym jest korelacja

BLOK 8 – Analiza statystyczna i wizualizacja realnych danych

Nauczymy się jak wykorzystać wiedzę z zakresu statystyki w celu analizy realnych zbiorów danych i tworzenia skutecznych wykresów.

Kluczowa nabyta wiedza:
  • Przejście pełnego procesu analizy danych od surowych danych w pliku do zbudowania czytelnego wykresu w oparciu o analizę statystyczną
  • Dwa zagadnienia z zakresu uczenia maszynowego w R
    • Grupowanie danych
    • Model liniowy

Kontakt

Napisz do nas na: Ten adres pocztowy jest chroniony przed spamowaniem. Aby go zobaczyć, konieczne jest włączenie w przeglądarce obsługi JavaScript.
lub zadzwoń! tel. 22 38 00 569

Instytut Podstaw Informatyki
Polskiej Akademii Nauk
ul. Jana Kazimierza 5
01-248 Warszawa
ipipan.waw.pl