Vážení studenti,
otevíráme výuku jazyka a prostředí R. Jednosemestrální kurz si můžete zapsat v SISu pod kódem B03128. Kurz bude zakončen seminární prací a je dotován 3 kredity.
Anotace předmětu:
Skriptovací jazyk a výpočetní prostředí R slouží pro statistické výpočty a vizualizaci jejich výsledků.
Jazyk R je využíván k analýze hypotéz na většině významných univerzit. Prostředí R je otevřené, zdarma a uživatelsky přátelské. Je to analytický nástroj dominantní v oblasti biomedicíny. Využití R v publikacích je známkou kvality, je doložené, že použití R jako nástroje analýz signifikantně zvyšuje citovanost publikace.
Předmět je doporučen všem studentům s ambicemi věnovat část své budoucí profesionální aktivity vědecké práci, tedy (ale nejen) adeptům na doktorandské studium. Předmět je koncipován jako úvod pro začátečníky, předchozí znalosti jazyka R ani jiného programovacího jazyka nejsou vyžadovány. Student bude seznámen s instalací a spuštěním prostředí R, s importem, resp. exportem dat do, resp. z R a s úpravou dat v prostředí R. Na praktických a jednoduchých příkladech z oblastí (bio)medicíny se student naučí práci s knihovnami R, vyzkouší si některé statistické analýzy a vizualizace dat. Díky tomu pochopí možnosti uplatnění R pro účely jeho budoucího výzkumu. Rovněž bude uveden do základů programování a psaní vlastních funkcí v R. Během předmětu i v rámci závěrečné seminární práce (projektu) si student současně osvojí přístup k reprodukovatelnému a transparentnímu vedení projektu a datové analýze. Obdobný předmět je v různých podobách nabízen na většině západních univerzit.
Osnova cvičení:
1. Úvod, instalace, nastavení prostředí R. Motivační příklady. Přehled základních datových typů a struktur, jednoduché operace, čísla, vektory a práce s nimi. Rychlé statistiky pro jednoduchá sloupcová data.
2. Další datové struktury a práce s nimi. Pole. Datové tabulky. Seznamy. Efektivní práce s běžnými formáty dat.
3. Načítání dat do R z externích zdrojů, jejich ukládání a (před)zpracování. Jak pomocí R automatizovat rutinu čištění dat.
4. Funkce v R. Užitečné vestavěné funkce a uživatelsky definované funkce v R. Funkcionality, které Excel při zpracování dat nedokáže nabídnout.
5. R jako programovací jazyk. Cykly, podmínky, varování, chyby. Automatizace datových úloh.
6. Základy statistiky a analýzy dat v R. Jemný úvod do pravděpodobnostních rozdělení. Míry polohy a variability. Úvod do testování hypotéz. Základní grafická vizualizace. Must-know pro analýzu dat.
7. Pokročilejší statistika a analýza dat v R. Lineární modely včetně zobecněných. Lineární regrese. Analýza rozptylu (ANOVA), analýza kovariance (ANCOVA) a jejich mnohorozměrné varianty (MANOVA, MANCOVA). Vhodná grafická vizualizace metod. Zlatý standard do odborných článků v (bio)medicíně.
8. Logistická regrese a její interpretace, vizualizace. Nástroj pro klasifikaci pacientů do jednotlivých tříd.
9. Časové řady. Analýza přežití. Vhodná grafická vizualizace metod. Zavedení času jako proměnné do analýz.
10. Vybrané pokročilejší statistické metody v R. Shluková analýza. Diskriminační analýza. Faktorová analýza (FA), vysvětlení a aplikace pojmu rotace řešení. Analýza hlavních komponent (PCA). Příslušná grafická vizualizace.
11. Podrobněji o grafické vizualizaci v R. Přehled typů diagramů a jejich ukládání. Grafické výstupy v R. Low-level a high-level grafické příkazy. Zobrazování mnohorozměrných dat. Parametry diagramů. Jak vybrat vhodný diagram pro konkrétní analýzu v R a jak ho vyšperkovat pro publikaci.
12*. Některé metody strojového učení v R. Naivní Bayesův klasifikátor. Support Vector Machine (SVM). Křížová validace (CV). Rozhodovací stromy. Náhodné lesy. Neuronové sítě. Asociační pravidla. Jacknife. Bootstrap.
13*. Práce s textem v R. Základní práce s textovými řetězci. Regulární výrazy v R. Tokenizace, n-gramming. TeXový kód uvnitř R-kového kódu, TeXový výstup R-kových analýz a diagramů do .pdf.
14*. Vývoj webových a aplikací pomocí R a balíčku Shiny. Balíček Shiny. Komponenty webové aplikace napsané v R. Použití HTML, CSS a javascriptu v R-kové aplikaci. Jak zabalit R-kový kód do klikatelné podoby a zpřístupnit ho ostatním.
15. Konzultace a individuální pomoc v rámci seminární práce.
*Doplňková témata pokročilé studenty
Přehledová informace
Úvod do skriptovacího jazyka R – B03128 (volitelný předmět)
Anglický název: An introduction to R scripting language Zajišťuje: Ústav biofyziky a informatiky 1. LF UK v Praze (11-00170) Fakulta: 1. lékařská fakulta Platnost: od 2019 do 2019 Semestr: letní Body: 3 E-Kredity: 3 Způsob provedení zkoušky: letní s.: Rozsah, examinace: letní s.:0/30 Z [hodiny/semestr] Rozsah za akademický rok: 30 [hodiny] Počet míst: 25 Minimální obsazenost: 2 Stav předmětu: vyučován Jazyk výuky: čeština Způsob výuky: prezenční Odpovědný učitel, speciální požadavky: lubomir.stepanek@lf1.cuni.cz Poznámka: předmět pro jiné fakulty volitelný předmět povolen pro zápis po webu |