Corso di Laurea in Scienze e Tecnologie Biomolecolari

Corso integrato in Management di Laboratorio
Presidente: Prof.ssa Ida Giardino

Modulo di Bioinformatica (SSD ING-INF/05)
(Programma ufficiale di insegnamento)


Anno accademico: 2017/2018 - Anno di erogazione: 2019-2020
- III anno II semestre (5 CFU, 40 ore)

Prof. Crescenzio Gallo

Prof. Crescenzio GALLO


Prerequisiti

Concetti statistici fondamentali. Buona conoscenza di un ambiente di elaborazione e dei tool software foglio elettronico e database.

Modalità di erogazione

Lezioni frontali; case study; esercitazioni applicative in laboratorio.

Obiettivi formativi e risultati attesi

Il corso si propone l'obiettivo di introdurre gli allievi all'analisi e modellizzazione dei dati secondo l'approccio "data mining" e fornire competenze per l'elaborazione dei dati mediante strumenti software open-source.
Gli allievi dovranno acquisire la capacità di individuare i dati rilevanti in un studio, impostare i modelli di elaborazione, implementare e testare gli algoritmi di Machine Learning/Data Mining utilizzando i corretti tool software.

Contenuti

Raccolta e presentazione dei dati per l'analisi. Il modello del data mining. Modelli ed algoritmi di classificazione supervisionata e non supervisionata. La valutazione della performance predittiva dei modelli. Il tool Open Source di analisi dei dati Orange con applicazioni alla Bioinformatica. Il software open source R con applicazioni alla Bioinformatica.

Testi consigliati


Articoli

Programma dettagliato

Link utili



A V V I S O

IL DOCENTE RICEVE "A DISTANZA" 
GLI STUDENTI PER QUALSIASI ESIGENZA DIDATTICA TRAMITE LE MODALITA` DI 
INTERAZIONE ILLUSTRATE NELLA PAGINA DEL Tutorato.
  • Il Corso avrà inizio Mercoledì 25 Marzo alle ore 9 in modalità e-learning a distanza, e proseguirà in tale modalità sino alla lezione del 30/04/2020.
  • L'eventuale ripresa delle lezioni in aula dal 6/05/2020 sarà comunicato in base alle determinazioni prese dall'Ateneo e dai Dipartimenti: in caso di mancata comunicazione, le lezioni proseguiranno online sulla piattaforma di e-learning.
  • Gli studenti possono fare riferimento a questa pagina web (http://www.crescenziogallo.it/unifg/medicina/STBM/BINF/2019-2020/) per scaricare il materiale didattico man mano che sarà reso disponibile durante il Corso.
  • Per qualsiasi esigenza il docente è contattabile via mail o Hangouts all'indirizzo crescenzio.gallo@unifg.it
  • In aggiunta alla piattaforma di e-learning di Ateneo sulla quale si terranno le lezioni online a distanza (http://elearning.unifg.it), gli studenti del Corso possono anche partecipare interattivamente alle lezioni tramite Skype mediante il seguente link.
  • Gli studenti sono invitati a prendere visione e possibilmente aderire al progetto Folding@Home della Stanford University: i dettgli sono illustrati in questo documento.
  • Si avvisano gli interessati che il malfunzionamento del widget GEO che non riesce più a leggere i Data Sets di NCBI Gene Expression Omnibus è semplicemente dovuto alla versione recente di Orange. Basta installare la versione 3.24.1 e tutto dovrebbe funzionare perfettamente.


Calendario delle lezioni (II semestre)

Data
Orario
N.ore Argomento
Videolezioni
25/03/2020
e-learning
9:00
11:30
3
Lezione 1 -- Presentazione del corso. La biostatistica.
Video 1 (47'04")
Video 2
(47'57")
Video 3
(29'53")
26/03/2020
e-learning
9:00
11:30
3
Lezione 2 -- Introduzione al Machine Learning (esempio video). Esplorazione dati e pre-processing. Video 4 (65'10")
Video 5
(11'10")
Video 6 (54'59")
02/04/2020
e-learning
9:00
11:30
3
Lezione 3 -- Classificazione supervisionata e non supervisionata. Video 7 (44'52")
Video 8 (50'18")
03/04/2020
e-learning
9:00
11:30
3
Lezione 4 -- Orange: Introduzione - Caricamento dati - Visualizzazione dati interattiva - Programmazione visuale - Elenco completo dei Widget - Esempio di widget (regressione polinomiale)
Video 9 (61'29")
Video 10 (48'39")
15/04/2020
e-learning
9:00
11:30
3
Lezione 5 -- Machine learning con Orange: I widget File e Data Table - Esempio di visualizzazione interattiva - Visualizzazione di subset - Clustering gerarchico: esempio 1 | esempio 2 - Clustering k-Means - Pivot table - PCA - Feature ranking - Cross-validation - Misclassification - Silhouette plot
Video 11 (87'09")
Video 12 (49'52")
22/04/2020
e-learning
9:00 11:30 3 Lezione 6 -- Reti Neurali Artificiali: concetti base, approfondimenti. Video 14 (54'59")
23/04/2020
e-learning
9:00
11:30
3
Lezione 7 -- Orange Bioinformatics: Databases Update - GEO Data Sets (vedi AVVISO) - dictyExpress - Genes - Differential Expression - GO Browser - KEGG Pathways - Gene Set Enrichment - Cluster Analysis - Marker Genes - Annotator - Line Plot - Biotutorial (dataset "chemogenomics" e "yeast-interactions")
Video 13 (22'46")
29/04/2020
e-learning
9:00
11:30
3
Lezione 8 -- Il linguaggio R: introduzione. Video 15 (51'34")
Video 16 (50'01")
30/04/2020
e-learning
9:00
11:30
3
Lezione 9 -- Uso di R per il Machine Learning e la Bioinformatica (testo "Bioinformatica con R"). Video 17 (33'36")
06/05/2020 9:00
11:30
3
Lezione 10 -- Applicazioni di R per la Bioinformatica: accesso alle banche dati biologiche, analisi di sequenze. Video 18 (31'32")
Video 19 (37'58")
Video 20 (20'57")
Video 21 (49'25")
07/05/2020 9:00
11:30
3
Lezione 11 -- Applicazioni di R per la Bioinformatica:allineamento a coppie e allineamenti multipli; alberi filogenetici.
Video 22 (63'10")
Video 23 (29'23")
Video 24 (45'55")
Video 25 (35'56")
13/05/2020 9:00
11:30
3
Lezione 12 -- Applicazioni di R per la Bioinformatica: gene-finding computazionale; modelli multinomiali di evoluzione genica, Hidden Markov Models.
Video 26 (49'46")
Video 27 (38'42")
14/05/2020 9:00
11:30
3
Lezione 13 -- Applicazioni di R per la Bioinformatica: analisi strutturale delle proteine (grafi di interazione proteica; estrazione di caratteristiche delle proteine; ricerca BLAST; visualizzazione delle strutture proteiche); analisi di dati da microarray (lettura dei file CEL; controllo della qualità dei dati da microarray; il fold change nei geni differenzialmente espressi; clustering e visualizzazione di network di dati).
Video 28 (50'21")
Video 29 (56'26")
Video 30 (47'59")
Video 31 (63'22")
18/05/2020 9:00
9:50
1
Lezione 14 -- Applicazioni di R per la Bioinformatica: analisi dei dati di spettrometria di massa (MS). Il Machine Learning in R (clustering, classificazione, cross-validation, identificazione di biomarcatori).
Video 32 (41'46")
Video 33 (34'15")


Calendario degli esami (modalità orale su piattaforma https://elearning.unifg.it)

Avvertenze