Table Of ContentPolitecnico di Milano
Scuola di Ingegneria Industriale e dell’Informazione
Corso di Laurea Magistrale in Ingegneria Matematica
Un modello multistato bayesiano per l’analisi
dei tempi di permanenza in università degli
allievi ingegneri del Politecnico di Milano
Relatore: Dott.ssa Ilenia EPIFANI
Correlatore: Prof. Maurizio VERRI
Tesi di Laurea Magistrale di:
Elisabetta ROSSI Matr. 786970
Anno Accademico 2014-2015
Sommario
In questa tesi ci siamo occupati dello studio dei tempi di permanenza al Poli-
tecnicodiMilanodegliimmatricolatipurineglianniaccademicitrail2001/02
eil2013/14,sullabasedeidatifornitidall’AreaServiziICT(ASICT),aggior-
nati al 19/06/2015. L’analisi esplorativa dei dati ha riguardato l’intero cam-
pione, invece per l’analisi inferenziale abbiamo escluso le ultime due coorti.
Abbiamo implementato un modello gerarchico multistato bayesiano a rischi
proporzionali di Cox, con dati censurati a destra e funzione di rischio baseline
costante a tratti: la gerarchia è dovuta all’introduzione di effetti aleatori che
permettono di descrivere l’eterogeneità dei tassi di rischio associati a diversi
corsi di studio e anni di immatricolazione. In breve, il modello considera,
per ogni immatricolato al Politecnico negli AA considerati, i seguenti pos-
sibili stati: attivo, laurea e abbandono. Lo stato di attivo rappresenta la
condizione iniziale di ogni studente, mentre laurea e abbandono sono model-
lati come stati assorbenti del sistema. Secondo la terminologia propria della
survival analysis, laurea e abbandono sono gli eventi di interesse e il tempo
che intercorre tra la prima iscrizione all’università e l’occorrenza di uno dei
due eventi è la durata o tempo di permanenza in ateneo. In particolare, la
permanenza degli studenti ancora attivi è un tempo censurato a destra. Nel
modello sono stati inglobati sia fattori di rischio locali, quali sesso, rendi-
mento universitario al primo anno e loro interazione, sia globali, quali tipo
di test di ammissione e ordinamento in vigore nell’anno di immatricolazione.
Tali fattori sono invarianti nel tempo, per cui i tassi di rischio di studenti
con caratteristiche diverse sono fra loro proporzionali e le relative curve di
sopravvivenza non hanno intersezioni. L’analisi statistica segue un’imposta-
zione bayesiana, secondo cui i parametri incogniti e gli effetti aleatori sono
variabili casuali con una legge assegnata a priori. In particolare, abbiamo
scelto per tutti i parametri incogniti prior diffuse, e quindi non informative,
ma proprie. Abbiamo testato il modello soltanto su un campione casuale di
2370 unità dei 47038 immatricolati (corrispondenti al 5%), che mantenesse
inalterata la composizione di studenti attivi, laureati, abbandoni e imma-
tricolati per AA. Le procedure di stima basate sul campione ridotto hanno
impiegato circa 55 ore su una macchina con CPU Intel Core i7 (3930K) a
3.20 GHz, 6 core e 12 thread, con 16 GB di RAM. I risultati ottenuti possono
essere sintetizzati come segue. Sesso e rendimento universitario sono i fattori
che maggiormente incidono sui rischi di laurea e abbandono: i maschi non
solo hanno la tendenza a conseguire il titolo in tempi più lunghi rispetto alle
femmine, ma anche a ritirarsi più tardi, mentre un buon profitto scolastico
ii
incentiva il raggiungimento del traguardo e dissuade dall’abbandono. Per
contro, l’introduzione del test d’ingresso on line e il cambio di ordinamento
hanno incrementato il rischio di abbandono. Infine, il modello coglie differen-
ze significative fra i tempi di permanenza in ateneo dei vari corsi di studio:
gli Ingegneri Gestionali sembrano avere la propensione a laurearsi prima, gli
Edili conseguono il titolo tardi e i Biomedici hanno tempi di abbandono an-
ticipati rispetto ad Aerospaziali, Meccanici e Civili, che tendono a stazionare
a lungo al Politecnico prima di laurearsi o abbandonare.
Keywords: Bayesian inference; Censored data; Competing risks model;
Cox proportional hazards model; Dropout; Duration of studies; Hierarchical
centring; Kaplan-Meier estimator; Lifetime-type educational data; Log-rank
test; Markov chain Monte Carlo methods; Multistate model; Random effect;
Survival analysis; Unobserved heterogeneity.
Indice
Indice iii
Introduzione 1
1 Analisi descrittiva 9
1.1 Le variabili . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.2 Analisi esplorativa unidimensionale . . . . . . . . . . . . . . . 14
1.2.1 Corso di studi . . . . . . . . . . . . . . . . . . . . . . . 17
1.2.2 Rendimento universitario . . . . . . . . . . . . . . . . . 18
1.2.3 Tempo di permanenza . . . . . . . . . . . . . . . . . . 21
1.3 Analisi esplorativa congiunta . . . . . . . . . . . . . . . . . . . 23
2 Modello multistato bayesiano 37
2.1 Il modello Cox Proportional Hazards . . . . . . . . . . . . . . 37
2.2 Modello multistato di Cox . . . . . . . . . . . . . . . . . . . . 41
2.2.1 Richiami sulla verosimiglianza di un modello PH con
un solo stato finale . . . . . . . . . . . . . . . . . . . . 49
2.2.2 Rappresentazione di Poisson della verosimiglianza del
modello multistato di Cox . . . . . . . . . . . . . . . . 51
2.3 Stima bayesiana . . . . . . . . . . . . . . . . . . . . . . . . . . 53
2.3.1 Specificazione delle leggi iniziali per λ , λ . . . . . . . 54
L A
2.3.2 Specificazione delle leggi iniziali per β , β . . . . . . . 55
L A
2.3.3 Specificazione delle leggi iniziali per α˜ , α˜ . . . . . . . 58
L A
2.3.4 Specificazione delle leggi iniziali per γ . . . . . . . . . . 59
2.3.5 Specificazione della legge iniziale per Jee P . . . . . . 60
L
3 Risultati 61
3.1 Stime a posteriori di λ , λ . . . . . . . . . . . . . . . . . . . 62
L A
3.1.1 Stime a posteriori dell’iperparametro λ∗ . . . . . . . . 66
3.2 Stime a posteriori di β , β . . . . . . . . . . . . . . . . . . . 68
L A
3.2.1 Stime a posteriori degli iperparametri µ∗, τ . . . . . . . 74
iii
iv Indice
3.3 Stime a posteriori di α , α . . . . . . . . . . . . . . . . . . . 76
L A
3.3.1 Stime a posteriori di τ . . . . . . . . . . . . . . . . . . 78
α
3.4 Stime a posteriori di γ . . . . . . . . . . . . . . . . . . . . . . 80
3.4.1 Stime a posteriori di σ2 . . . . . . . . . . . . . . . . . . 81
γ
3.5 Stime a posteriori di P . . . . . . . . . . . . . . . . . . . . . 83
L
3.6 Stima a posteriori dei tempi attesi di laurea e abbandono . . . 84
3.7 Stima a posteriori della funzione di sopravvivenza . . . . . . . 89
3.8 Stime a confronto per due campioni distinti . . . . . . . . . . 93
4 Conclusioni 97
4.1 Problemi aperti . . . . . . . . . . . . . . . . . . . . . . . . . . 103
A Analisi di sopravvivenza non parametrica 105
A.1 Curve di sopravvivenza di Kaplan-Meier . . . . . . . . . . . . 105
A.2 Log-rank test . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
A.3 Grafici delle curve di sopravvivenza . . . . . . . . . . . . . . . 109
B Diagnostiche di convergenza delle catene MCMC 119
C Codice JAGS 127
Bibliografia 135
Introduzione
Questa tesi si occupa dello studio dei tempi di permanenza al Politecnico
di Milano degli immatricolati puri negli anni accademici (AA) tra il 2001/02
e il 2013/14. Per “immatricolato puro” si intende uno studente immatricolato
per la prima volta al Sistema Universitario Nazionale; si escludono, quindi,
gli allievi precedentemente immatricolati al Sistema Universitario Nazionale
che ora si trovano ad immatricolarsi presso il Politecnico.
I dati di cui si dispone, forniti dall’Area Servizi ICT (ASICT) in data
19/06/2015, sono di tipo cross-section: fissato un preciso istante (la data
di riferimento per l’analisi), si considerano le informazioni raccolte fino ad
allora per allievi distinti, senza monitorare come variano nel tempo le ca-
ratteristiche di ogni singolo individuo. In generale, modelli cross-sectional
sono in grado di spiegare come i livelli di determinate variabili influiscano su
una variabile oggetto di studio (nel nostro caso la durata del percorso uni-
versitario), mentre i modelli longitudinali (in inglese event-history models)
permettono di valutare le transizioni individuali da uno stato al successivo,
per esempio dal momento in cui un allievo è ancora iscritto al momento in
cui finisce di esserlo. Per un approfondimento sull’utilizzo di tecniche lon-
gitudinali si rimanda a DesJardinis e altri [1999]; Kalamatianou e McClean
[2003].
Per quanto riguarda la struttura del nostro dataset, le unità statistiche
sono gli studenti, che possono essere raggruppati a vari livelli, per esempio
in base al sesso, all’anno di immatricolazione, al corso di laurea scelto o
ancora possono essere classificati in termini del loro “stato accademico”, co-
me laureati, abbandoni o studenti attivi. Quest’ultimo raggruppamento, in
particolare, è il cardine su cui ruota il nostro studio, che può essere inscrit-
to in un contesto di analisi di sopravvivenza (in inglese survival analysis),
tipicamente usato per modellare dati relativi a durate e tempi di vita.
L’analisidisopravvivenzahaavutoorigineinambitomedico, mahacono-
sciuto un notevole sviluppo in numerosi altri settori, da quello ingegneristico
alle scienze sociali. Tuttavia, a nostra conoscenza, sono limitate le applica-
zioni della survival analysis al ramo dell’istruzione, per lo studio dei tempi di
1
2 Introduzione
abbandono (o della durata necessaria per conseguire un titolo) degli studenti
iscritti a un istituto di scuola superiore o a un corso universitario.
L’analisi della distribuzione del tempo necessario a completare la carrie-
ra di studi è interessante per le seguenti ragioni: la frequenza delle lauree
senza ritardi è un potenziale indicatore della performance del sistema sco-
lastico/universitario (quanto meno è efficiente il sistema, tanto più lunghi
saranno i tempi medi per il raggiungimento del diploma o della laurea); inol-
tre, maggiore è la durata degli studi, maggiori saranno i costi. In aggiunta,
conoscere il numero di diplomati/laureati per ogni periodo di tempo è utile
per fare previsione sul futuro reclutamento di manodopera nell’industria.
Tra i principali autori che usano metodi di analisi di sopravvivenza per la
stimadeitempidilaurea, KalamatianoueMcClean[2003]sviluppanomodel-
li, parametrici e non, per descrivere la distribuzione della durata degli studi
di 10313 immatricolati in un’università greca durante i dieci anni accademici
consecutivi dal 1983/84 al 1992/93. Tale durata ha una soglia inferiore, al
di sopra della quale gli studenti possono ritardare a laurearsi senza limiti di
tempo: una rilevante proporzione di allievi impiega, per conseguire il titolo,
un tempo di gran lunga superiore al minimo necessario. Sembra, addirittu-
ra, che alcuni siano perennemente iscritti, tanto da venire definiti “studenti
perpetui”. Il fenomeno dello “studente perpetuo” può essere spiegato dal
cambiamento delle condizioni del mercato del lavoro: i laureati, in numero
sempre crescente, hanno difficoltà a trovare un’occupazione nel settore in cui
si sono specializzati, di conseguenza la prospettiva di ottenere una laurea non
è allettante come in passato. Il modello parametrico proposto dagli autori
risulta adeguato a descrivere la distribuzione empirica dei tempi di laurea;
inoltre, si rileva una differenza significativa tra la durata degli studi di allievi
di sesso maschile e femminile.
Anche le motivazioni alla base dell’interesse per il fenomeno degli ab-
bandoni sono molteplici: in primis, il fatto di non completare il percorso di
studi ha un impatto negativo a livello sociale, poiché gli studenti che si riti-
rano tendono a guadagnare meno di chi consegue il titolo, oltre ad essere più
esposti, proprio a causa del loro minore grado di istruzione, al rischio di di-
soccupazione e alla necessità di ricevere un sussidio da parte dello stato. Ma
le ripercussioni sono anche a livello istituzionale, dato che un calo nel numero
di iscritti porta alla perdita di finanziamenti per l’ateneo, e a livello personale
e intergenerazionale, in quanto la qualità degli studi dei genitori incide sulla
percezione che un allievo ha del proprio stato socio-economico e può influire
sul rischio di abbandonare la scuola. Diventa, allora, di primaria importan-
za comprendere quali fattori possano spiegare la decisione di ritirarsi. Da
Introduzione 3
un punto di vista modellistico, tali fattori sono variabili esplicative indipen-
denti, mentre il periodo compreso tra l’immatricolazione e l’abbandono è la
variabile dipendente.
DesJardinis e altri [1999] sviluppano un modello longitudinale per descri-
vere la dinamica degli abbandoni al college, basandosi sulla seguente assun-
zione: gli allievi che si ritirano dal college corrispondono a dati esatti, quelli
che concludono con successo il loro percorso di studi sono censurati al tempo
in cui conseguono il diploma, quelli che risultano ancora iscritti nell’ultimo
periodo di osservazione sono censurati “a destra” (in inglese right censored).
Lo scopo dello studio di DesJardinis e altri [1999] è individuare i tempi in
cui gli studenti sono maggiormente a rischio di lasciare il college, in modo
da rendere possibili efficienti strategie di intervento, volte a ridurre i costi
sociali, istituzionali e individuali associati all’abbandono precoce del college.
Min e altri [2011] indagano l’impatto di coorte, sesso, etnia e punteggio
del test d’ingresso (SAT) in matematica e comprensione verbale sul tasso di
abbandono di studenti di Ingegneria, per verificare se il profilo di rischio cam-
bi fra gruppi con diversa estrazione e per comprendere quanto sia probabile
che gli allievi si ritirino e quale punteggio del SAT meglio predica tale eve-
nienza. Min e altri [2011] dispongono di dati longitudinali relativi a 100179
studenti di Ingegneria di 9 università degli Stati Uniti, su un arco temporale
di 19 anni; il metodo da loro adottato consiste in un’analisi di sopravvivenza
classica, al fine di ottenere stime della funzione di sopravvivenza e del tasso
di rischio associato. Dall’analisi risulta che studenti bianchi o di sesso femmi-
nile tendono ad abbandonare Ingegneria prima degli altri. Gli abbandoni si
concentrano in larga parte nel terzo semestre, ma gli allievi con un punteggio
di matematica al SAT inferiore a 550 si ritirano anticipatamente, durante
il secondo semestre. Per quanto riguarda il SAT, il punteggio in matemati-
ca è un miglior predittore del rischio di abbandono rispetto al punteggio in
comprensione verbale.
Restaino [2008] si focalizza sull’analisi non parametrica dei tempi di ab-
bandono degli immatricolati all’Università di Salerno nell’anno accademico
2002/03, seguiti per 5 anni (fino all’AA 2006/07), con l’obiettivo di stimare
la probabilità di sopravvivenza in ateneo e individuare quali caratteristiche
personali, familiari e sociali possano indurre a interrompere la carriera ac-
cademica. Lo studio rivela un forte calo delle iscrizioni al primo anno per
le facoltà di Scienze Politiche e della Formazione. Inoltre, studenti di ses-
so femminile, provenienti da un liceo e usciti dalla scuola superiore con il
massimo dei voti hanno la più alta probabilità di sopravvivere in università
e, quindi, di laurearsi. La stima di Restaino [2008] si basa sul metodo di
Kaplan-Meier e il log-rank test riscontra differenze significative tra le varie
facoltà. Infine, il modello a rischi proporzionali di Cox, implementato per
4 Introduzione
ogni facoltà, conferma i precedenti risultati.
Il caso degli abbandoni in Italia è stato di recente affrontato anche da
Belloc e altri [2010], che analizzano il tasso di abbandono nella facoltà di
Economia e Commercio dell’Università Sapienza di Roma, usando dati am-
ministrativi su 9725 studenti, immatricolati fra il 2001 e il 2007 a un pro-
gramma di laurea triennale. A questi dati Belloc e altri [2010] applicano
un modello lineare generalizzato a effetti misti (GLM), focalizzandosi sulle
caratteristiche personali degli allievi piuttosto che sugli aspetti istituziona-
li dell’università, con lo scopo di comprendere a fondo i motivi per cui gli
studenti si ritirano. L’analisi empirica rivela un effetto statisticamente signi-
ficativo per le variabili cittadinanza e reddito; inoltre, lega un’elevata proba-
bilitàdiabbandonoalvotodimaturitàeadunascarsaprestazionescolastica.
In questo lavoro ci proponiamo di trattare congiuntamente gli eventi lau-
rea e abbandono, che rappresentano due stati competitivi, poiché concorrono
a determinare il punto di arrivo di ogni immatricolato al Politecnico. Infatti,
uno studente attivo può coronare gli anni di studio con una laurea oppure
interrompere il percorso universitario ritirandosi in modo definitivo. Per te-
nere conto di entrambi i possibili esiti del percorso accademico adottiamo un
“modello multistato”, nella fattispecie a due stati mutuamente esclusivi.
L’interesse metodologico e applicativo nei modelli multistate e competing
risks è testimoniato dalla letteratura recente sull’argomento. Per esempio,
Burda e altri [2015] sviluppano e generalizzano modelli econometrici baye-
siani a rischi competitivi con dati censurati, introducendo una funzione di
rischio baseline costante a tratti, regressori tempo-varianti, effetti aleatori a
livello di individuo, specifici per ogni rischio, e un effetto latente comune, che
induce correlazione tra i rischi. Il modello di Burda e altri [2015] è appli-
cato a dati relativi a individui statunitensi che beneficiano di un’indennità
di disoccupazione. Costoro possono trovare lavoro nello stesso settore in cui
erano precedentemente occupati (evento 1) oppure in uno diverso (evento 2).
Lo scopo dell’indagine è individuare i fattori che determinano la durata del
periodo di disoccupazione, che si conclude con uno dei due sopracitati eventi.
L’applicazione di modelli multistato trova terreno fertile in vari campi di
ricerca. Per esempio, Epifani e altri [2014] adottano un modello multistato
bayesiano per fare inferenza sulle caratteristiche dei terremoti negli appenni-
ni dell’Italia centro-settentrionale. I dati sperimentali osservati sono il tempo
che intercorre tra due terremoti consecutivi e lo stato visitato dal processo,
che si identifica con il livello di severità di ogni terremoto della sequenza
campionaria. Si distinguono 3 stati (livello di severità basso, medio, alto) e
si assume che, condizionatamente alla transizione fra due determinati stati,
gli “inter-tempi” di occorrenza siano distribuiti secondo una legge di Wei-
Description:aj1. = dj1. = 0. • ajk. = (dj(k−1). + djk. )/2 k = 2,,Kj. • aj(Kj +1). = djKj. + (djKj. − dj(Kj −1). )/2 . tempo esatto coincide con un aj (vedi costruzione aj).