Il coefficiente di determinazione è definito come la proporzione della varianza totale della variabile spiegata dalla regressione. Il coefficiente di determinazione, chiamato anche R-squared, riflette la bontà di adattamento di un modello alla variabile che sta cercando di spiegare
È importante sapere che il risultato del coefficiente di determinazione è compreso tra 0 e 1. Più è vicino a 1, maggiore è l’adattamento del modello alla variabile che stiamo cercando di spiegare. Al contrario, più si avvicina allo zero, meno il modello sarà regolato e, quindi, meno affidabile.
Nell’espressione precedente abbiamo una frazione. Quindi, passiamo alle parti. Per prima cosa, analizzeremo il numeratore, cioè la parte superiore.
Per coloro che non conoscono l’espressione della varianza, vi consiglio di leggere l’articolo sulla varianza. Per chi lo conosce, potrà vedere che è l’espressione della varianza, ma con due differenze fondamentali.
La prima differenza è che la Y porta un circonflesso o, quello che gli insegnanti chiamano in modo didattico, “cappellino”. Questo piccolo cappello dettaglia che la Y è la stima di un modello su ciò che, secondo le variabili esplicative, Y vale, ma non è il valore reale di Y, ma una stima di Y.
In secondo luogo, manca la divisione per T. Che, in altri casi, viene indicata come N o numero di osservazioni. Tuttavia, poiché anche la formula del denominatore la porterebbe, eliminiamo i denominatori (parte inferiore) di entrambe le formule per semplificare l’espressione. In questo modo è più facile lavorarci.
Successivamente, eseguiremo la stessa analisi con la parte del denominatore (in basso).
In questo caso, l’unica differenza rispetto alla formula originale della varianza è l’assenza del suo denominatore. Cioè non dividiamo per T o N. Fatto, che abbiamo già chiarito. Quindi, una volta spiegate le due parti dell’espressione generica del quadrato R o coefficiente di determinazione, vedremo un esempio:
Interpretazione del coefficiente di determinazione
Diciamo che vogliamo spiegare il numero di gol segnati da Cristiano Ronaldo in base al numero di partite che gioca. Partiamo dal presupposto che più partite gioca, più gol segna. I dati appartengono alle ultime 8 stagioni. Quindi, dopo aver estratto i dati, il modello fornisce la seguente stima:
Come si può vedere dal grafico, il rapporto è positivo. Più partite si giocano, naturalmente, più gol si segnano nella stagione. La regolazione, secondo il calcolo del quadrato R, è di 0,835. Ciò significa che si tratta di un modello le cui stime si adattano abbastanza bene alla variabile reale. Anche se tecnicamente non sarebbe corretto, potremmo dire qualcosa del genere che il modello spiega l’83,5% alla variabile reale.
Il problema del coefficiente di determinazione
Il problema del coefficiente di determinazione, e la ragione per cui sorge il coefficiente di determinazione corretto, è che non penalizza l’inclusione di variabili esplicative non significative. Cioè, se al modello si aggiungono cinque variabili esplicative che hanno poco rapporto con i gol segnati da Cristiano Ronaldo in una stagione, il quadrato R aumenterà. Ecco perché molti esperti di economia, statistica e matematica si oppongono all’uso del quadrato R come misura della bontà dell’aggiustamento reale.
Il coefficiente di determinazione corretto
Il coefficiente di determinazione rettificato (quadrato R rettificato) è la misura che definisce la percentuale spiegata dalla varianza della regressione rispetto alla varianza della variabile spiegata. Cioè lo stesso di R-squared, ma con una differenza. Questa differenza si riscontra nel fatto che il coefficiente di determinazione rettificato penalizza l’inclusione delle variabili.
Come abbiamo detto prima, il coefficiente di determinazione di un modello aumenta anche se le variabili che includiamo non sono rilevanti. Poiché questo è un problema, per cercare di risolverlo il quadrato R regolato è tale che:
Dove N è la dimensione del campione e k il numero di variabili esplicative. Per deduzione matematica, più alto è il valore di k, più lontano sarà il quadrato R aggiustato rispetto al normale quadrato R. Al contrario, più basso è il valore di k, più la frazione centrale sarà vicina a 1, e quindi più vicino sarà il quadrato R regolato e il quadrato R normale.
Ricordando che k è il numero di variabili esplicative, si deduce che non può essere zero. Se fosse zero, non ci sarebbe nessun modello. Almeno dovremo spiegare una variabile in termini di un’altra variabile. Poiché k deve essere almeno 1, il quadrato R regolato e il quadrato R normale non possono avere lo stesso valore. Inoltre, il quadrato R modificato sarà sempre inferiore al quadrato R normale.