Cos'è la semplice regressione lineare?
La regressione lineare semplice si applica alle statistiche e aiuta a descrivere i dati (x, y) che sembra avere una relazione lineare, consentendo una previsione di y se x è nota. Questi dati sono spesso tracciati su grafici a dispersione e la formula per la regressione lineare crea una linea che si adatta meglio a tutti i punti, a condizione che abbiano veramente una correlazione lineare. Non si adatterà esattamente a tutti i punti, ma dovrebbe essere una linea in cui la somma dei quadrati della differenza tra dati effettivi e dati previsti (residui) crea il numero più basso, che è spesso chiamato linea dei minimi quadrati o linea di meglio. L'equazione della riga per i dati di esempio e i dati della popolazione sono le seguenti: ŷ = b 0 + b 1 x e y = b 0 + b 1 x.
Chiunque abbia familiarità con l'algebra può notare la somiglianza di questa linea a y = mx + b, e in effetti i due sono relativamente identici, tranne i due termini sul lato destro dell'equazione, in modo che b 1 sia uguale a slope o m. Il motivo di questo riarrangiamento è che diventa quindi elegantemente facile aggiungere termini aggiuntivi con funzionalità come esponenti che potrebbero descrivere diverse forme di relazione non lineari.
Le formule per ottenere una semplice linea di regressione lineare sono relativamente complesse e ingombranti e la maggior parte delle persone non trascorre molto tempo a scriverli perché impiegano molto tempo a completare. Invece, vari programmi, come per Excel® o per molti tipi di calcolatori scientifici, possono facilmente calcolare una linea dei minimi quadrati. La linea è appropriata per la previsione solo se vi è una chiara evidenza di una forte correlazione tra gli insiemi di dati (x, y). Un calcolatore genererà una linea, indipendentemente dal fatto che abbia senso usarla.
Allo stesso tempo viene generata una semplice equazione della linea di regressione lineare, le persone devono esaminare il livello di correlazione. Ciò significa valutare r, il correnoCoefficiente di azione, contro una tabella di valori per determinare se esiste una correlazione lineare. Inoltre, valutare i dati tracciandoli come un diagramma a dispersione è un buon modo per avere un senso se i dati hanno una relazione lineare.
Cosa può quindi essere fatto con una semplice linea di regressione lineare, a condizione che abbia una correlazione lineare, è che i valori possono essere sostituiti in X, per ottenere un valore previsto per ŷ. Questa previsione ha i suoi limiti. I dati presenti, in particolare se si tratta solo di un campione, possono avere una correlazione lineare ora, ma potrebbero non essere in seguito aggiunti con materiale campione aggiuntivo.
In alternativa, un intero campione può condividere una correlazione mentre un'intera popolazione no. La previsione è quindi limitata e andare ben oltre i valori dei dati disponibili è chiamato estrapolazione e non è incoraggiata. Inoltre, le persone dovrebbero sapere che se non esiste alcuna correlazione lineare, la migliore stima di X è la media di tutti i dati Y.
Essenzialmente, una semplice regressione lineare è una T statistica utileOOL che può, con discrezione, essere utilizzato per prevedere i valori ŷ in base a un valore x. Viene quasi sempre insegnato con l'idea di correlazione lineare poiché determinare l'utilità di una linea di regressione richiede l'analisi di R. Fortunatamente con molti moderni programmi tecnici, le persone possono graficamente i grafici a dispersione, aggiungere linee di regressione e determinare il coefficiente di correlazione R con un paio di voci.