Popraw to lub przedyskutuj rzeczy do sprawdzenia . Jeśli właśnie umieściłeś baner, wskaż tutaj punkty do sprawdzenia .
Regresja liniowaNatura | Regresja ( d ) |
---|---|
Podklasa | Regresja |
Wynalazca | Francis Galton |
W statystyce , ekonometrii i uczeniu maszynowym model regresji liniowej to model regresji, który ma na celu ustalenie liniowej zależności między zmienną, zwaną wyjaśnioną, a jedną lub większą liczbą zmiennych, zwaną objaśniającą.
Jest również określany jako model liniowy lub model regresji liniowej .
Spośród modeli regresji liniowej najprostszym jest dopasowanie afiniczne . Polega to na znalezieniu prostej umożliwiającej wyjaśnienie zachowania zmiennej statystycznej y jako funkcji afinicznej innej zmiennej statystycznej x .
Ogólnie rzecz biorąc, model regresji liniowej oznacza model, w którym warunkowe oczekiwanie, że y zna x, jest afiniczną funkcją parametrów. Możemy jednak również rozważyć modele, w których jest to warunkowa mediana y znającej x lub dowolny kwantyl rozkładu y znający x, który jest funkcją afiniczną parametrów.
Model regresji liniowej jest często szacowany metodą najmniejszych kwadratów, ale istnieje również wiele innych metod szacowania tego modelu. Możemy na przykład oszacować model według największego prawdopodobieństwa lub wnioskowania bayesowskiego .
Chociaż często są przedstawiane razem, model liniowy i metoda najmniejszych kwadratów to nie to samo. Model liniowy odnosi się do klasy modeli, które można oszacować za pomocą wielu metod, a metoda najmniejszych kwadratów odnosi się do metody szacowania. Może służyć do szacowania różnych typów modeli.
Ruđer Josip Bošković był pierwszym naukowcem, który obliczył współczynniki regresji liniowej w latach 1755-1757, kiedy postanowił zmierzyć długość pięciu południków Ziemi poprzez zminimalizowanie sumy wartości bezwzględnych. Pierre-Simon de Laplace używa tej metody do pomiaru południków w „O zmierzonych stopniach południków i na długościach obserwowanych na wahadle” w 1789 r. Pierwsze zastosowanie metody najmniejszych kwadratów przypisuje się Adrien-Marie Legendre w 1805 lub Carlowi Friedrichowi Gaussowi, który mówi, że używał go od 1795 roku.
Carl Friedrich Gauss wykazał w 1821 r. Twierdzenie znane dziś pod nazwą twierdzenie Gaussa-Markowa, które wyraża w określonych warunkach jakość estymatorów; Andriej Markow odkrył go ponownie w 1900 roku.
Ojcostwo wyrażenia „regresja liniowa” należy do Francisa Galtona, który w artykule z 1886 r. Zwraca uwagę na zjawisko „regresji w kierunku średniej” wielkości synów według wielkości ojców.
Później kolinearność zmiennych objaśniających stała się ważnym tematem badawczym. W 1970 roku Arthur E. Hoerl i Robert W. Kennard zaproponowali regresję pseudoortogonalną (regresja grzbietowa ), jedną z metod estymacji zaprojektowanych do kompensacji współliniowości pewnych zmiennych objaśniających poprzez nałożenie ograniczeń na współczynniki.
Metoda lassa ( regresja lassa ), mająca ten sam cel przy użyciu analogicznej techniki, została stworzona w 1996 roku przez Roberta Tibshirani .
W przypadku metod regresji składowej (regresja częściowa najmniejszych kwadratów (PLS) i regresja głównych składowych ) algorytmy szukają niezależnych zmiennych objaśniających związanych ze zmiennymi początkowymi, a następnie szacują współczynniki regresji dla nowych zmiennych.
Podobnie jak inne regresyjnych modeli , liniowy model regresji jest wykorzystywane także dążyć do przewidzenia zjawiska jak starać się je wyjaśnić.
Po oszacowaniu modelu regresji liniowej możemy przewidzieć, jaki byłby poziom y dla poszczególnych wartości x .
Umożliwia również oszacowanie wpływu jednej lub większej liczby zmiennych na inną poprzez sterowanie zestawem czynników. Na przykład w dziedzinie nauk o wychowaniu możemy ocenić wpływ wielkości klasy na wyniki w nauce dzieci, kontrolując społeczno-zawodową kategorię rodziców lub położenie geograficzne placówki. Przy pewnych restrykcyjnych założeniach efekt ten można uznać za skutek przyczynowy.
W uczeniu statystycznym metoda regresji liniowej jest uważana za metodę uczenia się nadzorowanego , używaną do przewidywania zmiennej ilościowej.
W tej perspektywie generalnie trenujemy model na próbce uczącej, a następnie testujemy predykcyjną wydajność modelu na próbce testowej.
Istnieją głównie trzy rodzaje notacji.
Prosta notacja (lub skalarna)Rozważamy model dla indywidualnego i . Dla każdej osoby wyjaśniona zmienna jest zapisywana jako funkcja liniowa zmiennych objaśniających.
gdzie y i oraz x i , j są ustalone, a ε i reprezentuje błąd.
Notacja wektorowaNotacja wektorowa jest podobna do notacji prostej, ale do syntezy notacji używana jest notacja wektorowa. Ten zapis jest przydatny, gdy istnieje duża liczba zmiennych objaśniających. Definiujemy β wektor parametrów modelu i x i ' wektor zmiennych objaśniających dla indywidualnego i . Model jest następnie przepisywany w następujący sposób:
Notacja macierzowaWreszcie, często napotykamy również notację macierzową. Tutaj piszemy model dla każdej z n osób obecnych w próbie. Model jest następnie zapisywany:
z
Model liniowy jest używany w wielu dziedzinach dyscyplinarnych. Skutkuje to dużą różnorodnością terminologii. Rozważ następujący model:
Zmienna T nazywany jest zmienną zależną , zmienną zależną , zmienna zależna lub odpowiedzi . Zmienne X nazywane są zmienne objaśniające , zmienną niezależną , zmiennych egzogenicznych lub predykcyjnych . ε nazywa się składnikiem błędu lub zaburzeniem .
Generalnie oznaczamy wektor szacowanych parametrów. Określamy przewidywaną wartość lub regulowana i pozostałości , jako różnica między obserwowaną wartość, a wartość przewidywana: .
Definiujemy również sumę kwadratów reszt (SCR) jako sumę wszystkich obserwacji kwadratów reszt:
Prosty model liniowy jest ogólnie nazywany modelem regresji liniowej z jedną zmienną objaśniającą. Model ten jest często prezentowany w podręcznikach statystyki dla celów edukacyjnych, pod tytułem precyzyjnego dostosowania .
Mamy zatem dwie zmienne losowe, zmienną wyjaśnianą Y , która jest skalarem, zmienną objaśniającą X , również skalarną. Mamy n realizacji tych zmiennych, ( x i ) 1 ≤ i ≤ n oraz ( y i ) 1 ≤ i ≤ n , czyli:
gdzie ε i jest składnikiem błędu; każdy sam składnik błędu jest realizacją zmiennej losowej E i .
Linia regresjiW prostym modelu liniowym możemy wykreślić zależność między x i y poprzez chmurę punktów . Estymacja modelu liniowego umożliwia narysowanie linii regresji, równania . Parametr β 0 oznacza osią y i p 1 o współczynnik kierujące linii.
W przeciwieństwie do prostego modelu regresji liniowej, definiujemy model wielokrotnej regresji liniowej jako dowolny model regresji liniowej z co najmniej dwiema zmiennymi objaśniającymi.
Założenia Gaussa-Markowa i założenia normalności gwarantują szczególnie interesujące właściwości estymatorów współczynników regresji. Założenia można wyrazić różnie w zależności od tego, czy jest to regresja prosta czy wielokrotna liniowa, czy też są to wartości stałe (np. Jednostka czasu), czy próbka wartości zmiennej , losowo.
Założenie to zakłada, że żadna ze zmiennych objaśniających modelu nie może być zapisana jako liniowa kombinacja innych zmiennych. Stanowi to odwracalna z x i „ w transponowaniem wektora x I w zapisie wektorowym i odwracalny z X ” w transponowaniem macierzy X macierzy oznaczenie. Warunek ten często wyraża się faktem, że macierz X ma najwyższą rangę .
Ε 1 , ε 2 , ... ε n są niezależne.
W związku z tym składniki błędu nie są ze sobą skorelowane. Formalnie . To założenie jest często naruszane w przypadku szeregów czasowych, w których często mówi się, że błędy są autokorelowane .
Mówimy, że zmienne objaśniające są egzogeniczne, jeśli nie są skorelowane ze składnikiem błędu. Co zauważamy, w przypadku, gdy zmienna objaśniająca jest losowa, w notacji wektorowej i notacji macierzowej, gdzie . Oznacza to, że błędy są wyśrodkowane. Jeśli zmienne X są stałe, zostanie to odnotowane .
Zakłada się, że składniki błędu mają stałą wariancję, co przekłada się, jeśli zachodzi poprzednia hipoteza, na to, czy X jest zmienną losową, czy zbiorem zmiennych losowych, i przez co innego.
Jeśli dwie poprzednie hipotezy zostaną zweryfikowane, możemy zapisać to w postaci macierzowej:
w I N macierz jednostkowa o rozmiarze n .
Silniejsza hipoteza niż pierwsza polega na stwierdzeniu, że składniki błędu mają rozkład normalny, wyśrodkowany, wariancji σ 2, tj. W notacji wektorowej i macierzowej .
Należy zauważyć, że jeśli hipoteza niekolinearności nie zostanie zweryfikowana, oszacowanie modelu jest niemożliwe (wymagałoby odwrócenia macierzy osobliwej), podczas gdy dla wszystkich innych hipotez estymacja jest możliwa, ale daje estymator obciążony i / lub nieefektywny ( z nie-minimalną wariancją), ale są możliwe korekty. Normalność błędów nie jest ze swej strony obowiązkowa, ale umożliwia uzyskanie dobrych właściwości.
Model liniowy można oszacować metodą największej wiarygodności , metodą najmniejszych kwadratów , metodą momentów lub metodami bayesowskimi .
Metoda najmniejszych kwadratów jest bardzo popularna i bardzo często prezentowana w modelu liniowym.
W najbardziej standardowym przypadku, w którym składniki błędu są niezależne i mają identyczny rozkład (iid), zwykły estymator najmniejszych kwadratów jest najbardziej efektywnym z liniowych nieobciążonych estymatorów ( twierdzenie Gaussa-Markowa ).
Gdy nie wszystkie składniki błędu mają taką samą wariancję i / lub są skorelowane, stosuje się uogólnioną metodę najmniejszych kwadratów lub quasi-uogólnioną metodę najmniejszych kwadratów.
Zwykły estymator najmniejszych kwadratówPrzy założeniach Gaussa i Markowa model można oszacować zwykłą metodą najmniejszych kwadratów . Zwykły estymator najmniejszych kwadratów można zapisać:
w postaci wektorowej lub
w formie macierzy.
Zgodnie z twierdzeniem Gaussa-Markowa , zwykły estymator najmniejszych kwadratów jest najlepszym nieobciążonym estymatorem liniowym wektora współczynników β .
Przy założeniu normalności składników błędu estymator najmniejszych kwadratów jest jednocześnie estymatorem największej wiarygodności.
Zastosowanie w przypadku prostego modelu regresji liniowejZwykły estymator najmniejszych kwadratów jest rozwiązaniem programu minimalizującego sumę kwadratów odchyleń między wartościami przewidywanymi a wartościami obserwowanymi w odniesieniu do dwóch parametrów β 0 i β 1 (β 0 to y- punkt przecięcia z osią i β 1 jest nachyleniem linii regresji):
Problem dopuszcza analityczne rozwiązanie, które uzyskuje się, zauważając, że skoro funkcja S (β 0 , β 1 ) jest różniczkowalna, minimum S jest punktem, w którym jej gradient zanika. Mamy :
z empiryczną średnią x i i empiryczną średnią y i .
Wynik możemy również wyrazić następująco:
Estymacja uogólnionego i quasi-uogólnionego modelu najmniejszych kwadratówJeśli oznaczymy przez Σ macierz wariancji-kowariancji wektora zaburzenia ε , możemy zdefiniować uogólniony estymator najmniejszych kwadratów :
Uogólniony estymator najmniejszych kwadratów zakłada, że znamy macierz wariancji-kowariancji składników błędów. Zwykle ta macierz jest nieznana i sama musi zostać oszacowana. W tym przypadku mówimy wtedy o quasi-uogólnionym estymatorze najmniejszych kwadratów .
Aby ocenić jakość prognozy , można zastosować różne kryteria.
Przede wszystkim pamiętaj, że:
Możemy wtedy zdefiniować współczynnik determinacji ( R 2 ) jako stosunek między sumą kwadratów odchyleń od średniej wartości przewidywanych przez regresję i sumą kwadratów odchyleń od całkowitej średniej:
Współczynnik determinacji waha się od 0 do 1. Gdy jest bliski 0, moc predykcyjna modelu jest słaba, a gdy jest bliska 1, moc predykcyjna modelu jest silna.
Test Fishera umożliwia sprawdzenie statystycznej istotności wszelkich liniowych ograniczeń współczynników regresji.
W szczególności test Fishera umożliwia przeprowadzenie wspólnego testu nieważności wszystkich parametrów.
W tym przypadku testujemy hipotezę
wbrew hipotezie
W tym przypadku możemy pokazać, że statystyka testu jest napisana:
F statystyka testowa następuje prawo Fisher parametrów ( K , n - K -1).
Test studenta służy do sprawdzenia, czy jeden z parametrów jest równy określonej wartości. W szczególności umożliwia sprawdzenie nieważności każdego z parametrów.
Test Chowa służy do testowania stabilności współczynników modelu między dwiema podpróbkami próbki danych. Jest to aplikacja testu Fishera .
Test Durbina-Watsona służy do testowania autokorelacji składników błędów.
Test Breuscha-Pagana umożliwia sprawdzenie hipotezy homoskedastyczności.
Celem regresji jest ustalenie rozkładu y = ƒ ( x ). Po oszacowaniu tego prawa postaramy się przewidzieć wartość y dla danej wartości x ; oznaczamy przez y * tę szacowaną wartość,
Dlatego musimy podać przedział ufności dla tej wartości y *. Na to pytanie możemy udzielić dwóch różnych odpowiedzi.
Wartość y * ma być oczekiwaniem zmiennej losowej Y ( x ) w danym punkcie x : jeśli wykonamy powiedzmy 1000 pomiarów Y, to średnia E (Y ( x )) tych wartości powinna wynosić y *. Możemy zatem zadać sobie pytanie, z jaką dokładnością ΔE (Y ( x )) szacujemy E (Y ( x )). Dla danego ryzyka α możemy wyznaczyć przedział, w którym E (Y ( x )) ma α % kłamstwa, jest dany przez [ y * - ΔE (Y ( x )); y * + ΔE (Y ( x ))].
Mamy :
gdzie t jest prawem Studenta z n - 2 stopniami swobody dla ryzyka α . Kiedy x się zmienia, granice przedziału ufności opisują hiperbolę.
Drugie pytanie brzmi: z jednej miary Y ( x ), która będzie różna od y *; jaki jest przedział ufności Δ y dla danego ryzyka α ? Szukamy odpowiedzi postaci: mamy α szanse, że zmierzona y jest w przedziale [ y * - Δ y ; y * + Δ y ].
Jeśli x jest bliskie x , tj. Jeśli ( x - x ) 2 jest pomijalne w porównaniu z ∑ ( x i - x ) 2 , i jeśli n jest duże, tj. Jeśli 1 / n jest pomijalne przed 1, to mamy przedział ufności
Przy tych założeniach widzimy, że Δ y jest stałe, to znaczy, że mamy pasmo ufności równoległe do linii regresji.
Dokładne wyrażenie to
Widzimy, że ten przedział rośnie, gdy oddalamy się od x . Pokazuje to w szczególności, że ekstrapolacja , czyli fakt posługiwania się prawem znajdującym się poza domeną punktów doświadczalnych [ x 1 ; x n ] (przy założeniu, że odcięte sklasyfikowano w kolejności rosnącej), wiąże się z ryzykiem statystycznym.
Niektóre równania nie są bezpośrednio liniowe, ale można je zlinearyzować. Dzieje się tak zwłaszcza w przypadku wielomianów. Regresji wielomianowej się stosując regresję liniową, w danym przypadku z wielomianem. Zatem następujący model: jest również modelem liniowym i można go oszacować standardową metodą.
Możemy również obliczyć warunki interakcji między zmiennymi, aby złagodzić hipotezę addytywności modelu liniowego. Na przykład, jeśli postawimy następujący model: możemy wzbogacić ten model poprzez dodanie terminu interakcji między x i i z i . Model wygląda zatem następująco: W tym nowym modelu efekt zmiennej x i jest tym silniejszy, im większa jest wartość z i .
Jeżeli założenie o egzogeniczności zmiennych objaśniających nie zostanie zweryfikowane, estymator najmniejszych kwadratów prowadzi do błędnego oszacowania parametrów modelu. W tym przypadku możemy skorzystać z metody zmiennych instrumentalnych.
Zmienną instrumentalną nazywamy zmienną z, która ma wpływ na zmienne objaśniające podejrzewane o endogenność, ale nie jest skorelowana ze składnikiem błędu.
Często jest wektor zmiennych instrumentalne oo I i macierz zmiennych instrumentalnej Z .
Wektor zmiennych instrumentalnych z i jest dobrym zbiorem instrumentów wtedy i tylko wtedy, gdy z i jest egzogeniczne ( i jeśli macierz jest odwracalna (warunek rangi).
AplikacjeBardzo często stosowany w ekonometrii instrumentalny model zmiennych jest również wykorzystywany w politologii.
OszacowanieModel liniowy ze zmiennymi instrumentalnymi można estymować metodą podwójnych najmniejszych kwadratów, metodą momentów uogólnionych , estymatorem Walda lub metodą funkcji kontrolnych .
Metoda podwójnych najmniejszych kwadratówModel ten można oszacować metodą najmniejszych kwadratów i w tym przypadku otrzymujemy: .
Hierarchicznego modelu liniowego lub wielopoziomowy model liniowy jest model, w którym znajdują się co najmniej dwa poziomy obserwacji, na przykład regionu osoby i w którym pozwolimy współczynniki zmieniać. Na przykład następujący model jest hierarchicznym modelem liniowym .
Standardowy model liniowy to modelowanie warunkowego oczekiwania zmiennej będącej przedmiotem zainteresowania y i . Możemy również modelować medianę warunkową lub dowolny inny kwantyl rozkładu warunkowego. Jest to liniowy model regresji kwantylowej opracowany w szczególności przez Rogera Koenkera .
Wartość odstającą definiuje się jako obserwację, w przypadku której różnica między wartością przewidywaną a obserwowaną wartością zmiennej będącej przedmiotem zainteresowania jest szczególnie wysoka. Wartości odstające można zidentyfikować graficznie na chmurze punktów reprezentujących przewidywane wartości na odciętej i reszty na rzędnej.
Możemy również zbadać reszty, dzieląc reszty przez ich odchylenie standardowe. Obserwacje, których studentyzowana reszta jest większa niż 3, można uznać za wartości odstające.
Metoda mediana-medianaMetoda mediany-mediany jest metodą opracowaną przez Johna Tukeya w 1971 roku i stanowi solidną metodę wykonywania regresji liniowej. Metoda najmniejszych kwadratów wykorzystuje kwadrat odchylenia i dlatego też duży wpływ na nią mają wartości odstające, podczas gdy metoda Tukeya wykorzystuje mediany , na które same wartości odstające mają niewielki wpływ.
Uogólniony model liniowy jest rozszerzeniem modelu liniowego, w którym stawiamy . Ta klasa modeli obejmuje model liniowy, model regresji logistycznej , ten model probitowy , w modelu Poissona , etc. Został opracowany przez Nelder i Wedderburn 1972 i spopularyzowany w książce McCullagh and Nelder 1989 .
Uogólniony wzór dodatek jest model regresji półparametrowym który zachowuje addytywność modelem liniowym, bez nakładania jakiegokolwiek ograniczenia w stosunku między sobą zmienne objaśniające i wyjaśnione zmienny.
Rozkład Blindera-Oaxaca to metoda statystyczna, której celem jest określenie wpływu cech obserwowalnych i nieobserwowalnych w celu wyjaśnienia różnic między dwiema grupami (na przykład różnice w wynagrodzeniach kobiet i mężczyzn). W wersji standardowej metoda ta opiera się na estymacji regresji liniowej.
Poniżej rozważamy pozostałość na rzędnej, resztę „pionową”. To założenie jest istotne, jeśli wartości x są znane bez błędu lub przynajmniej jeśli wariancja na X jest mniejsza niż wariancja na Y.
W przeciwnym przypadku pozostałość można rozpatrywać na odciętej, „poziomej”. Model jest wtedy linią równania
x = β ' 1 y + β' 0 .Po prostu odwracamy osie X i Y i znajdujemy symetrycznie:
W ogólnym przypadku ta linia różni się od poprzedniej. Przechodzi również przez środek ciężkości.
Jeśli chcemy zredukować do równania y = ƒ ( x )
y = β 1 x + β 0po prostu zapytaj
Jeśli błędy na x i na y są tego samego rzędu wielkości, wtedy bardziej odpowiednie jest wykonanie „regresji ortogonalnej” lub „regresji geometrycznej”: dla każdego punktu doświadczalnego i , rozpatrywanym błędem d i jest odległość wskazują na linię modelu, czyli odległość wziętą prostopadle do prostej - stąd termin ortogonalny.
Zawsze bierzemy pod uwagę metodę najmniejszych kwadratów, która jest wtedy nazywana „całkowitą metodą najmniejszych kwadratów” (MCT):
S = ∑ d i 2 .Mamy wtedy:
(linia regresji nadal przechodzi przez środek barycentrum chmury punktów) z:
Jeśli narzucimy β 0 = 0, otrzymamy:
.Minimalna suma kwadratów reszt wynosi:
. DemonstracjaWięc mamy
Ponieważ każdy z warunków jest dodatni, każdy z nich należy zminimalizować. Mamy
jest
.Ta definicja jest podobna do równania kwadratowego w β 1 . Możemy zapisać jego kanoniczną formę :
W ten sposób stwierdzamy, że minimum uzyskuje się za i jest warte
Odnośnie drugiego terminu:
w związku z tym
dlatego minimum u 2 wynosi 0, CQFD.
Mamy :
więc jeśli o to poprosimy
mamy
-1 ≤ r ≤ 1.Parametr r nazywany jest współczynnikiem korelacji . Mamy wtedy
S = n var (Y) (1 - r 2 )Zmienne X i Y są tym lepiej skorelowane, gdy | r | jest blisko 1; suma S jest wtedy bliska 0. Jeżeli r = 0, suma S jest maksimum, a zmienne nie są skorelowane, tj. model liniowy nie jest istotny.
Granica między „dobrą” i „złą” korelacją, czyli odpowiedź na pytanie „Czy model liniowy jest istotny?” Nie jest uniwersalna. W dziedzinie, w której pomiar jest dokładny, a zjawiska stabilne, możemy oszacować, że dane są silnie skorelowane, jeśli | r | ≥ 0,95. W dziedzinach, w których pomiar jest mniej dokładny, a zwłaszcza w naukach humanistycznych, czasami będziemy zadowoleni z | r | ≥ 3/4 (tj. R 2 ≥ 0,56).
Pewna liczba zjawisk - fizycznych, biologicznych, ekonomicznych itp. - może być modelowana przez prawo afiniczne , takie jak:
Parametry tego prawa, czyli współczynniki a i , pozwalają scharakteryzować zjawisko. Dlatego wykonujemy pomiary, to znaczy określamy n '+ 1 -ułamków ( x 1 , ..., x n , y ).
Pomiar jest zawsze skażone błędem . To właśnie ten błąd „tworzy” resztę r : każdy n '+ 1 -tuplet j dostarcza równanie
Regresja liniowa umożliwia wyznaczenie parametrów modelu, zmniejszając wpływ błędu.
Na przykład w elektryczności pasywny dipol ( rezystancja ) jest zgodny z prawem Ohma :
lub, aby wznowić poprzedni zapis,Mierząc kilka wartości momentu obrotowego ( U , I ) , rezystancję R można określić metodą regresji.
Model liniowy jest szeroko stosowany w ekonometrii . Jest prezentowany w wielu podręcznikach do ekonometrii.
W swoim podręczniku Colin Cameron i Pravin Trivedi podają przykład mierzenia zwrotów z edukacji. Staramy się ocenić wpływ dodatkowego roku nauki na wynagrodzenie, jakie jednostka uzyskuje na rynku pracy. W tym celu często zapisuje się dziennik wynagrodzeń jako liniową funkcję liczby lat nauki i szeregu obserwowalnych czynników mających potencjalny wpływ na wynagrodzenie, na przykład liczby lat nauki. rynek, bycie kobietą itp. W takim przypadku model można następnie zapisać:
z wag I wynagrodzenia indywidualnego I , edukacja i liczba lat nauki indywidualnej I , doświadczenie I liczby lat doświadczenia na rynku pracy indywidualnej I , kobieta i zmienna wskaźnik równy 1 jeśli i jest kobietą i 0 w innym przypadku oraz u i zmienną losową reprezentującą zbiór zmiennych nieobserwowanych w danych, która może wyjaśnić wynagrodzenie osoby i. W literaturze ekonomicznej jest wiele przykładów:
Andrew Gelman i Gary King używają modelu liniowego do oszacowania przewagi osób zasiedziałych w wyborach do Izby Reprezentantów w USA .
We Francji analiza wyborów na szczeblu krajowym i lokalnym z 1993 r. I 1997 r. Przeprowadzona przez Jeana Chiche za pomocą regresji liniowej pokazuje, że umiarkowany efekt prawego wahadła - PS nie jest jasno określony, w przeciwieństwie do tego, co można by pomyśleć o wynikach. Miały miejsce transfery głosu z umiarkowanej lewej strony do komputera iz umiarkowanej prawej strony do skrajnej prawej (i odwrotnie).
Podobnie Bernard Dolez wyjaśnia wybory europejskie w 1999 r. Kilkakrotnie używając wielokrotnej regresji liniowej.
Analizuje się europejską strukturę społeczną, np. Stosując regresję liniową między odchyleniem standardowym poziomu dochodów a poziomem wykształcenia.
Patrick Peretti-Watel stosuje regresję liniową do oceny samooceny na podstawie poziomu zażywania konopi indyjskich, wieku i płci.
Alain Degenne , Marie-Odile Lebeaux i Catherine Marry stosują wielokrotną regresję liniową.
Philippe Guimard, Olivier Cosnefroy i Agnès Florin analizują ocenę uczniów szkół podstawowych przez nauczycieli, wykorzystując model liniowy, aby ocenić moc predykcyjną tych ocen.
Badanie opadów w funkcji wysokości w Alpach Północnych przeprowadzone przez C. Castellani pokazuje liniowe zależności istniejące między tymi dwoma wielkościami na różnych stanowiskach. Nicole Commerçon używa modelu liniowego kilka razy, aby opisać obecność drugich domów w Mâconnais.
W geostatystyce Yann Richard i Christine Tobelem Zanin używają wielokrotnej regresji liniowej do opisu regionalizacji handlu między Rosją a Unią Europejską.
Prawdziwa część musi mieć wady w porównaniu z planem, jego idealną wersją. Jednak prostoliniowość i orientacja krawędzi, płaskość i orientacja twarzy mogą być ważne, na przykład, jeśli dotyczy to kontaktu z innymi częściami.
Aby określić ilościowo defekty, można dokonać odczytu punktowego metodą znaną jako metrologia współrzędnościowa . Otrzymujemy zatem zbiór współrzędnych ( x i , y i , z i ). Współrzędne te mogą również pochodzić z obliczenia odkształcenia przez elementy skończone : mamy rzekomo idealną strukturę, która odkształca się elastycznie pod wpływem obciążeń i chcemy sprawdzić, czy to odkształcenie pozostaje zgodne z funkcją konstrukcji.
W przypadku krawędzi regresja liniowa umożliwia uzyskanie średniego kierunku krawędzi, a tym samym sprawdzenie, czy kierunek ten jest wystarczająco bliski kierunku idealnemu, oraz ilościowe określenie odchyleń prostoliniowości. Podobnie w przypadku ściany regresja liniowa umożliwia określenie średniej płaszczyzny, a tym samym sprawdzenie, czy jej orientacja jest wystarczająco bliska orientacji idealnej, oraz ilościowe określenie stanu powierzchni (R A ).
W niektórych przypadkach regresja liniowa może być użyta do dopasowania modelu nieliniowego poprzez zmianę zmiennej. Na przykład, jeśli mamy model paraboliczny
wystarczy rozważyć i przeprowadzić regresję na ( x ' , y ). Na przykład, gdy interesuje nas wysokotemperaturowe utlenianie metalu tworzącego tlenek ochronny, badania teoretyczne przewidują, że przyrost masy ma zachowanie paraboliczne w funkcji czasu ( prawo utleniania Wagnera ), Δ m α √ t . Ten przyrost masy można zmierzyć termograwimetrią , ale system mierzący bardzo małe zmiany masy (rzędu mikrograma) jest bardzo wrażliwy na zakłócenia, które generują szum. Regresja liniowa z x = √ t i y = Δ m umożliwia scharakteryzowanie kinetyki utleniania.
W rzeczywistości dla potęgi w x - to znaczy w postaci y α x n, gdzie n jest liczbą rzeczywistą - możemy ustawić x ' = x n . A jeszcze bardziej ogólnie, jeśli model zawiera elementarną funkcję ƒ we wzorze afinicznym
y = a + b ƒ ( x )możemy wtedy zmienić zmienną x ' = ƒ ( x ), aby miała relację afiniczną
y = a + b · x ' .Czasami możemy zlinearyzować tę zależność za pomocą diagramu logarytmicznego :
jeśli y = ax n , to ln ( y ) = ln ( a ) + n ln ( x )dlatego zmiana zmiennej x ' = ln ( x ) i y' = ln ( y ) daje relację afiniczną
y ' = a' + n · x ' .Transformacja może być bardziej złożona. Na przykład, jeśli zmienna losowa ma rozkład normalny , parametry rozkładu można określić metodą regresji liniowej przy użyciu metody linii Henry'ego .
Jeśli zmienna losowa jest zgodna z prawem Weibulla , możemy wrócić do diagramu liniowego z odczytów prawdopodobieństwa y = P ( x ):
regresja liniowa umożliwia zatem wyznaczenie wartości k i λ.
W niektórych przypadkach można linearyzować, umieszczając się w przestrzeni o wyższym wymiarze. Jeśli jesteśmy w dwuwymiarowej przestrzeni ( x , y ) i chcemy dopasować model wielomianowy stopnia n ,
ƒ a 0 , a 1 ,…, a n ( x ) = a 0 + a 1 x +… + a n x nmożemy zdefiniować zmienne
x i = x ii wykonaj regresję za pomocą modelu liniowego, gdzie zmienną objaśniającą jest wektor ( x 1 ,…, x n ):
g a 0 , a 1 ,…, a n ( x 1 ,…, x n ) = a 0 + a 1 x 1 +… + a n x n .Podobnie, jeśli model jest kołem, równanie kartezjańskie
( x - x c ) 2 + ( y - y c ) 2 = r 2 ;możemy zdefiniować zmienne
y 1 = x 2 + y 2 ; x 1 = x ; x 2 = y ;i wykonaj regresję za pomocą modelu liniowego, gdzie zmienną wyjaśnianą jest y 1, a zmienną objaśniającą jest wektor ( x 1 , x 2 ):
ƒ a 0 , a 1 , a 2 ( x 1 , x 2 ) = a 0 + a 1 x 1 + a 2 x 2i wydedukować x c , y c i r z
a 1 = 2 x c ; a 2 = 2 y c ; a 0 = r 2 - x c 2 - y c 2 .Chociaż wykonaliśmy regresję metodą najmniejszych kwadratów w przestrzeni ( x 1 , x 2 , y 1 ), nie mamy wyniku, który uzyskalibyśmy stosując regresję metodą najmniejszych kwadratów. Kwadraty w przestrzeni ( x , y ).
Rozważmy teraz pozycje podniesione na kuli; mogą to być lokalizacje geograficzne, ale punkt kuli odniesienia (wyśrodkowany na początku układu współrzędnych i o promieniu 1) może być również użyty do przedstawienia orientacji (patrz Współrzędne sferyczne> Użycie ). Regresja w tych punktach oczywiście nie jest liniowa.
W rzucie gnomonicznym wielki okrąg ( wielki okrąg ) jest reprezentowany przez linię prostą. Jeśli chcemy znaleźć „najlepsze wielkie koło” dla zbioru punktów - na przykład znaleźć orbitę satelity, który musi przelecieć nad zbiorem miejsc tak blisko, jak to możliwe - możemy zatem przeprowadzić regresję liniową na reprezentacji gnomonicznej .