Sposoby obliczania wariancji

Autor: Robert Simon
Data Utworzenia: 21 Czerwiec 2021
Data Aktualizacji: 1 Lipiec 2024
Anonim
How To Calculate Variance
Wideo: How To Calculate Variance

Zawartość

Wariancja mierzy rozproszenie zbioru danych. Jest to bardzo przydatne w budowaniu modeli statystycznych: niska wariancja może wskazywać, że opisujesz przypadkowy błąd lub szum, zamiast podstawowej relacji w danych. W tym artykule wikiHow nauczy Cię, jak obliczać wariancję.

Kroki

Metoda 1 z 2: Oblicz wariancję próbki

  1. Napisz przykładowy zestaw danych. W większości przypadków statystycy mają informacje tylko o próbie lub podzbiorze badanej populacji. Na przykład, zamiast przeprowadzać ogólną analizę „kosztu wszystkich samochodów w Niemczech”, statystyk może znaleźć koszt losowej próbki kilku tysięcy samochodów. Statystyk może wykorzystać tę próbkę, aby uzyskać dobre oszacowanie kosztów samochodów w Niemczech. Jednak jest bardziej prawdopodobne, że nie będzie dokładnie odpowiadać faktycznym liczbom.
    • Na przykład: Analizując liczbę babeczek sprzedawanych dziennie w kawiarni, wziąłeś losową sześciodniową próbkę i otrzymałeś następujące wyniki: 38, 37, 36, 28, 18, 14, 12, 11, 10,7, 9,9. To jest próbka, a nie populacja, ponieważ nie masz danych na każdy dzień otwarcia sklepu.
    • Gdyby każdy Punkty danych w module głównym, przejdź do metody poniżej.

  2. Zapisz przykładową formułę wariancji. Wariancja zbioru danych wskazuje stopień rozproszenia punktów danych. Im bliżej zera jest wariancja, tym bliżej pogrupowane są punkty danych. Podczas pracy z przykładowymi zestawami danych do obliczenia wariancji należy użyć następującego wzoru:
    • = /(n - 1)
    • jest wariancja. Wariancja jest zawsze obliczana w jednostkach do kwadratu.
    • reprezentuje wartość w zestawie danych.
    • ∑, co oznacza „sumę”, mówi, aby obliczyć następujące parametry dla każdej wartości, a następnie zsumować je.
    • x̅ jest średnią z próby.
    • n to liczba punktów danych.

  3. Obliczyć średnią z próbki. Symbol x̅ lub „x poziomo” jest używany do wskazania średniej próbki. Oblicz tak, jak każdą średnią: zsumuj wszystkie punkty danych i podziel je przez liczbę punktów.
    • Na przykład: Najpierw zsumuj punkty danych: 17 + 15 + 23 + 7 + 9 + 13 = 84
      Następnie podziel wynik przez liczbę punktów danych, w tym przypadku sześć: 84 ÷ 6 = 14.
      Próbka średnia = x̅ = 14.
    • Możesz myśleć o średniej jako o „centralnym punkcie” danych. Jeśli dane są wyśrodkowane wokół średniej, wariancja jest niska. Jeśli są rozproszone daleko od średniej, wariancja jest wysoka.

  4. Odejmij średnią z każdego punktu danych. Teraz jest czas na obliczenie - x̅, gdzie znajduje się każdy punkt w zestawie danych. Każdy wynik będzie wskazywał na odchylenie od średniej każdego odpowiadającego mu punktu, lub po prostu, odległość od niego do średniej.
    • Na przykład:
      - x̅ = 17 - 14 = 3
      - x̅ = 15 - 14 = 1
      - x̅ = 23 - 14 = 9
      - x̅ = 7 - 14 = -7
      - x̅ = 9 - 14 = -5
      - x̅ = 13 - 14 = -1
    • Bardzo łatwo jest sprawdzić swoje obliczenia, ponieważ wyniki muszą sumować się do zera, ponieważ przez średnią ze średniej są wyniki ujemne (odległość od średniej do małych liczb). pozytywne wyniki (odległość od średnich do większych liczb) są całkowicie wyeliminowane.
  5. Kwadrat wszystkie wyniki. Jak wspomniano powyżej, bieżąca lista odchyleń (- x̅) ma sumę zerową, co oznacza, że ​​„średnie odchylenie” również zawsze będzie wynosić zero i nic nie można powiedzieć o rozproszeniu danych. Aby rozwiązać ten problem, znajdujemy kwadrat każdego odchylenia. W rezultacie wszystkie są liczbami dodatnimi, wartościami ujemnymi i dodatnimi nie znoszą się już wzajemnie i dają sumę zero.
    • Na przykład:
      (- x̅)
      - x̅)
      9 = 81
      (-7) = 49
      (-5) = 25
      (-1) = 1
    • Masz teraz (- x̅) dla każdego punktu danych w próbce.
  6. Znajdź sumę kwadratów wartości. Teraz jest czas na obliczenie całego licznika wzoru: ∑. Duże cyklo ∑ wymaga dodania następującej wartości elementu dla każdej wartości. Obliczyłeś (- x̅) dla każdej wartości w próbce, więc wszystko, co musisz zrobić, to po prostu zsumować wyniki.
    • Na przykład: 9 + 1 + 81 + 49 + 25 + 1 = 166.
  7. Podziel przez n - 1, gdzie n to liczba punktów danych. Dawno temu podczas obliczania wariancji próby statystycy dzielili tylko przez n. Ten podział da ci średnią kwadratowego odchylenia, które dokładnie odpowiada wariancji tej próbki. Należy jednak pamiętać, że próbka jest tylko szacunkiem dla większej populacji. Jeśli weźmiesz inną losową próbkę i wykonasz te same obliczenia, otrzymasz inny wynik. Jak się okazuje, dzielenie przez n -1 zamiast n daje lepsze oszacowanie wariancji większej populacji - na czym naprawdę Ci zależy. Ta poprawka jest tak powszechna, że ​​jest obecnie akceptowaną definicją wariancji próby.
    • Na przykład: Próbka zawiera sześć punktów danych, więc n = 6.
      Przykładowa wariancja = 33,2
  8. Zrozum wariancję i odchylenie standardowe. Zauważ, że ponieważ formuła zawiera potęgi, wariancja jest mierzona w kwadracie jednostek oryginalnych danych. To jest wizualnie zagmatwane. Zamiast tego często odchylenie standardowe jest całkiem przydatne. Ale nie ma sensu marnować wysiłku, ponieważ odchylenie standardowe jest określane przez pierwiastek kwadratowy z wariancji. Dlatego wariancja próbki jest zapisywana w kategoriach, a odchylenie standardowe próbki to.
    • Na przykład odchylenie standardowe powyższej próbki = s = √33,2 = 5,76.
    Reklama

Metoda 2 z 2: Oblicz wariancję populacji

  1. Począwszy od podstawowego zestawu danych. Termin „populacja” jest używany w odniesieniu do wszystkich istotnych obserwacji. Na przykład, jeśli badasz wiek mieszkańców Hanoi, Twoja ogólna populacja będzie obejmować wiek wszystkich osób mieszkających w Hanoi. Zwykle tworzysz arkusz kalkulacyjny dla dużego zestawu danych, takiego jak ten, ale oto mniejszy przykładowy zestaw danych:
    • Na przykład: W pomieszczeniu akwarium znajduje się dokładnie sześć akwariów. Te sześć zbiorników zawiera następujące liczby ryb:





  2. Zapisz wzór na ogólną wariancję. Ponieważ populacja zawiera wszystkie potrzebne dane, ten wzór podaje dokładną wariancję populacji. Aby odróżnić ją od wariancji próby (która jest tylko szacunkiem), statystycy używają innych zmiennych:
    • σ = /n
    • σ = wariancja próbki. To jest normalnie kwadratowa kiełbasa. Wariancja jest mierzona w jednostkach do kwadratu.
    • reprezentuje element w Twoim zestawie danych.
    • Element ∑ jest obliczany dla każdej wartości, a następnie sumowany.
    • μ to ogólna średnia.
    • n to liczba punktów danych w populacji.
  3. Znajdź średnią populacji. Podczas analizy populacji symbol μ („mu”) przedstawia średnią arytmetyczną. Aby znaleźć średnią, zsumuj wszystkie punkty danych, a następnie podziel przez liczbę punktów.
    • Możesz myśleć o średniej jako o „średniej”, ale bądź ostrożny, ponieważ słowo to ma wiele definicji matematycznych.
    • Na przykład: wartość średnia = μ = = 10,5
  4. Odejmij średnią z każdego punktu danych. Punkty danych bliżej średniej mają różnicę bliższą zeru. Powtórz problem odejmowania dla wszystkich punktów danych, a prawdopodobnie zaczniesz odczuwać rozproszenie danych.
    • Na przykład:
      - μ = 5 – 10,5 = -5,5
      - μ = 5 – 10,5 = -5,5
      - μ = 8 – 10,5 = -2,5
      - μ = 12 - 10., = 1,5
      - μ = 15 – 10,5 = 4,5
      - μ = 18 – 10,5 = 7,5
  5. Kwadrat każdy znak. W tym momencie niektóre wyniki uzyskane w poprzednim kroku będą ujemne, a inne pozytywne.Jeśli wizualizujesz dane na linii izomorficznej, te dwa elementy reprezentują liczby po lewej i prawej stronie średniej. Nie byłoby to przydatne przy obliczaniu wariancji, ponieważ te dwie grupy znosiłyby się nawzajem. Zamiast tego wyrównaj je wszystkie, aby wszystkie były pozytywne.
    • Na przykład:
      (- μ) dla każdej wartości ja kursuje od 1 do 6:
      (-5,5) = 30,25
      (-5,5) = 30,25
      (-2,5) = 6,25
      (1,5) = 2,25
      (4,5) = 20,25
      (7,5) = 56,25
  6. Znajdź średnią swoich wyników. Masz teraz wartość dla każdego punktu danych, związaną (nie bezpośrednio) z tym, jak daleko ten punkt danych znajduje się od średniej. Średnia przez dodanie ich do siebie i podzielenie przez liczbę posiadanych wartości.
    • Na przykład:
      Ogólna wariancja = 24,25
  7. Skontaktuj się z receptą. Jeśli nie jesteś pewien, jak to pasuje do wzoru przedstawionego na początku metody, zapisz cały problem odręcznie, nie skracając:
    • Po znalezieniu różnicy od średniej i podniesienia do kwadratu, otrzymujesz (- μ), (- μ) i tak dalej, aż (- μ), gdzie jest końcowym punktem danych. w zbiorze danych.
    • Aby znaleźć średnią z tych wartości, dodaj je do siebie i podziel przez n: ((- μ) + (- μ) + ... + (- μ)) / n
    • Po przepisaniu licznika z notacją sigmoidalną masz /n, wariancja formuły.
    Reklama

Rada

  • Ponieważ wariancja jest trudna do zinterpretowania, wartość ta jest często obliczana jako punkt wyjścia do znalezienia odchylenia standardowego.
  • Użycie „n-1” zamiast „n” w mianowniku to technika zwana korekcją Bessela. Próbka jest tylko oszacowaniem całej populacji, a średnia próbki ma pewien błąd, aby dopasować się do tego oszacowania. Ta korekta eliminuje powyższe odchylenie. Chodzi o to, że po wyliczeniu n - 1 punktów danych, ostatni punkt n była stała, ponieważ do obliczenia średniej z próby (x̅) we wzorze wariancji użyto tylko pewnych wartości.