Oblicz wartości odstające

Autor: Charles Brown
Data Utworzenia: 8 Luty 2021
Data Aktualizacji: 28 Czerwiec 2024
Anonim
Obliczanie wartości wyrażeń algebraicznych - Matematyka Szkoła Podstawowa i Gimnazjum
Wideo: Obliczanie wartości wyrażeń algebraicznych - Matematyka Szkoła Podstawowa i Gimnazjum

Zawartość

ZA wartość odstająca lub wartość odstająca w statystykach to punkt danych, który znacznie różni się od innych punktów danych w próbie. Często wartości odstające wskazują statystykom na rozbieżności lub błędy w pomiarach, po czym mogą oni usunąć wartość odstającą ze zbioru danych. Jeśli faktycznie zdecydują się usunąć wartości odstające ze zbioru danych, może to spowodować znaczące zmiany we wnioskach wyciągniętych z badania. Dlatego ważne jest, aby obliczyć i określić wartości odstające, jeśli chcesz poprawnie zinterpretować dane statystyczne.

Do kroku

  1. Dowiedz się, jak wykrywać możliwe wartości odstające. Zanim będziemy mogli zdecydować, czy usunąć anomalne wartości z określonego zestawu danych, musimy oczywiście najpierw zidentyfikować możliwe wartości odstające w zestawie danych. Ogólnie rzecz biorąc, wartości odstające to punkty danych, które znacznie odbiegają od trendu, które tworzą inne wartości w zestawie - innymi słowy, sterczeć innych wartości. Zwykle łatwo jest to rozpoznać w tabelach i (szczególnie) na wykresach. Jeśli zestaw danych zostanie przedstawiony na wykresie wizualnym, wartości odstające będą „daleko” od innych wartości. Na przykład, jeśli większość punktów w zestawie danych tworzy linię prostą, wartości odstające nie będą zgodne z tą linią.
    • Przyjrzyjmy się zestawowi danych przedstawiającym temperatury 12 różnych obiektów w pomieszczeniu. Jeśli temperatura 11 obiektów waha się o kilka stopni, co najwyżej około 21 ° C, podczas gdy jeden obiekt, piekarnik, ma temperaturę 150 ° C, na pierwszy rzut oka widać, że piekarnik jest prawdopodobnie odstający.
  2. Sortuj wszystkie punkty danych od najniższego do najwyższego. Pierwszym krokiem w obliczaniu wartości odstających jest znalezienie wartości mediany (lub wartości środkowej) zbioru danych. Zadanie to staje się znacznie łatwiejsze, jeśli wartości w zestawie są w kolejności od najniższej do najwyższej. Dlatego przed kontynuowaniem posortuj wartości w zestawie danych w ten sposób.
    • Kontynuujmy powyższy przykład. Oto nasz zestaw danych pokazujący temperatury w stopniach Fahrenheita różnych obiektów w pomieszczeniu: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Jeśli posortujemy wartości w zestawie od najniższej do najwyższej, stanie się to naszym nowym zestawem: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  3. Oblicz medianę zbioru danych. Mediana zbioru danych to punkt danych, w którym połowa danych znajduje się nad nim, a połowa danych pod nim - jest to w rzeczywistości „środek” zbioru danych. Jeśli zbiór danych zawiera nieparzystą liczbę punktów, medianę można łatwo znaleźć - mediana to punkt, w którym powyżej znajduje się tyle punktów, ile poniżej. Jeśli istnieje parzysta liczba punktów, ponieważ nie ma jednego środka, musisz wziąć średnią z dwóch punktów środkowych, aby znaleźć medianę. Przy obliczaniu wartości odstających do mediany zwykle odwołuje się zmienna Q2 - ponieważ leży ona między Q1 a Q3, pierwszym i trzecim kwartylem. Te zmienne określimy później.
    • Nie daj się zmylić zestawami danych z parzystą liczbą punktów - średnia z dwóch środkowych punktów jest często liczbą, której nie ma w samym zbiorze danych - to jest w porządku. Jeśli jednak dwa środkowe punkty są takie same, średnia będzie oczywiście również tą liczbą - to też jest w porządku.
    • W naszym przykładzie mamy 12 punktów. Środkowe dwa wyrazy to odpowiednio punkty 6 i 7 - 70 i 71. Zatem mediana naszego zbioru danych jest średnią z tych dwóch punktów: ((70 + 71) / 2) =70,5.
  4. Oblicz pierwszy kwartyl. Ten punkt, który oznaczamy zmienną Q1, jest punktem danych, poniżej którego znajduje się 25 procent (lub jedna czwarta) obserwacji. Innymi słowy, jest to środek wszystkich punktów w zestawie danych poniżej mediana. Jeśli istnieje parzysta liczba wartości poniżej mediany, należy ponownie obliczyć średnią z dwóch średnich wartości, aby znaleźć Q1, tak jak można było to zrobić, aby samodzielnie określić medianę.
    • W naszym przykładzie sześć punktów znajduje się powyżej mediany, a sześć punktów poniżej niej. Aby znaleźć pierwszy kwartyl, musimy wziąć średnią z dwóch środkowych punktów z sześciu dolnych punktów. Punkty 3 i 4 najniższej szóstki to po 70, więc ich średnia wynosi ((70 + 70) / 2) =70. Więc nasza wartość za pierwszy kwartał to 70.
  5. Oblicz trzeci kwartyl. Ten punkt, który oznaczamy zmienną Q3, jest punktem danych, powyżej którego znajduje się 25 procent danych. Znalezienie Q3 jest praktycznie tym samym, co znalezienie Q1, z wyjątkiem tego, że patrzymy na punkty w tym przypadku powyżej mediana.
    • Kontynuując powyższy przykład, widzimy, że dwa środkowe punkty sześciu punktów powyżej mediany to 71 i 72. Średnia z tych dwóch punktów wynosi ((71 + 72) / 2) =71,5. Zatem nasza wartość za III kwartał to 71,5.
  6. Znajdź przedział międzykwartylowy. Teraz, gdy określiliśmy Q1 i Q3, musimy obliczyć odległość między tymi dwiema zmiennymi. Możesz znaleźć odległość między Q1 i Q3, odejmując Q1 od Q3. Wartość, jaką uzyskasz dla przedziału międzykwartylowego, ma kluczowe znaczenie dla określenia granic dla nieodchylających się punktów w zestawie danych.
    • W naszym przykładzie wartości dla Q1 i Q3 to odpowiednio 70 i 71,5. Aby znaleźć rozstęp międzykwartylowy, obliczamy Q3 - Q1: 71,5 - 70 =1,5.
    • Działa to nawet wtedy, gdy Q1, Q3 lub obie liczby są ujemne. Na przykład, jeśli nasza wartość dla Q1 wynosiła -70, przedział międzykwartylowy wyniósłby 71,5 - (-70) = 141,5, co jest poprawne.
  7. Znajdź „Wewnętrzne limity” zbioru danych. Odstające wartości można rozpoznać, określając, czy mieszczą się one w szeregu limitów liczbowych; tak zwane „granice wewnętrzne” i „granice zewnętrzne”. Punkt, który wykracza poza wewnętrzne granice zbioru danych, jest klasyfikowany jako jeden łagodna wartość odstająca, a punkt poza zewnętrznymi granicami jest klasyfikowany jako jeden ekstremalne wartości odstające. Aby znaleźć wewnętrzne granice zbioru danych, najpierw pomnóż przedział międzykwartylowy przez 1,5. Dodaj wynik do Q3 i odejmij go od Q1. Te dwa wyniki to wewnętrzne ograniczenia zbioru danych.
    • W naszym przykładzie rozstęp międzykwartylowy wynosi (71,5 - 70), czyli 1,5. Pomnóż to przez 1,5, aby otrzymać 2,25. Dodajemy tę liczbę do Q3 i odejmujemy ją od Q1, aby znaleźć granice wewnętrzne w następujący sposób:
      • 71,5 + 2,25=73,75
      • 70 - 2,25=67,75
      • Tak więc są granice wewnętrzne 67,75 i 73,75.
    • W naszym zestawie danych tylko temperatura piekarnika - 300 stopni Fahrenheita - jest poza tym zakresem. Więc może to być łagodna wartość odstająca. Jednak nie ustaliliśmy jeszcze, czy ta temperatura jest skrajną wartością odstającą, więc nie wyciągajmy jeszcze pochopnych wniosków.
  8. Znajdź „granice zewnętrzne” zbioru danych. Robisz to w taki sam sposób, jak w przypadku wewnętrznych granic, z tą różnicą, że pomnóż odległość międzykwartylową przez 3 zamiast 1,5. Następnie dodajesz wynik do Q3 i odejmujesz od Q1, aby znaleźć zewnętrzne wartości graniczne.
    • W naszym przykładzie pomnożymy odległość międzykwartylową przez 3, aby otrzymać (1,5 * 3) lub 4,5. Możemy teraz znaleźć granice zewnętrzne w taki sam sposób, jak granice wewnętrzne:
      • 71,5 + 4,5=76
      • 70 - 4,5=65,5
      • Tak więc są zewnętrzne granice 65,5 i 76.
    • Punkty danych, które leżą poza granicami zewnętrznymi, są uważane za skrajne wartości odstające. W naszym przykładzie temperatura piekarnika, 300 stopni Fahrenheita, znacznie wykracza poza granice zewnętrzne. Tak więc temperatura piekarnika jest na pewno skrajne wartości odstające.
  9. Skorzystaj z oceny jakościowej, aby określić, czy należy „wyrzucić” wartości odstające. Za pomocą powyższej metody można określić, czy pewne punkty są łagodnymi wartościami odstającymi, skrajnymi wartościami odstającymi, czy też nie mają żadnych wartości odstających. Ale nie popełnij błędu - uznanie punktu jako wartości odstającej sprawia, że ​​jest on tylko jednym kandydat do usunięcia ze zbioru danych, a nie natychmiast usuwanego punktu musieć zmienić się w. Plik powód dlaczego wartość odstająca różni się od pozostałych punktów w zestawie, ma kluczowe znaczenie przy określaniu, czy wartość odstającą należy usunąć. Generalnie usuwa się wartości odstające spowodowane jakimś błędem - na przykład błędem w pomiarach, w zapisach lub w projekcie eksperymentu. W przeciwieństwie do tego, wartości odstające, które nie są spowodowane błędami i które ujawniają nowe, nieprzewidziane informacje lub trendy, zwykle stają się nie usunięte.
    • Innym kryterium do rozważenia jest to, czy wartości odstające wpływają na średnią zbioru danych w sposób wypaczony lub wprowadzający w błąd. Jest to szczególnie ważne, jeśli planujesz wyciągać wnioski ze średniej ze zbioru danych.
    • Oceńmy nasz przykład. Ponieważ najwyższy Jest mało prawdopodobne, aby piec osiągnął temperaturę 300 ° F z powodu jakiejś nieprzewidzianej siły natury, w naszym przykładzie możemy stwierdzić z prawie 100% pewnością, że piec został przypadkowo włączony, powodując nienormalnie wysoki odczyt temperatury. Dodatkowo, jeśli nie usuniemy wartości odstającej, średnia z naszego zbioru danych wyniesie (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 ° F, podczas gdy średnia bez wartość odstająca wychodzi do (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 ° F.
      • Ponieważ wartość odstająca została spowodowana błędem ludzkim i nie można powiedzieć, że średnia temperatura w pomieszczeniu była bliska 32 ° C, musimy wybrać naszą wartość odstającą. usunąć.
  10. Zrozum, jak ważne jest (czasami) zachowanie wartości odstających. Podczas gdy niektóre wartości odstające powinny zostać usunięte ze zbioru danych, ponieważ są wynikiem błędów lub zniekształcają wyniki w mylący sposób, inne wartości odstające powinny zostać zachowane. Na przykład, jeśli wartość odstająca została poprawnie uzyskana (a zatem nie jest wynikiem błędu) i / lub jeśli wartość odstająca oferuje nowy wgląd w mierzone zjawisko, nie należy jej natychmiast usuwać. Eksperymenty naukowe są szczególnie wrażliwymi sytuacjami, jeśli chodzi o radzenie sobie z wartościami odstającymi - omyłkowe usunięcie wartości odstającej może oznaczać odrzucenie ważnych informacji o nowym trendzie lub odkryciu.
    • Na przykład wyobraź sobie, że projektujemy nowy lek, który sprawi, że ryby na farmie będą większe. Skorzystajmy z naszego starego zbioru danych ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), z tą różnicą, że każdy punkt reprezentuje teraz masę ryby (w gramach ) po leczeniu innym eksperymentalnym lekiem od urodzenia. Innymi słowy, pierwszy lek dał jednej rybie masę 71 gramów, drugi dał innej rybie masę 70 gramów i tak dalej. W tej sytuacji 300 nadal ogromna wartość odstająca, ale nie powinniśmy jej teraz usuwać. Ponieważ jeśli założymy, że wartość odstająca nie jest wynikiem błędu, oznacza to wielki sukces w naszym eksperymencie. Lek, który wyprodukował 300 gramową rybę, działał lepiej niż jakikolwiek inny lek, więc to jest to większość ważny punkt danych w naszym zestawie, zamiast najmniej ważny punkt danych.

Porady

  • Jeśli znajdziesz wartości odstające, spróbuj je wyjaśnić przed usunięciem ich ze zbioru danych; potrafią wskazać błędy pomiarowe lub odchylenia w rozkładzie.

Potrzeby

  • Kalkulator