Jak obliczyć emisje

Autor: Janice Evans
Data Utworzenia: 23 Lipiec 2021
Data Aktualizacji: 1 Lipiec 2024
Anonim
Jak obliczyć emisje, co2, spalin, zanieczysczenia w Kobize ?
Wideo: Jak obliczyć emisje, co2, spalin, zanieczysczenia w Kobize ?

Zawartość

W statystykach wartości odstające to wartości, które znacznie różnią się od innych wartości w zebranym zbiorze danych. Wartość odstająca może wskazywać na anomalie w dystrybucji danych lub błędy pomiaru, więc wartości odstające są często wykluczane ze zbioru danych. Eliminując wartości odstające ze zbioru danych, możesz dojść do nieoczekiwanych lub dokładniejszych wniosków. W związku z tym konieczna jest umiejętność obliczania i szacowania wartości odstających, aby zapewnić właściwe zrozumienie statystyk.

Kroki

  1. 1 Naucz się rozpoznawać potencjalne wartości odstające. Potencjalne wartości odstające należy zidentyfikować przed wykluczeniem wartości odstających ze zbioru danych. Wartości odstające to wartości, które bardzo różnią się od większości wartości w zbiorze danych; innymi słowy, wartości odstające są poza trendem większości wartości. Łatwo to znaleźć w tabelach wartości lub (zwłaszcza) na wykresach. Jeśli wartości w zbiorze danych zostaną wykreślone, wartości odstające będą dalekie od większości innych wartości. Jeśli np. większość wartości przypada na linię prostą, to wartości odstające leżą po obu stronach takiej linii prostej.
    • Rozważmy na przykład zestaw danych reprezentujący temperatury 12 różnych obiektów w pomieszczeniu. Jeśli 11 obiektów ma około 70 stopni, ale dwunasty obiekt (prawdopodobnie piec) ma 300 stopni, to szybkie spojrzenie na wartości może wskazać, że piec jest prawdopodobny do przepalenia.
  2. 2 Sortuj dane w porządku rosnącym. Pierwszym krokiem do określenia wartości odstających jest obliczenie mediany zbioru danych. To zadanie jest znacznie uproszczone, jeśli wartości w zbiorze danych są ułożone w kolejności rosnącej (od najmniejszej do największej).
    • Kontynuując powyższy przykład, rozważ następujący zestaw danych reprezentujący temperatury wielu obiektów: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Zestaw ten należy uporządkować następująco: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  3. 3 Oblicz medianę zbioru danych. Mediana zbioru danych to wartość w środku zbioru danych. Jeśli zbiór danych zawiera nieparzystą liczbę wartości, mediana jest wartością przed i po której jest taka sama liczba wartości w zbiorze danych. Ale jeśli zbiór danych zawiera parzystą liczbę wartości, musisz znaleźć średnią arytmetyczną z dwóch średnich. Zwróć uwagę, że podczas obliczania wartości odstających mediana jest zwykle określana jako Q2, ponieważ leży między Q1 a Q3, dolnym i górnym kwartylem, które zdefiniujemy później.
    • Nie bój się pracować z zestawami danych, które mają parzystą liczbę wartości - średnia arytmetyczna z dwóch średnich będzie liczbą, której nie ma w zestawie danych; to normalne. Ale jeśli dwie średnie wartości są tą samą liczbą, to średnia arytmetyczna jest równa tej liczbie; jest to również w porządku rzeczy.
    • W powyższym przykładzie środkowe 2 wartości to 70 i 71, więc mediana to ((70 + 71) / 2) = 70,5.
  4. 4 Oblicz dolny kwartyl. Ta wartość, określana jako Q1, jest poniżej której leży 25% wartości zestawu danych. Innymi słowy jest to połowa wartości do mediany. Jeśli istnieje parzysta liczba wartości ze zbioru danych przed medianą, musisz znaleźć średnią arytmetyczną z dwóch średnich, aby obliczyć Q1 (jest to podobne do obliczania mediany).
    • W naszym przykładzie za medianą znajduje się 6 wartości, a przed nią 6 wartości. Oznacza to, że aby obliczyć dolny kwartyl, musimy znaleźć średnią arytmetyczną dwóch średnich z sześciu wartości, które znajdują się przed medianą. Tutaj średnie wartości wynoszą 70 i 70. Zatem Q1 = ((70 + 70) / 2) = 70.
  5. 5 Oblicz górny kwartyl. Wartość ta, określana jako Q3, jest powyżej której znajduje się 25% wartości zestawu danych. Proces obliczania Q3 jest podobny do procesu obliczania Q1, ale tutaj brane są pod uwagę wartości po medianie.
    • W powyższym przykładzie dwie średnie z sześciu po medianie wynoszą 71 i 72. Zatem Q3 = ((71 + 72) / 2) = 71,5.
  6. 6 Oblicz rozstęp międzykwartylowy. Po obliczeniu Q1 i Q3 konieczne jest wyznaczenie odległości między tymi wartościami. Aby to zrobić, odejmij Q1 od Q3. Wartość rozstępu międzykwartylowego jest niezwykle ważna dla określenia granic wartości, które nie są wartościami odstającymi.
    • W naszym przykładzie Q1 = 70 i Q3 = 71,5. Zakres międzykwartylowy wynosi 71,5 - 70 = 1,5.
    • Zauważ, że dotyczy to również ujemnych wartości Q1 i Q3. Na przykład, jeśli Q1 = -70, to przedział międzykwartylowy wynosi 71,5 - (-70) = 141,5.
  7. 7 Znajdź „wewnętrzne granice” wartości w zbiorze danych. Wartości odstające są określane poprzez analizę wartości – czy mieszczą się w tzw. „granicach wewnętrznych” i „granicach zewnętrznych”. Wartość poza „wewnętrznymi granicami” jest klasyfikowana jako „mniejsza wartość odstająca”, podczas gdy wartość poza „granicami zewnętrznymi” jest klasyfikowana jako „znacząca wartość odstająca”. Aby znaleźć wewnętrzne granice, musisz pomnożyć zakres międzykwartylowy przez 1,5; wynik należy dodać do Q3 i odjąć od Q1. Dwie znalezione liczby to wewnętrzne granice zbioru danych.
    • W naszym przykładzie przedział międzykwartylowy to (71,5 - 70) = 1,5. Dalej: 1,5 * 1,5 = 2,25. Tę liczbę należy dodać do Q3 i odjąć od Q1, aby znaleźć wewnętrzne granice:
      • 71,5 + 2,25 = 73,75
      • 70 - 2,25 = 67,75
      • Zatem granice wewnętrzne to 67,75 i 73,75.
    • W naszym przykładzie tylko temperatura pieca - 300 stopni - leży poza tymi granicami i można ją uznać za nieznaczną emisję. Ale nie wyciągaj pochopnych wniosków - musimy ustalić, czy ta temperatura jest znaczącą wartością odstającą.
  8. 8 Znajdź „zewnętrzne granice” zbioru danych. Odbywa się to w taki sam sposób, jak w przypadku granic wewnętrznych, z wyjątkiem tego, że zakres międzykwartylowy jest mnożony przez 3 zamiast 1,5. Wynik należy dodać do Q3 i odjąć od Q1. Dwie znalezione liczby to zewnętrzne granice zbioru danych.
    • W naszym przykładzie pomnóż zakres międzykwartylowy przez 3: 1,5 * 3 = 4,5. Oblicz granice zewnętrzne:
      • 71,5 + 4,5 = 76
      • 70 - 4,5 = 65,5
      • Tak więc granice zewnętrzne to 65,5 i 76.
    • Wszelkie wartości wykraczające poza granice zewnętrzne są uważane za znaczące emisje. W naszym przykładzie temperatura pieca 300 stopni jest uważana za znaczący wydmuch.
  9. 9 Użyj oszacowania jakościowego, aby określić, czy wartości odstające należy wykluczyć ze zbioru danych. Opisana powyżej metoda pozwala określić, czy niektóre wartości są wartościami odstającymi (niewielkimi lub znaczącymi). Nie popełnij jednak błędu — wartość sklasyfikowana jako odstająca jest tylko „kandydatem” na wyjątek, co oznacza, że ​​nie musisz go wykluczać. Przyczyna wystąpienia wartości odstającej jest głównym czynnikiem wpływającym na decyzję o wykluczeniu wartości odstającej. Z reguły wyklucza się wartości odstające, które pojawiają się z powodu błędów (w pomiarach, nagraniach itp.). Z drugiej strony w zbiorze danych zwykle pozostawiane są wartości odstające związane nie z błędami, ale z nowymi informacjami lub trendami.
    • Równie ważna jest ocena wpływu wartości odstających na medianę zbioru danych (czy to zniekształcają, czy nie). Jest to szczególnie ważne, gdy wyciągasz wnioski z mediany zbioru danych.
    • W naszym przykładzie jest bardzo mało prawdopodobne, że piekarnik nagrzeje się do temperatury 300 stopni (chyba, że ​​weźmiemy pod uwagę naturalne anomalie). Można zatem wnioskować (z dużą dozą pewności), że taka temperatura jest błędem pomiaru, który należy wykluczyć ze zbioru danych. Co więcej, jeśli nie wykluczysz wartości odstającej, mediana zbioru danych wyniesie (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 stopni, ale jeśli wykluczysz wartość odstającą, mediana wyniesie (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 stopnia.
      • Wartości odstające są zwykle wynikiem błędu człowieka, dlatego należy je wykluczyć ze zbiorów danych.
  10. 10 Zrozum znaczenie (czasami) wartości odstających pozostawionych w zbiorze danych. Niektóre wartości odstające należy wykluczyć ze zbioru danych, ponieważ wynikają one z błędów i problemów technicznych; inne wartości odstające należy pozostawić w zbiorze danych. Jeśli na przykład wartość odstająca nie jest wynikiem błędu i/lub zapewnia nowe zrozumienie badanego zjawiska, należy ją pozostawić w zbiorze danych. Eksperymenty naukowe są szczególnie wrażliwe na wartości odstające — omyłkowo eliminując wartości odstające, możesz przegapić jakiś nowy trend lub odkrycie.
    • Na przykład opracowujemy nowy lek, aby zwiększyć wielkość ryb w łowiskach. Użyjemy starego zestawu danych ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), ale tym razem każda wartość będzie reprezentować wagę ryby (w gramach) po spożyciu eksperymentalnego leku. Innymi słowy, pierwszy lek prowadzi do wzrostu masy ryb do 71 g, drugi do 70 g i tak dalej. W tej sytuacji 300 to znacząca wartość odstająca, ale nie możemy jej wykluczyć; jeśli przyjmiemy, że nie było błędów pomiarowych, to taka wartość odstająca jest znaczącym sukcesem w eksperymencie. Lek, który zwiększył wagę ryby do 300 gramów, działa znacznie lepiej niż inne leki; dlatego 300 jest najważniejszą wartością w zbiorze danych.

Porady

  • Po znalezieniu wartości odstających spróbuj wyjaśnić ich obecność przed wykluczeniem ich ze zbioru danych. Mogą wskazywać błędy pomiaru lub anomalie rozkładu.

Czego potrzebujesz

  • Kalkulator