Miary dyspersji w statystyce - dowiedz się więcej na ten temat!

Miary dyspersji odgrywają niezwykle ważną rolę w praktycznie rzecz biorąc każdym zbiorze danych. Idą one w parze z miarami tendencji centralnej i pokazują między innymi poziom zmienności Twoich danych.

Miary dyspersji oraz miary tendencji centralnej umożliwią Ci uzyskanie wiedzę na temat różnych sposobów grupowania danych. Są to doskonałe narzędzia pozwalające dowiedzieć się, jak działają różne zmienne w określonej próbie lub grupie osób. Trzy podstawowe rzeczy, które będziesz w stanie na ich podstawie określić, to mediana, średnia i zasięg.

Miary dyspersji idą w parze z miarami tendencji centralnej. Są również niezbędne do odczytu dowolnego zestawu danych, ponieważ pokazują, jak zmienne są Twoje dane. Ich ważną rolę w statystyce podkreślali między innymi Maxine Pfannkuch oraz Chris J. Wild w swojej publikacji z 1999 roku zatytułowanej Statistical thinking in empirical enquiry. International Statistical Review.

Według nich nasze postrzeganie zmienności danych jest jednym z podstawowych elementów myślenia statystycznego. Sposób, w jaki postrzegamy tę zmienność, dostarcza nam informacji na temat rozproszenia lub rozprzestrzeniania się danych w kategoriach średniej lub mediany.

Średnia lub mediana jest bardzo powszechnie występującym pojęciem w różnego rodzaju opracowaniach statystycznych. Ale równie łatwo można je niepoprawnie zinterpretować. Dzieje się tak szczególnie wtedy, gdy w zmiennej występuje szeroki współczynnik rozproszenia wartości. Właśnie wtedy wchodzą w grę miary dyspersji.

Ogólnie rzecz biorąc istnieją trzy ważne składniki miary dyspersji związane z losową zmiennością danych. Są to kolejno:

Postrzeganie wartości statystycznych pod względem ich powszechności występowania w otaczającym Cię świecie.
Istnieje potencjalnie konkurencyjnych wyjaśnień zjawiska.
Umiejętność ich prawidłowej kwantyfikacji (co oznacza zrozumienie pojęcia dyspersji i znajomość jego zastosowania).

Do czego tak naprawdę służą miary dyspersji?

Miary dyspersji są ważne w praktycznie rzecz biorąc każdym badaniu statystycznym. Szczególnie istotną rolę odgrywają wtedy, gdy próbujesz wyciągnąć odpowiednie wnioski ze zgromadzonych przez siebie danych. Dzieje się tak dlatego, ponieważ odgrywają one bezpośrednią rolę w przypadku określania marginesu błędu w przypadku zbioru danych, nad którym właśnie pracujesz.

Ogólnie rzecz biorąc, im większy poziom rozproszenia w danej próbce danych, tym więcej przestrzeni będziesz potrzebować do wykonania zadania nad tym konkretnym zakresem danych.

Miary dyspersji mogą Ci również pomóc w ustaleniu, czy Twoje dane są oddalone od głównej tendencji. Ta cecha pokazuje wyraźnie, czy Twoja tendencja centralna jest w rzeczywistości dobrym sposobem na reprezentowanie osób, od których pobrano dane do badania. Jest to bardzo pomocne narzędzie, jeśli chodzi o porównanie rozkładów i zrozumienie ryzyka związanego z podejmowaniem niektórych decyzji.

Podsumowując nasze dzisiejsze rozważania w tym punkcie musimy stwierdzić po prostu, że im większa dyspersja, tym mniej reprezentatywna jest Twoja tendencja centralna. Poniżej prezentujemy Ci najczęściej stosowane miary rozproszenia:

Zasięg
Odchylenie średnie
Zmienność
Odchylenie standardowe
Współczynnik zmienności (lub względne odchylenie standardowe)

Jak działają te miary dyspersji?

Miary dyspersji w statystyce są niezbędnym narzędziem, ponieważ mogą pokazać Ci w ten sposób interesujące Cię dane w konkretnej próbce lub grupie ludzi. W przypadku próbek dyspersja jest niezwykle istotną kwestią, ponieważ pozwala ona określić margines błędu, jaki będziesz miał podczas wnioskowania na temat miar tendencji centralnych, takich jak średnie.

Zakres

Zakres jest zazwyczaj najlepszą miarą dyspersji w przypadku jedynie pierwszych porównań, ponieważ uwzględnia tylko dwie skrajne wartości danych. Z tego powodu na ogół warto stosować go jedynie przy małych próbkach. Podstawowa definicja zakresu to po prostu różnica między pierwszymi, a ostatnimi wartościami danych.

Odchylenie średnie

Następne w kolejności mamy odchylenie średnie. Jest to niezwykle pomocna miara dyspersji, ponieważ może ona pokazać, jak rozłożone byłyby Twoje dane, gdyby znajdowały się dokładnie w tej samej odległości od wartości średniej.

Odchylenie liczby od wartości zmiennej jest różnicą między wartością bezwzględną tej zmiennej, a średnią. Zatem odchylenie średnie jest w zasadzie tylko średnią wszystkich poszczególnych odchyleń.

Zmienność

Zmienność, czyli wariancja, jest funkcją algebraiczną obejmującą wszystkie wartości. Z tego względu jest też idealnym rozwiązaniem na potrzeby wnioskowania statystycznego. Wariancja jest w zasadzie kwadratem odchyleń.

Odchylenie standardowe

Odchylenie standardowe jest najczęstszą miarą dyspersji dla wszelkich próbek pobranych od tej samej grupy osób. Jest to po prostu pierwiastek kwadratowy wariancji.

Współczynnik zmienności (lub względne odchylenie standardowe)

Ta miara dyspersji służy głównie do porównania zmienności między dwoma zestawami danych podzielonymi na osobne grupy. Na przykład jeśli chcesz uzyskać informacje o wzroście i wadze uczniów w szkole. Wykorzystujesz wtedy współczynnik zmienności, który pomoże Ci dowiedzieć się, który konkretny rozkład wskazuje na najwyższą grupę uczniów, na potrzeby bardziej reprezentatywnego pomiaru.

Współczynnik zmienności jest najbardziej reprezentatywny ze wszystkich miar dyspersji, o których mówiliśmy do tego pory. Wynika to z tego, że daje on nam wynik w postaci liczby abstrakcyjnej. Innymi słowy, jest niezależny od jakichkolwiek zmiennych w Twoich grupach danych. Zasadniczo współczynnik wariancji jest wyświetlany po prostu jako wartość procentowa.

Opisane przez nas dzisiaj miary dyspersji są sposobami na sprawdzenie, jak duża zmienność występuje w zbiorze danych dla tej konkretnej próby. Powiedzą Ci one również, jak reprezentatywna jest Twoja tendencja centralna. Jeśli wartość zmienności jest niska, oznacza to, że dane są stosunkowo zbliżone do tej tendencji i stanowią dobrą reprezentację całego zestawu danych.

Z drugiej jedna strony, jeśli masz na przykład wysoki poziom zmienności, oznacza to, że dane są mocno rozproszone, a nie skoncentrowane. Wysoka zmienność oznacza tendencję centralną, która ponadto nie jest zbyt reprezentatywna. W takim przypadku musisz zgromadzić większą pulę danych. Dysponowanie większą ilością danych zmniejszy wartość zmienności, która była podstawową przyczyną dużego marginesu błędu.