[Jacek Śliwerski]
(rzyjontko)Autor
Chłopak z Bałut (Dołów), po uniwerku i stypendium. Wiecznie zestresowane, przemądrzałe bezguście. Więcej na stronie domowej.
Statystyka - Sztuka Manipulacji
Statystyka jest powszechnie uznawana za narzędzie manipulacji, matactwa i oszustwa. Stopniowanie rzeczownika "kłamstwo" i kilka innych cytatów na temat statystyki najlepiej chyba obrazują niechęć do tej dziedziny matematyki. Postanowiłem pokazać poniżej dwie proste sztuczki, którymi posłużono się w celu okpienia mojej niezbyt skromnej osoby.
Wyolbrzymianie danych
Kilka dni temu Trystero opisał amerykańską straconą dekadę. Do zobrazowania tego problemu wykorzystał wykres ze strony United States Census Bureau (amerykański odpowiednik GUS), który wygląda tak:
Spadek dochodów (i to po uwzględnieniu efektu inflacji) jest po prostu ewidentny - ilustracja nie pozostawia żadnych złudzeń...
Żadnych? Skoro dane są tak jednoznaczne, to dlaczego skala na osi rzędnych zaczyna się od 48 tysięcy? Pewnie dlatego, że zaaplikowanie pełnej skali ukazałoby rzeczywiste proporcje problemu:
Dodajmy teraz do tego, że liczby te są obarczone wieloma błędami:
- Średni dochód jest tylko przybliżeniem wyliczanym na próbie reprezentatywnej,
- która to próba jest ustalana na podstawie spisu powszechnego przeprowadzanego raz na 10 lat
- Co roku różni ludzie odpytują innych obywateli.
- Idę o zakład, że ankieterzy dostają co roku "poprawione" wytyczne i przechodzą "udoskonalone" szkolenia.
- A przecież to dopiero początek... wszak wartość słupka dla roku 2007 jest już przeskalowana przez wartość inflacji dla roku 2008,
- wartość słupka dla roku 2006 jest przeskalowana przez wartość inflacji dla lat 2007 i 2008,
- a wartość słupka dla roku 1997 jest przeskalowana przez skumulowaną inflację dla lat 1998 - 2008.
- Inflacja zaś wyliczana jest na podstawie Consumer Price Index,
- który jest wyliczany na podstawie kolejnych ankiet opartych na koszyku,
- który (a jakże) też jest co jakiś czas aktualizowany na podstawie... kolejnych badań statystycznych.
- który jest wyliczany na podstawie kolejnych ankiet opartych na koszyku,
- Inflacja zaś wyliczana jest na podstawie Consumer Price Index,
- a wartość słupka dla roku 1997 jest przeskalowana przez skumulowaną inflację dla lat 1998 - 2008.
- wartość słupka dla roku 2006 jest przeskalowana przez wartość inflacji dla lat 2007 i 2008,
I na sam koniec tego procesu ktoś wyciąga jedenaście liczb, naciąga skalę wykresu i mówi: oto jak na dłoni widać "straconą dekadę".
Trystero nie posunął się tak daleko w swoim rozważaniu. Osobiście uważam, że to bardzo dobry blog, na którym można znaleźć bardzo wiele ciekawych, dogłębnie przeanalizowanych problemów, również tych z zakresu statystyki. I jestem przekonany, że sam autor bloga zgodziłby się z tym, że dane dotyczące dochodów trudno uznać za jednoznaczne. Mam jednak dziwne przeczucie, że wykres ten nie pojawiłby się na blogu Trystero, gdyby nie pasował do innych artykułów o podobnym wydźwięku.
Minimalizacja trendów
Nie dalej jak miesiąc temu byłem świadkiem prezentacji, której temat przewodni można było sparafrazować jako "zarządzanie na podstawie obiektywnych metryk". Do samej tezy nie chcę się odnosić, bo na samą myśl o niej rośnie mi ciśnienie. Prowadzący wykazał się przy tym niezwykłym cynizmem, ponieważ na swoich slajdach posłużył się zmanipulowanym wykresem kursu giełdowego akcji General Motors. Sugerował on, że od lat siedemdziesiątych ubiegłego stulecia, aż do ubiegłego roku cena akcji była mniej-więcej stała i nagle nastąpił dramatyczny spadek.
Niestety nie udało mi się nigdzie znaleźć łatwych do ściągnięcia historycznych wartości kursu akcji GM, dlatego w poniższym przykładzie postanowiłem posłużyć się przykładem innej znanej amerykańskiej firmy - Google. Myśleliście, że na akcjach giganta z Mountain View można się było obłowić? No to popatrzcie na ten wykres:
Rzut oka na skalę po lewej stronie i już wiemy, że ktoś nas próbuje perfidnie okantować. No bo jak inaczej nazwać stosowanie skali logarytmicznej do wykresu, który "normalnie" wygląda w ten sposób?
Trzeci wymiar
Na sam koniec postanowiłem omówić jeden z przykładów błędnej prezentacji danych przytoczonych w fenomenalnej dokumentacji pakietu PGF. Wykres ten został odtworzony z danych podanych przez tygodnik Die Zeit i obrazuje podział produkcji energii elektrycznej ze względu na rodzaj stosowanego surowca.
Till Tantau - autor pakietu PGF - uważa, że stosowanie trójwymiarowych wykresów zaciemnia wyniki i trudno się z nim nie zgodzić. Wystarczy przyjrzeć się zielonym kawałkom tortu, aby dostrzec, że ciemniejszy z nich (reprezentujący 9% powierzchni) jest ewidentnie większy od jaśniejszego (reprezentującego 10% powierzchni).
29 września 2009, 18:22:30
Komentarze
Nie ma co wieszać psów na statystyce, bo przecież sama w sobie nie jest zła. A przekłamywać można np. zdjęcia (nawet nie mówię tu o fotoobróbce, ale np. był taki film dokumentalny - "Fotoamator"), albo po prostu fakty, pomijając część z nich. Inny przykład to np. obniżki w jakimś supermarkecie itp. Dobrze przytoczyć tu jeden cytat, tylko zamiast "statystycy" wstawiłbym "posługujący się nią":
asmok, 29 września 2009, 20:39:55Statystyka nie kłamie. Kłamią jedynie statystycy.
Bardzo dobry tekst. Mam już dość wszechobecnej dezinformacji a zauważyłem że we wszystkich mediach ta tendencja się nasila.
K., 29 września 2009, 20:57:50Stopniowanie rzeczownika? To swoiste novum w językoznawstwie.
Sigvatr: Zgadzam się, że statystyka nie odgrywa w moich przykładach większej roli. Ale wydaje mi się, że ilustrują one przyczyny, dla których tak właśnie jest postrzegana. Ponadto widzę istotną różnicę między obróbką zdjęć, a zmianą sposobu prezentacji danych - w żadnym z moich przykładów same dane nie zostały przerobione - tylko sposób ich prezentacji.
asmok: Dziękuję. Moje obserwacje są niestety podobne. Ostatnio pismaki szukają na siłę taniej sensacji, nie sprawdzają swoich tekstów, albo opierają je na Wikipedii. Tzw. "dziennikarze" sami sprowadzają się do roli "donosicieli agencyjnych".
K.: Jakie tam novum... taki zabieg stylistyczny :)
Tak, wiem, wolałem jednak to napisać, żeby nikt nie odniósł wrażenia, że statystyka to zło samo w sobie.
Co do zdjęć, to zwróciłem uwagę, że, oprócz jawnej ich obróbki, można je podobnie (jak i każdego rodzaju fakty - w tym i statystykę) przedstawiać w innym świetle, ewentualnie pewne pomijać - warto obejrzeć tego "Fotoamatora", opisał on getto jako "małe żydowskie miasteczko" i dołączył do tego niewinne kolorowe zdjęcia.
Zgadzam się z Sigvatrem. Sama statystyka to jedynie szeeg operacji matematycznych,a nawet sama reprezentatywność próby nie jest ściągnięta z choinki, ale precyzyjnie wyliczona. Dlatego też, jako nauka, jest obiektywna. I wyniki, te rzetelne naturalnie, są obiektywne. Wszystko jest kwestią interpretacji.
Przykładowo - próba reprezentatywna dla społeczeństwa polskiego wynosi 1096 osób (minimum, oczywiście). Większość sondaży poprzestaje na 300-400 czyli po prostu takie dane są niewiarygodne i nie mówią po prostu nic.
kasia b, 02 października 2009, 00:08:20Ludzie potrzebują jakoś uporządkować sobie ten niepoliczalny świat. Statystyka jest z zasady obarczona błędem - to niby prawda (abstrahuję od manipulacji statystykami, bo to osobny temat), ale to samo można powiedzieć np. o teorii ekonomii opartej na racjonalnych oczekiwaniach, które jako takie w przyrodzie przecież nie występują. Słyszałeś o behavioral finance? Ta dziedzina raczkuje (jak na razie głównie skupia się na krytyce klasycznej teorii ekonomii), ale jest bardzo ciekawa :-) Pozdrawiam