[Jacek Śliwerski]
(rzyjontko)Autor
Chłopak z Bałut (Dołów), po uniwerku i stypendium. Wiecznie zestresowane, przemądrzałe bezguście. Więcej na stronie domowej.
Statystyka - Sztuka Manipulacji
Statystyka jest powszechnie uznawana za narzędzie manipulacji, matactwa i oszustwa. Stopniowanie rzeczownika "kłamstwo" i kilka innych cytatów na temat statystyki najlepiej chyba obrazują niechęć do tej dziedziny matematyki. Postanowiłem pokazać poniżej dwie proste sztuczki, którymi posłużono się w celu okpienia mojej niezbyt skromnej osoby.
Wyolbrzymianie danych
Kilka dni temu Trystero opisał amerykańską straconą dekadę. Do zobrazowania tego problemu wykorzystał wykres ze strony United States Census Bureau (amerykański odpowiednik GUS), który wygląda tak:
Spadek dochodów (i to po uwzględnieniu efektu inflacji) jest po prostu ewidentny - ilustracja nie pozostawia żadnych złudzeń...
Żadnych? Skoro dane są tak jednoznaczne, to dlaczego skala na osi rzędnych zaczyna się od 48 tysięcy? Pewnie dlatego, że zaaplikowanie pełnej skali ukazałoby rzeczywiste proporcje problemu:
Dodajmy teraz do tego, że liczby te są obarczone wieloma błędami:
- Średni dochód jest tylko przybliżeniem wyliczanym na próbie reprezentatywnej,
- która to próba jest ustalana na podstawie spisu powszechnego przeprowadzanego raz na 10 lat
- Co roku różni ludzie odpytują innych obywateli.
- Idę o zakład, że ankieterzy dostają co roku "poprawione" wytyczne i przechodzą "udoskonalone" szkolenia.
- A przecież to dopiero początek... wszak wartość słupka dla roku 2007 jest już przeskalowana przez wartość inflacji dla roku 2008,
- wartość słupka dla roku 2006 jest przeskalowana przez wartość inflacji dla lat 2007 i 2008,
- a wartość słupka dla roku 1997 jest przeskalowana przez skumulowaną inflację dla lat 1998 - 2008.
- Inflacja zaś wyliczana jest na podstawie Consumer Price Index,
- który jest wyliczany na podstawie kolejnych ankiet opartych na koszyku,
- który (a jakże) też jest co jakiś czas aktualizowany na podstawie... kolejnych badań statystycznych.
- który jest wyliczany na podstawie kolejnych ankiet opartych na koszyku,
- Inflacja zaś wyliczana jest na podstawie Consumer Price Index,
- a wartość słupka dla roku 1997 jest przeskalowana przez skumulowaną inflację dla lat 1998 - 2008.
- wartość słupka dla roku 2006 jest przeskalowana przez wartość inflacji dla lat 2007 i 2008,
I na sam koniec tego procesu ktoś wyciąga jedenaście liczb, naciąga skalę wykresu i mówi: oto jak na dłoni widać "straconą dekadę".
Trystero nie posunął się tak daleko w swoim rozważaniu. Osobiście uważam, że to bardzo dobry blog, na którym można znaleźć bardzo wiele ciekawych, dogłębnie przeanalizowanych problemów, również tych z zakresu statystyki. I jestem przekonany, że sam autor bloga zgodziłby się z tym, że dane dotyczące dochodów trudno uznać za jednoznaczne. Mam jednak dziwne przeczucie, że wykres ten nie pojawiłby się na blogu Trystero, gdyby nie pasował do innych artykułów o podobnym wydźwięku.
Minimalizacja trendów
Nie dalej jak miesiąc temu byłem świadkiem prezentacji, której temat przewodni można było sparafrazować jako "zarządzanie na podstawie obiektywnych metryk". Do samej tezy nie chcę się odnosić, bo na samą myśl o niej rośnie mi ciśnienie. Prowadzący wykazał się przy tym niezwykłym cynizmem, ponieważ na swoich slajdach posłużył się zmanipulowanym wykresem kursu giełdowego akcji General Motors. Sugerował on, że od lat siedemdziesiątych ubiegłego stulecia, aż do ubiegłego roku cena akcji była mniej-więcej stała i nagle nastąpił dramatyczny spadek.
Niestety nie udało mi się nigdzie znaleźć łatwych do ściągnięcia historycznych wartości kursu akcji GM, dlatego w poniższym przykładzie postanowiłem posłużyć się przykładem innej znanej amerykańskiej firmy - Google. Myśleliście, że na akcjach giganta z Mountain View można się było obłowić? No to popatrzcie na ten wykres:
Rzut oka na skalę po lewej stronie i już wiemy, że ktoś nas próbuje perfidnie okantować. No bo jak inaczej nazwać stosowanie skali logarytmicznej do wykresu, który "normalnie" wygląda w ten sposób?
Trzeci wymiar
Na sam koniec postanowiłem omówić jeden z przykładów błędnej prezentacji danych przytoczonych w fenomenalnej dokumentacji pakietu PGF. Wykres ten został odtworzony z danych podanych przez tygodnik Die Zeit i obrazuje podział produkcji energii elektrycznej ze względu na rodzaj stosowanego surowca.
Till Tantau - autor pakietu PGF - uważa, że stosowanie trójwymiarowych wykresów zaciemnia wyniki i trudno się z nim nie zgodzić. Wystarczy przyjrzeć się zielonym kawałkom tortu, aby dostrzec, że ciemniejszy z nich (reprezentujący 9% powierzchni) jest ewidentnie większy od jaśniejszego (reprezentującego 10% powierzchni).
29 września 2009, 18:22:30 7 komentarzy
Swastyka na plakacie Bękartów Wojny
Najpierw disclaimery: po pierwsze film mi się bardzo podobał; po drugie: nie jestem prawnikiem.
Przyjrzyjcie się poniższym trzem logo filmu:
| Angielskie | ![]() |
| Niemieckie | ![]() |
| Polskie | ![]() |
Jak widać na załączonym powyżej obrazku, jedynie niemiecka wersja materiałów promujących najnowszy film Tarantino nie zawiera symbolu swastyki. Wynika to zapewne z tego, że, zgodnie z §86a niemieckiego prawa karnego, rozpowszechnianie symboli organizacji łamiących konstytucję RFN zagrożone jest karą więzienia do lat trzech lub grzywną.
W Wikipedii wszystkie symbole faszystowskie opatrzone są ramką, która informuje, że rozpowszechnianie ich może łamać prawo niemieckie, austriackie, węgierskie, francuskie oraz polskie. W tym ostatnim przypadku cytowany jest artykuł 256 kodeksu karnego, zgodnie z którym:
Art. 256.Kto publicznie propaguje faszystowski lub inny totalitarny ustrój państwa lub nawołuje do nienawiści na tle różnic narodowościowych, etnicznych, rasowych, wyznaniowych albo ze względu na bezwyznaniowość,
podlega grzywnie, karze ograniczenia wolności albo pozbawienia wolności do lat 2.
Więc jak to jest: wolno się na plakacie filmowym posłużyć swastyką, czy nie? Trudno byłoby przypuszczać, że dystrybutor filmu zainteresowany był propagowaniem faszystowskiego ustroju państwa. Trudno jest również przypuszczać, żeby plakat nawoływał do nienawiści. A jednak przyjęło się chyba, że znakami takimi nie należy się posługiwać - nawet PZPN walczy z nawiązaniami do faszystowskiego pozdrowienia. Skoro i tak trzeba było to logo namalować od nowa, i skoro Niemcy mogli, to dlaczego polski dystrybutor nie skorzystał z tego samego triku?
A na koniec bonus: wiedzieliście, że po usunięciu błędów ortograficznych tytuł filmu (The Inglorious Bastards) jest amerykańskim tłumaczeniem włoskiego tytułu Quel maledetto treno blindato?
21 września 2009, 22:10:37 6 komentarzy
Twarde linki a edytory
Ku pamięci: edytory tekstu zaburzają twarde linki. Edycja odbywa się bowiem na kopii pliku, a oryginał zostaje nietknięty. Przy zapisie, edytory odlinkowują oryginał (bądź zmieniają mu nazwę na plik kopii zapasowej) i zmieniają nazwę pliku tymczasowego. Na szczęście da się tego uniknąć. Aby zapis odbywał się do oryginalnego pliku, należy dodać następujące wiersze do .emacs:
(setq backup-by-copying nil)
(setq backup-by-copying-when-linked t)
Dla ewentualnych współpracowników korzystających z vi rozwiązaniem jest dodanie następującego wiersza do konfiguracji:
set bkc=yes
13 września 2009, 14:38:07 3 komentarze
Problemy
Z niewyjaśnionego dla mnie powodu ustawienia własnej domeny znikają mi co jakiś czas. Powoduje to również, że dla większości użytkowników (w tym Google) zamiast bloga pojawia się pusty katalog, bądź przekierowanie do wiki.jogger.pl.

Ponowne ustawienie domeny powoduje następnie reset RSSa... czy ktoś inny miał także ten problem, czy to tylko u mnie takie cuda się dzieją?
EDIT: Dzięki komentującym problem został rozwiązany. Źródłem problemu był podwójny wpis DNS dla adresu blog.sliwerski.net.
11 września 2009, 23:17:38 7 komentarzy


