Od kuchni....

Przygotowywanie wizualizacji danych pod wieloma względami przypomina gotowanie. W obu przypadkach możemy: na szybko odgrzać coś w mikrofali, mając więcej czasu i zapału możemy, postępując ściśle według książki kucharskiej, ugotować obiad, a mając czas, zapał i doświadczenie możemy improwizować i eksperymentować z potrawami, zmieniając proporcje składników, sposób przygotowania potrawy, kompozycje przypraw. Zdarza się, że eksperymenty są niezjadliwe, ale z czasem coraz częściej zdarzać się będą odkrycia o ciekawym i oryginalnym smaku.

Są oczywiście i różnice pomiędzy wizualizacją danych a gotowaniem. Jedną z nich jest to, że można przez całe życie dobrze jeść, korzystając wyłącznie z gotowych przepisów, ponieważ książki kucharskie są pełne dobrych przepisów. W przypadku analiz statystycznych czy wizualizacji danych gotowych szablonów jest niewiele, a korzystanie wyłącznie z szablonów, szczególnie tych słabych, przypomina artykuły pisane zgodnie ze wzorcem:

We're inventors – we're creators. And that's the most important thing about what we do. And I think we should welcome failure every once in a while. (Jesteśmy odkrywcami, jesteśmy twórcami, i to najważniejsza część tego, co robimy. I dlatego raz na jakiś czas musimy liczyć się z porażką).
Hannah Fairfield, NYT Graphics Editor

Badanie przeprowadzono na grupie ______ osób. W badaniu 
zastosowano metodę randomizacji ______ .  Zebrane dane 
analizowano testem ______ i otrzymano w wyniku ______.

Może i taki szablon zawiera wszystkie niezbędne informacje, ale widząc go po raz kolejny, być może różniący się jedynie kilkoma detalami, prędzej wywołamy uczycie znużenia i zniechęcenia niż ciekawości i ekscytacji.

Pracując nad grafiką statystyczną będziemy więc modyfikować istniejące szablony, oglądać dobre rozwiązania, by to, co dobre, wykorzystywać w kolejnych projektach. Czy są jednak reguły mówiące czego z czym nie mieszać? Reguły, które oszczędzą nam niespodzianek smakowych takich jak mieszanina chrzanu i dżemu na torcie?

Zanim przejdziemy dalej, ustalmy terminologię, która pozwoli na precyzję i zwięzłość opisu. Wykres będzie dla nas reprezentacją danych Wykres składa się z elementów, takich jak słupki, koła, ikony. Dane składają się ze zmiennych (cena, waga, temperatura, prędkość) które opisane są w skalach Wizualizacja danych polega na przedstawieniu/zakodowaniu danych za pomocą cech elementów wykresu. Cechami mogą być: pozycja, wielkość, kształt, barwa, nasycenie, orientacja czy liczba powtórzeń. Przykładowo długość słupka na wykresie może przedstawiać cenę książki. Słupek jest elementem wykresu, długość jest cechą tego elementu. Cena książki jest zmienną, którą przedstawiamy, a odpowiedniość długości słupka do ceny to kodowanie zmiennej na cechę elementu wykresu. Zmieniając sposoby kodowania cech, możemy tę samą historię opowiedzieć na wiele sposobów.

Skoro w tym miejscu tak troszczymy się o terminologię, to warto też zauważyć, że termin wizualizacja danych może być mylący. Nie chodzi przecież o przedstawianie liczb ale o pokazanie relacji opisywanych przez liczby. Najlepszym sposobem przedstawiania liczb jest tabela, najlepszym sposobem pokazywania relacji pomiędzy liczbami jest dobry wykres.

Piekąc ciasto trzeba zadbać o jego konsystencję, smak i wygląd. Spoiwem może być mąka, ale mogą być też mielone orzechy. Ciasto można osłodzić dodając cukru, cukru pudru, miodu lub rodzynek. Zamiast truskawek można dodać malin. Każdy element powinien pełnić w tej mieszaninie określoną rolę, ale poszczególne elementy są wymienne, liczy się kompozycja całości.

Przygotowując wizualizację danych, mamy zazwyczaj dużą swobodę co do tego, jak przedstawić historię. Bez względu na to, czy nasze dane to trzy liczby, niewielka tabela, czy super big peta giga dane, to historia, którą chcemy pokazać, pomaga zdecydować, które informacje powinny zostać przedstawione na pierwszym, a które na dalszym planie.

Bardzo barwnie o szablonowym i nieszablonowym prezentowaniu danych opowiada Bret Victor w  prezentacji Drawing Dynamic Visualizations
http://vimeo.com/66085662

Skale pomiarowe

Wybierając zmienne (czyli informacje do przestawienia), należy pamiętać, że zmienne nie rodzą się równe. Wartości zmiennych opisywane są liczbami, jednak te liczby mają różne znaczenia w zależności od skali, w której są mierzone. Różne skale można kodować w lepszy lub gorszy sposób i różne charakterystyki wykresu nadają się lepiej lub gorzej do kodowania określonych zmiennych.

Na potrzeby dalszego opisu wyróżnijmy cztery grupy zmiennych odpowiadające czterem głównym skalom pomiarowym.

  • Skala ilorazowa (ang. ratio scale), czyli skala, w której istnieje fizyczny sens zarówno dla różnic, jak i ilorazów. Przykładem wartości w tej skali jest wielkość produkcji czy cena produktu. Zarówno różnica cen (kilogram gruszek jest o 2 złote droższy od kilograma jabłek) jak i iloraz cen (pomidory są dwa razy droższe niż jabłka) ma fizyczny sens. Skala ilorazowa charakteryzuje się tym, że ma element zerowy i ten element ma sens fizyczny (cena zero złotych, wysokość zero centymetrów itp). Zauważmy, że iloraz wartości nie zależy od jednostki (dwa razy więcej to dwa razy więcej, czy to w kilogramach czy w tonach) a różnica zależy. Dlatego jednostka jest atrybutem skali przedziałowej.

  • Skala przedziałowa/różnicowa (ang. interval scale) to skala, w której istnieje fizyczny sens różnic wartości, ale nie ich ilorazów. Przykładem wartości w tej skali są daty czy temperatura w stopniach Celcjusza. Nazwa “skala przedziałowa” bierze się stąd, że równe odległości/przedziały pomiędzy wartościami odpowiadają równym różnicom wartości. Czyli, jeżeli odległość pomiędzy $A$ i $B$ jest taka sama jak pomiędzy $D$ i $E$, to długości tych przedziałów są równe $A-B = D-E$.

  • Rysunek 1: Wysokość to przykład pomiaru w skali ilorazowej.

    W przypadku dat ma sens odejmowanie, możemy powiedzieć, że I wojna światowa rozpoczęła się 25 lat przed II wojną światową, ale nie mają sensu ilorazy (nie ma sensu mówić, że data rozpoczęcia II wojny jest o 13% większa niż data rozpoczęcia I wojny światowej).

    Porównując temperatury dwóch obiektów, załóżmy jednego o temperaturze $40^{o}C$, a drugiego o $20^{o}C$, nie ma sensu mówić o ilorazach temperatur w skali Celcjusza, ponieważ pierwsza z nich nie jest dwa razy wyższa niż druga. Zero w skali Celcjusza jest wyborem arbitralnym i te same temperatury przedstawione w stopniach Kelvina (odpowiednio $313,15^{o}K$, $293,15^{o}K$) czy Fahrenheita (odpowiednio $68^{o}F$, $104^{o}F$) odpowiadałyby różnym proporcjom.

    Dla wartości w skali Celcjusza nie jest zasadne korzystanie z cech pokazujących względne proporcje. Przestawianie temperatury za pomocą pasków o długości proporcjonalnej do liczb 40 i 20 byłoby błędem ponieważ temperatura $40^{o}C$ nie jest ani dwa razy cieplejsza ani nie niesie dwukrotnie więcej energii niż $20^{o}C$.

    Rysunek 1: Daty to przykład zmiennej na skali interwałowej.
    Daty można odejmować i mierzyć odległość pomiędzy nimi, np. w latach, ale nie ma sensu dzielić

  • Skala porządkowa (ang. ordinal scale), to skala, dla której istnieje fizyczny sens dla kolejności wartości, ale nie dla ich różnic czy ilorazów. Przykładem wartości w tej skali są iloraz inteligencji w skali IQ, ocena w szkole czy wykształcenie.

    Wartość IQ jest cechą unormowaną tak, by miała średnią 100 i odchylanie standardowe 15 w populacji. Wyższe wartości odpowiadają większej inteligencji (tego rodzaju inteligencji, który jest tą skalą mierzony). O ile więc porządek wartości ma pewien rzeczywisty sens, to ani ilorazy, ani różnice dwóch wartości IQ nie mają sensu. Wartość ilorazu inteligencji 200 nie oznacza dwukrotnie bardziej inteligentnej osoby od osoby o ilorazie inteligencji 100. Wartości IQ nie są też jednorodne wzdłuż skali, ponieważ różnica 30 punktów pomiędzy IQ 100 a IQ 130 jest znacznie mniejsza niż różnica pomiędzy IQ 130 a IQ 160.

    W przypadku ocen w szkole, ocena dostateczna (zazwyczaj kodowana jako 3) jest niższa od oceny celującej (zazwyczaj kodowanej jako 6). Nie ma jednak sensu mówienie, że ocena dostateczna jest dwukrotnie niższa od celującej lub że różnica ocen wynosi 3 (trzy czego?). Z tego samego powodu nie ma sensu liczenie średnich ocen. W niektórych krajach, np. USA, oceny są kodowane jako litery A–F, nikomu więc nie przychodzi do głowy liczenie średniej z liter. W Polsce oceny są liczbami, stąd też wszechobecna średnia ocen z kartkówek, przedmiotów, lat nauki.

  • Rysunek 2: Miejsce na podium to przykład skali porządkowej. Jak ocenić ile razy złoty medal jest więcej wart niż srebrny?

  • Skala nominalna (ang. nominal scale) to skala, w której wartości można zapisać za pomocą liczb, ale nie ma fizycznej interpretacji dla kolejności tych wartości, różnic czy ilorazów. Przykładem wartości w tej skali są numery PESEL, kody pocztowe, numery telefonów, czy płeć zakodowana np. za pomocą wartości 0 dla kobiet i 1 dla mężczyzn.

  • Na wykresie możemy przedstawiać wartości w różnych skalach. Wartości te są reprezentowane przez różne cechy elementów wykresu, takie jak długość, pole, kąt, liczba, pozycja, natężenie, kształt, barwa.

    W kolejnych podrozdziałach przyjrzymy się, jak poszczególne cechy ze sobą pracują i jak można je wykorzystać w prezentacji danych. Poznamy zalety i wady każdej z tych cech, dzięki czemu będziemy mogli je lepiej komponować ze sobą, tworząc bogate w informacje prezentacje danych. Na dobrym wykresie informacje odkrywane są etapami, najważniejsze są najbardziej widoczne, ale nie przesłaniają tych, które powinny zostać odkryte na kolejnych etapach analizy.

    Cechy są przedstawiane w kolejności, począwszy od tych, które najlepiej nadają się do przedstawiania zmiennych w skali ilorazowej, po zmienne, które najlepiej nadają się do przedstawienia zmiennych w skali nominalnej.

    Rysunek 3: Kody pocztowe to przykład skali nominalnej. Niby liczby, ale czy Warszawa jest mniej, czy bardziej niż Wrocław?

    Długość/szerokość

    Jedną z najczęściej wykorzystywanych cech jest długość. Często dane przedstawia się za pomocą długości pasków lub wysokości słupków (paski i słupki różnią się tylko tym, że jedne są szersze a drugie wyższe), ale można też je przedstawiać za pomocą długości łuków koła, wysokości ikon lub elementów ikon na wykresie.

    Długość jest cechą szczególnie dobrą do prezentacji zmiennych na skali ilorazowej. Intuicyjnie, porównując dwie długości, porównujemy ich względne stosunki i robimy to bardzo szybko i dokładnie. Porównując liczby 179 i 537, znacznie łatwiej będzie zauważyć, że pierwsza jest trzy razy mniejsza niż druga, jeżeli przedstawimy je za pomocą długości dwóch słupków niż za pomocą liczb trzycyfrowych.

    Badania nad percepcją pokazują, że łatwiej i dokładniej można porównać długości odcinków niż nieregularnych krzywych (łuków czy pętli). Zgodnie z badaniami Williama Clevelanda [Journal of the Royal Statistical Society Series A, 150: 192--229, 1987] najdokładniej odczytywane są względne długości obiektów ułożonych wzdłuż wspólnej osi. Przyjrzymy się kilku przykładowym zastosowaniom długości do przedstawiania zmiennych.

    Najbardziej popularnym typem wykresu wykorzystującym długości są różnorodne odmiany wykresów słupkowych, nazywanych też wykresami paskowymi lub histogramami Oglądając taki wykres, instynktownie porównujemy stosunki długości słupków. Dlatego z wykresów tego typu łatwiej odczytać, ile razy lub o jaki procent jedna wielkość jest większa od drugiej. Trudniej przychodzi nam oceniać różnice długości. To, że jeden z pasków jest dłuższy o jeden centymetr, będzie inaczej odbierane, jeżeli ten pasek ma dwa centymetry, a inaczej, jeżeli ma tych centymetrów trzydzieści.

    Rysunek 4: Wykres paskowy. Długości pasków odpowiadają ludności pięciu największych miast w Polsce (Warszawa 1,7 miliona, Kraków 759 tys., Łódź 725 tys., Wrocław 631 tys., Poznań 554 tys.). Dobry sposób do przedstawiania względnych proporcji, mózg precyzyjnie szacuje ilorazy długości pasków

    Wykres słupkowy pozwala na porównywanie względnych proporcji długości słupków, które powinny odpowiadać względnym proporcjom danych, ale aby tak było, długość powinna być proporcjonalna do prezentowanych wartości. Oznacza to, że jeżeli pasek zaczepiony jest na osi, to musi zaczynać się w punkcie zero (tylko wtedy dwa razy dłuższy pasek będzie odpowiadał dwa razy większej wartości). Niestety ta reguła jest często łamana w sytuacjach, gdy okazuje się, że po zaczepieniu pasków w zerze nie widać różnic pomiędzy wartościami (przykłady takich przesunięć pokażemy w kolejnym rozdziale). Wtedy osoba pokazująca dane, aby podkreślić różnice pomiędzy wartościami, przesuwa punkt zaczepienia pasków, powodując błędne wrażenie większych proporcji niż te opisywane przez dane. Dlaczego błędne? Jeżeli słupki uczciwie zaczepione w punkcie 0 nieznacznie tylko różnią się długością, to oznacza, że prezentowane wielkości nie różnią się znacznie, przez co albo nie należy pokazywać proporcji (= użyć innego wykresu), albo uczciwie pokazać, że wartości się nie różnią (= pozostawić paski o podobnych długościach).

    Nazwa histogram pochodzi ze złożenia dwóch greckich słów histosgramma Pierwsze oznacza rzeczy stojące pionowo, drugie oznacza zapis, a w sumie chodzi o zapis danych z użyciem pionowych słupków. Obecnie używa się tej nazwy wyłącznie w sytuacji gdy przedstawiany jest rozkład zmiennej

    Z prezentacją danych za pomocą długości słupków/pasków wiąże się kilka ciekawych zagadnień. Pierwszym jest wybór kierunku, w którym skierowane są słupki. Najlepiej szacujemy długości obiektów umieszczonych wzdłuż wspólnej osi pionowej lub poziomej, więc paski powinny być skierowane w jednym z tych kierunków. Czy któraś z tych dwóch orientacji jest lepsza? Tak się składa, że najczęściej wykresy umieszczane są w prostokątnych obszarach (bardzo często w proporcjach zbliżonych do 7:5), które są z reguły szersze niż wyższe. Z punktu widzenia precyzji odczytywania wartości, im więcej mamy miejsca na pokazanie czegoś, tym większą mamy rozdzielczość, by to coś przedstawić. Z tego punktu widzenia, jeżeli obszar do wypełnienia wykresem jest szerszy niż wyższy, to lepiej by paski przedstawione były poziomo. W mediach można czasem spotkać skrajne przykłady łamania i tej reguły. Karykaturalnie wyglądają słupki kilkukrotnie szersze niż wyższe, w których jednak to wysokość jest cechą związaną z prezentowanymi danymi. W pewnych polach zastosowań spotkać można reguły zwyczajowe, np. by poziome paski używać do prezentacji długości (np. długości rzek) a pionowe słupki do innych rodzajów danych (np. kwoty pieniędzy). Należy też mieć na uwadze przyzwyczajenia osób, do których kierujemy wykres. Dla matematyków i inżynierów, osób często obcujących z wykresami funkcji, naturalnym ułożeniem są parametry na osi poziomej, a wartości na osi pionowej, co jest realizowane przy pionowej orientacji słupków.

    Rysunek 5: Wykres słupkowy (paskowy w orientacji pionowej). Długości słupków odpowiadają ludności pięciu największych miast w Polsce (Warszawa 1,7 miliona, Kraków 759 tys., Łódź 725 tys., Wrocław 631 tys., Poznań 554 tys.). Teraz paski wyglądają bardziej jak słupki, ale ponieważ zazwyczaj obszar do zarysowania jest szerszy niż wyższy, więc ustawianie pasków pionowo zmniejsza dokładność prezentacji danych.

    Kolejne ciekawe zagadnienie to szerokość słupka/paska. Na standardowym wykresie paskowym szerokość pasków nie niesie żadnej informacji. Jest wręcz czynnikiem zakłócającym, ponieważ nasza percepcja musi wpierw ocenić, czy szerokość pełni, czy nie pełni jakiejś funkcji. Minimalistyczne podejście do prezentacji, którego jestem wyznawcą, nakazuje, by usuwać z wykresu wszystkie te elementy, które nie pełnią żadnej funkcji. To podejście prowadzi do usunięcia szerokości pasków i zastępowania pasków odcinkami. Jeżeli odcinek jest bardzo wąski to warto zakończyć go dodatkowo punktem tak, by wyraźnie było widać, gdzie ten odcinek się kończy. O ile punkt jest jeszcze do przyjęcia, to nie należy używać strzałek lub innych elementów, które mogą wpłynąć na optyczną ocenę długości odcinka.

    Rysunek 6: Wykres paskowy o cienkich paskach. Przedstawia procent matek 15-letnich dzieci, które za swój zawód podają gospodyni domowa, w różnych krajach (na bazie danych PISA212)

    Kolejnym istotnym czynnikiem, ułatwiającym poprawne odczytanie względnych długości, jest wyrównanie pasków wzdłuż wspólnej osi. Nawet jeżeli dwa odcinki są równoległe, ale nie mają wspólnego punktu zaczepienia, precyzja odczytania proporcji ich długości znacząco spada. Jeżeli odcinki nie są równoległe, to jeszcze trudniej porównać jest ich długości.

    Z punktu widzenia precyzji odczytania informacji z wykresu bardzo złym pomysłem jest więc umieszczanie słupków ma kartogramach, ponieważ trudno jest porównać długości słupków pozaczepianych w różnych punktach mapy. Znacznie lepiej będzie zamiast długości użyć innej cechy nieczułej na wspólny punkt zaczepienia, takiej jak nasycenie lub wielkość.

    Rysunek 7: Kartogram prezentujący średnie wynagrodzenie brutto na koniec roku 2013 w sektorze przedsiębiorstw (na bazie danych GUS). Długości słupków trudno porównać, jeżeli nie mają wspólnego punktu zaczepienia, trudno zauważyć różnice pomiędzy wynagrodzeniem w województwie śląskim (5,3 tys.), mazowieckim (4,8 tys.) czy dolnośląskim (4,1 tys.)

    Problem wspólnej osi dotyka również wykresy, w których słupki są dodatkowo podzielone na segmenty.

    Dzielenie słupków na segmenty ma pewne zalety. Dla każdego ze słupków pokazuje, jaką częścią całości jest określona składowa, i dla każdego ze słupków ta ocena jest dosyć dobra. Ale podział na segmenty ma też wady. Jedną z wad jest to, że nie sposób porównać względnego udziału składowych w różnych paskach. Dla jednego paska wyróżnione może być jego 20%, ale jeżeli drugi pasek będzie miał inną długość to i to 20% będzie miało inną długość, a porównanie względnych długości wcale nie jest proste.

    Rysunek 8: Wykres słupkowy przedstawiający liczbę studentów na pierwszym roku w rozbiciu na typy uczelni (stan na koniec 2012 roku). Dodatkowo zaznaczono udział kobiet (kreskowane pole) i mężczyzn (białe pole) w każdej z tych kategorii

    Inna trudność to porównanie bezwzględnych wartości poszczególnych składowych, o ile nie zaczynają się w tym samym punkcie. A poza pierwszymi segmentami, pozostałe najpewniej zaczynają się w różnych punktach.

    Istnieje kilka wyjątków od reguły, by porównywane paski były wyrównane wzdłuż wspólnej osi. Wszystkie te wyjątki związane są z przesunięciem akcentu ze względnego porównania długości na jakiś inny aspekt. Na przykład można tak przedstawić migracje ludności (patrz rysunek ref{fig:bilansZN}), eksport/import dóbr, czy, z mniej standardowych wskaźników, stosunek wiadomości pocztowych wychodzących/przychodzących od dziewczyny. Zasada wspólnego punktu zaczepienia jest tu co prawda obecna ale w złagodzonej formie. Jedynie dwa sąsiednie paski mają wspólny punkt zaczepienia.

    Rysunek 9: Wykres słupkowy przedstawiający liczbę kobiet (kreskowane paski) i mężczyzn (białe paski) studiujących na pierwszym roku w rozbiciu na typy uczelni (stan na koniec 2012 roku). W tym ujęciu łatwej porównać udział kobiet i mężczyzn dla każdej z kategorii

    Innym przykładem, gdy odstępstwo od reguły wspólnego punktu zaczepienia może być korzystne, jest prezentacja zmiennych w skali Likerta lub podobnej. Standardowa skala Likerta jest używana do oceny nastawienia do pewnego zjawiska, przy czym to nastawienie opisane jest w skali symetrycznej, w której element środkowy (jeżeli występuje) jest elementem neutralnym. Zazwyczaj jest to skala pięciostopniowa, choć można oczywiście spotkać podobne skale dwu-, trzy-, cztero- i więcej stopniowe. Przykładowe warianty tej skali to odpowiedzi: “zdecydowanie zgadzam się”, “raczej się zgadzam”, “nie mam zdania”, “raczej się nie zgadzam”, “zdecydowanie się nie zgadzam”.

    Przedstawiając względny udział odpowiedzi “zgadzam się” oraz “nie zgadzam” warto zaczepić punkt zero osi w środku przedziału dla wartości neutralnej. Dzięki temu łatwiej porównać jest bilans pozytywnych i negatywnych odpowiedzi.

    Rysunek 10: Bilans zgonów i narodzin w Polsce w latach 2009 – 2011 w tysiącach osób. Strzałkami zaznaczono znak, dodano poziome linie by ułatwić śledzenie jak bilans zmienia się w latach

    Zastosowań wykresów paskowych jest wiele i również nie sposób ich tutaj wszystkich wymienić. Popularne histogramy są koniec końców wykresami paskowymi. Ostatnim przykładem interesującego wykresu wykorzystującego długości pasków, który tu przedstawimy, jest tak zwana piramida wieku/piramida populacyjna, czyli dwa histogramy sklejone ze sobą wzdłuż pionowej osi. Pionowa oś jest podzielona na kategorie wiekowe, najczęściej odpowiadające przedziałom wiekowym równej długości, w poziomie zaś przedstawiany jest względny udział określonej grupy wiekowej w populacji w podziale na płeć.

    Rysunek 11: Wykres paskowy przedstawiający liczbę odpowiedzi “Bardzo się zgadzam”, “Zgadzam się”, “Nie zgadzam się”, “Bardzo się nie zgadzam” na stwierdzenie “Czytam książki, tylko gdy muszę” wśród 15-letniej młodzieży (na bazie danych PISA 2009)

    Taka prezentacja danych ułatwia porównanie względne grup wiekowych, szczególnie sąsiednich. Trudno jest jednak porównać względne długości pasków skierowanych w lewo i prawo. Okazuje się jednak, że i tę trudność można tanim kosztem pokonać. W grupie, w której występuje nadwyżka, wystarczy zaznaczyć, o ile dany pasek jest dłuższy od paska skierowanego w stronę przeciwną.

    Lista zastosowań długości jest ograniczona wyłącznie do wyobraźni projektanta wykresu. Przedstawialiśmy przykłady dla długości pasków, ale można wykorzystywać na wykresie długości innych elementów wykresu.

    Podrozdział poświęcony długości zakończymy przykładem złego jej wykorzystania. Zdarza się, że całkiem czytelny wykres, jest niszczony przez dodawanie zbędnych udziwnień. Jednym z najbardziej szkodliwych, niczego nie wnoszących udziwnień jest pseudo-perspektywa, mająca stwarzać wrażenie trójwymiarowości. Powoli takie zbędne udziwnienia znikają z raportów, ale wciąż można spotkać wykresy, których autor z jakiegoś powodu sądzi, że zasugerowanie trzeciego wymiaru uczyni wykres ciekawszym. Tymczasem, jeżeli dane i zawarta w nich informacja nie czynią wykresu ciekawym, to żadne ozdobniki mu nie pomogą.

    Rysunek 12: Piramida populacyjna dla Polski na bazie danych z Narodowego Spisu Powszechnego 2011.
    W wielu krajach, w tym w Polsce, struktura wieku przypomina dzban lub inną figurę, w której podstawa jest węższa niż elementy powyżej. Dzieci jest mniej niż dorosłych, a populacja ludzi starszych systematycznie rośnie

    Pseudo-trzeci wymiar jest szkodliwy z wielu powodów. Jednym jest to, że potrafimy dobrze porównywać względne długości obiektów o wspólnym punkcie zaczepienia. Ale gdy w grę wchodzi trzeci wymiar, okazuje się, że obiekty z drugiej linii, “głębiej” położone na wykresie są wyżej lub niżej niż obiekty z pierwszej linii. Przez co znakomicie utrudniamy obserwatorowi możliwość odczytania, który z tych pasków jest dłuższy.

    Kolejnym powodem jest trudność z umieszczaniem osi. Obiekty położone głębiej powinny mieć inną oś niż obiekty położone płycej. Gdy oś jest umieszczona z przodu wykresu, czasem okazuje się, że słupek przedstawiający wartość 1810 kończy się przed linią siatki odpowiadającą wartości 1800, tylko dlatego, że słupek jest głębiej niż linie siatki. Jeszcze jednym problemem jest dodatkowe pokazywanie górnej ścianki pudełka, która dodatkowo “podnosi” jego wysokość. Pokazywanie tej górnej ścianki nic nie wnosi, ale zaburza postrzeganie długości.

    Podsumowując, długość pasków na wykresie jest cechą pozwalającą na bardzo dokładne prezentowanie zmiennych ze skali ilorazowej, o ile nie zepsujemy tego efektu zbędnymi udziwnieniami.

    Rysunek 13: Wykres słupkowy z dodaną pseudo perspektywą przedstawiający liczbę studentów na pierwszym roku w rozbiciu na płeć (słupki kreskowane opisują żeńską populację, a białe męską populację) i typ uczelni (stan na koniec 2012 roku)

    Liczba

    Kolejną cechą użyteczną do prezentowania danych jest liczebność. Jest ona rzadziej stosowana od długości, ale cechuje się równie doskonałą precyzją przedstawiania i pozwala na otrzymanie interesujących efektów. Liczba wystąpień określonego obiektu na wykresie staje się nową jednostką. Jeżeli tych wystąpień nie jest dużo, to jesteśmy w stanie intuicyjnie dokładnie oszacować tę liczbę. Jeżeli tych wystąpień jest dużo, to można je pogrupować w widoczny sposób tak, by łatwe było oszacowanie liczby grup.

    Podobnie jak długość, liczebność jest cechą szczególnie dobrą do prezentacji zmiennych na skali ilorazowej. Jest tak po części dlatego, że jeżeli obiekty umieszczone są w jednej linii, to liczba ich wystąpień jest proporcjonalna do długości całej grupy. Chcemy przedstawić liczbę 75? Określmy, że jeden symbol odpowiada wartości 10 i narysujmy 7 i pół symbolu.

    Taki sposób przedstawiania danych był preferowany przez Otto Neuratha [Neurath Otto. Modern Man In The Making 1939], który stworzył system ISOTYPE do komunikacji danych statystycznych szerokiemu odbiorcy. Jego celem było wykorzystanie grafiki statystycznej do komunikowania informacji o funkcjonowaniu państwa obywatelom i system ISOTYPE ten cel realizował. Neurath preferował używanie liczby obiektów do przedstawiania wartości z uwagi na łatwość interpretacji i czytelność tego sposobu prezentacji.

    Oczywiście dowolny symbol może zamienić się w jednostkę, ale najlepiej, by ten symbol swoim wyglądem kojarzył się ze zmienną, którą opisuje. Jeżeli opisujemy liczebność populacji ludzi, to ludzik jest dobrym rozwiązaniem, jeżeli opisujemy produkcję samochodów, to może sylwetka samochodu? Otto Neuratha opracował cały zestaw czytelnych ikon, które mogą być używane do opisywania typowych aspektów funkcjonowania państwa.

    Wybierając wielkość jednostki, którą przedstawia pojedynczy symbol, warto zadbać by liczba obiektów była łatwa do szybkiego oszacowania. Najlepiej, by była w granicach od kilku do kilkunastu, maksymalnie dwudziestu elementów. Jeżeli elementów jest więcej, to warto je pogrupować np. w grupy po 5–10 obiektów. Jeżeli przy odczytaniu wykresu trzeba spędzić sporo czasu, aby dokładnie porachować liczbę obiektów, to kłóci się to z ideą prezentacji danych jako szybkiego medium w komunikowaniu informacji.

    Rysunek 14: Liczba mieszkańców Warszawy przedstawiona techniką ISOTYPE. W Warszawie mieszka 1,7 miliona osób, z czego 786 tysięcy (46%) to mężczyźni a  933 tysiące (54%) to kobiety. Do tego dochodzi około 150 tysięcy psów, 30 tysięcy kotów i trudna do ustalenia liczba innych zwierząt

    Pole

    Długość i liczebność to dwie cechy, które najbardziej precyzyjnie przedstawiają informacje o zmiennych w skali ilorazowej. Czasem jednak precyzja przekazania informacji to nie wszystko, liczy się również wizualna atrakcyjność prezentacji danych. Okazuje się, że cechą względnie prostą w odczytaniu, a jednocześnie atrakcyjną wizualnie jest pole. Wizualna atrakcyjność polega na tym, że duże pola łatwo zauważyć, “rzucają się w oczy” i przykuwają uwagę. Używając pola można też lepiej wypełnić dostępną przestrzeń, nie pozostawiając dużych białych plam, jak to ma miejsce w przypadku prezentacji opartej o długość czy pozycję.

    Zanim jednak zaprezentujemy przykłady zastosowań pola, warto wymienić kilka wad tego sposobu prezentacji. Cztery wady wydają się być najpoważniejsze.

    • Względne stosunki pól figur są oceniane z mniejszą dokładnością niż stosunki długości. Dlatego, jeżeli zależy nam na precyzji przedstawienia danych, pole może nie być najlepszym wyborem.

    • Odbiór powierzchni figury zależy od natężenia koloru tej figury. Jeżeli przedstawiane powierzchnie różnią się kolorami, to kolory intensywniejsze będą optycznie powiększały, a kolory stonowane i ciemniejsze będą wizualnie pomniejszały (Czarne ubrania wyszczuplają). Aby uniknąć tego problemu, należy używać kolorów o podobnym natężeniu lub z nich zrezygnować.

    • Im bardziej nieregularne są porównywane figury, tym trudniej oszacować i porównać ich pola. Najłatwiej przychodzi porównywanie pól regularnych kształtów, takich jak koła czy kwadraty, trudniej prostokątów, a jeszcze trudniej nieregularnych figur.

    • Im bardziej różne są kształty porównywanych figur, tym trudniej ocenić ich względne stosunki pól. Porównując dwa prostokąty, najłatwiej ocenić względne stosunki pól, gdy prostokąty te mają tę samą szerokość, ponieważ wtedy ocena pól oparta jest o ocenę długości. Mniej dokładnie, ale wciąż względnie dobrze, można oceniać stosunki pól prostokątów o tych samych proporcjach długości boków. Najmniej dokładnie porównywać można pola prostokątów różniących się znacznie proporcjami długości boków. Podobnie z innymi figurami, takimi jak elipsy, czy bardziej złożonymi symbolami. Im bardziej dwa kształty są podobne, tym łatwiej będzie porównać ich względne pola.

    Czy, szanowny Czytelniku, czujesz się ostrzeżony, jak bardzo pola są niebezpieczne? Przyjrzyjmy się zatem teraz przykładom użycia tej cechy.

    Najbardziej typowym zastosowaniem są wykresy kafelkowe, czyli wykresy, na których wartości liczbowe przedstawione są za pomocą wielkości prostokątów/kafelków. Intuicyjna interpretacja jest taka, że im większy kafelek tym ważniejsza/większa jest reprezentowana przez niego wartość. Duże wyraźne kafelki wyglądają solidnie, a jak pokazują badania, solidnie wyglądający wykres budzi większe zaufanie (paradoksalnie, nawet jeżeli mniej dokładnie przedstawia wartości).

    Kafelki znajdują zastosowanie nie tylko na wykresach statystycznych. Coraz częściej są też wykorzystywane w czytnikach wiadomości do zaznaczania, które wiadomości są ważniejsze, na stronach internetowych gazet lub w systemie operacyjnym do nawigacji po aplikacjach.

    Ponieważ kafelki zazwyczaj wypełniają pewien prostokątny obszar, nadają się świetnie do prezentowania struktury, np. struktury wydatków, inwestycji, nakładów.

    Rysunek 15: Wykres kafelkowy. Wartości są przedstawione przez powierzchnie prostokątów. Przedstawiony jest udział różnych obszarów w wydatkach publicznych Polski w roku 2011



    Rysunek 16: Wykres bąbelkowy przedstawiający udział spółek w indeksie WIG 20, stan na początek roku 2014. Każda spółka jest przedstawiona przez jedno koło, kreskowanie koła odpowiada branży, w której działa spółka (branże reprezentowane przez jedną spółkę połączono w grupę “inne”). Pole koła odpowiada udziałowi spółki w indeksie i różni się od udziału na wysokości 0,925 dla GTC do 15,995 dla PKO. Pełne nazwy: Asseco Poland ACP, Bank Handlowy BHW, Bank Pekao PEO, Bank Zachodni BZW, Eurocash EUR, Globe Trade Centre GTC, Grupa LOTOS LTS, Jastrzębska Spółka Węglowa JSW, Kernel Holding KER, Polska Miedź KGHM, Lubelski Węgiel “Bogdanka” LWP, mBank MBK, Orange Polska OPL, Orlen PKN, Bank Polski PKO, Polska Grupa Energetyczna PGE, Polskie Górnictwo Naftowe i Gazownictwo PGN, PZU SA, Synthos SNS, Tauron TPE

    Pozwalają dodatkowo zaznaczyć hierarchię przedstawianych wartości. Przykładowo można wszystkie wydatki podzielić w pierwszym kroku na obszary, a następnie w ramach każdego obszaru na podobszary. Na wykresie całe dostępne pole będzie w pierwszym kroku podzielone na prostokąty odpowiadające obszarom, a następnie każdy z tych kafelków będzie podzielony na mniejsze kafelki. Strukturę można zaznaczyć na różne sposoby, np. stosując grubsze krawędzie dla kafelków opisujących obszary lub inne kolory dla różnych obszarów.

    Wadę wykresu kafelkowego stanowi trudność w porównywaniu względnym pół prostokątów o różnych proporcjach długości boków. Jednym ze sposobów na przezwyciężenie tego problemu jest użycie kół zamiast prostokątów. Taki sposób prezentacji nazywa się często wykresem bąbelkowym

    Koło jest bardziej naturalnym kształtem niż prostokąt, jeżeli więc nie dbamy o precyzje prezentowania wielkości, ten typ prezentacji może być graficznie atrakcyjny. Koła są też używane, aby przykuć uwagę oryginalnym wyglądem. Pewnym problemem są puste, nie pełniące żadnej funkcji, pola pomiędzy kołami. Można jednak metodą prób i błędów znaleźć takie rozłożenie kół, przy którym niewiele przestrzeni się marnuje.

    Z punktu widzenia dokładności prezentacji liczb wykres kafelkowy jest ciekawym rozwiązaniem, szczególnie, gdy chcemy przedstawić wiele elementów składowych jakiejś większej całości. Pozwala też na przedstawienie hierarchii wartości, co często jest użyteczne. Gdy chcemy prezentować kilkupoziomowe hierarchie, które na kolejnych poziomach dzielone są tymi samymi czynnikami, bardzo użyteczny może być wykres mozaikowy

    Aby efektywnie odczytywać informacje z wykresu mozaikowego, potrzeba więcej umiejętności, jest to prawdopodobnie powód, dla którego jest on tak rzadko wykorzystywany, pomimo wielu niewątpliwych zalet.

    Jak więc go czytać? Przyjmijmy, że chcemy przedstawić udział pewnych wartości w rozbiciu na różne zmienne. Np udział osób w populacji w rozbiciu na wykształcenie, wiek i płeć. Strukturę kredytów bankowych w rozbiciu na typ kredytobiorcy, wielkość długu, okres zadłużenia. Przykłady można mnożyć.

    Punktem wyjścia jest prostokąt opisujący całą populację. Następnie ten prostokąt dzieli się w pionie lub poziomie na części zależne od udziału pierwszej z interesujących nas zmiennych w populacji. Jeżeli podzieliliśmy prostokąt w poziomie, to względny udział szerokości pokaże, jakie wartości pierwszej ze zmiennych są częstsze lub rzadsze.

    W kolejnym kroku każdy z uzyskanych w pierwszym kroku prostokątów dzielimy w pionie lub poziomie na części przedstawiające względny udział drugiej zmiennej w grupie osób o określonej wartości pierwszej zmiennej. Jeżeli pierwszą zmienną była grupa wiekowa a drugą wykształcenie, to każdy prostokąt odpowiadający grupie wiekowej dzielimy następnie na podprostokąty odpowiadające udziałowi określonego wykształcenia w danej grupie wiekowej. Pozwala to na bardzo łatwe porównanie, czy w różnych grupach wiekowych struktura wykształcenia jest podobna czy różna. Analogicznie możemy dodawać kolejne wymiary, dalej dzieląc każdy z prostokątów na części.

    Wykresy mozaikowe są też bardzo użyteczne podczas prezentacji danych, w których chcemy “zagłębić się w problem”. W takim przypadku kolejność uwzględniania zmiennych w prezentacji różni się jednak od kolejności zmiennych użytych do konstrukcji wykresu.

    Dlaczego? Przypuśćmy, że interesuje nas struktura wykształcenia w kraju. Ciekawym sposobem prezentacji takiej struktury jest rozpoczęcie od wykresu pokazującego, ile jest osób z wykształceniem wyższym, średnim i gimnazjalnym lub niższym. Następnie “zejście poziom głębiej” i przyjrzenie się tej strukturze w podziale na grupy wiekowe (ten wykres najpierw dzieli populacje na grupy wiekowe a następnie na wykształcenie). W kolejnym kroku możemy dodatkowo zejść jeszcze głębiej z podziałem i zobaczyć, jak wykształcenie wygląda w różnych grupach wiekowych i w podziale ze względu na płeć (ten wykres otrzymujemy, dzieląc populację najpierw na grupy wiekowe, a następnie na płeć i wykształcenie).

    Technicznie rzecz ujmując, wykresy mozaikowe przedstawiają warunkowe rozkłady zmiennych. Używając ich umiejętnie, możemy skuteczniej wyjaśniać względne zależności pomiędzy zmiennymi.

    Rysunek 17: Wykres mozaikowy, przedstawia udział osób z wykształceniem gimnazjalnym lub niższym (niepełne podstawowe, podstawowe i gimnazjalne), średnim (ogólnokształcące lub zawodowe) lub wyższym (licencjat/inżynier lub wyżej) w Polsce wśród osób mających ponad 15 lat



    Rysunek 18: Wykres mozaikowy, przedstawia udział osób z o różnym poziomie wykształcenia w rozbiciu na grupy wiekowe. Pole każdego prostokąta odpowiada udziałowi określonej grupy wiekowej/wykształcenia w populacji, wysokość prostokąta odpowiada udziałowi osób z danym wykształceniem w określonej grupie wiekowej. Co ciekawe, udział osób z wykształceniem wyższym w grupie w wieku 26-35 lat jest najwyższy



    Rysunek 19: Wykres mozaikowy, przedstawia udział osób z o różnym poziomie wykształcenia w rozbiciu na grupy wiekowe oraz płeć. Pole każdego prostokąta odpowiada udziałowi określonej grupy wiekowej/płci/wykształcenia w populacji, wysokość odpowiada udziałowi osób w określonej grupie wiekowej i płci

    Kąty

    Ostatnią z cech, które są używane do przedstawiania zmiennych w skali ilorazowej, są kąty. Charakteryzują się one mniejszą precyzją kodowania wartości niż długość, liczebność czy pole. Względnie dobrze odczytywane są kąty bliskie wielokrotnościom $90^o$, ale im dalej od kąta prostego, tym trudniej dokładnie oszacować, na jaki kąt właściwie patrzymy.

    Pomimo tego braku w precyzji, kąty i nachylenia są wykorzystywane do przedstawiania liczb i zależności pomiędzy nimi, szczególnie w sytuacjach, gdy odczytanie dokładnej wartość liczbowej nie jest ważne, a ważna jest identyfikacja niedużej liczby możliwych wartości (typu niewielkie nachylenie, średnie lub duże). Zaletą kątów jest też ograniczona dziedzina od $0^o$ do $360^o$ i intuicyjna interpretacja kątów jako części całości (kąta pełnego).

    Najbardziej znany wykres wykorzystujący kąty to oczywiście wykres kołowy (ang. pie chart). Wartości liczbowe przedstawiane są proporcjonalnie do kątów, a tym samym do pól wycinków koła.

    Wykresy tego typu mają wielu zagorzałych zwolenników jak i wielu zagorzałych przeciwników. Przeciwnicy dowodzą, że nasz umysł nie potrafi dokładnie odczytywać kątów, które nie są wielokrotnościami $90^{o}$. Również na dokładność oceny kątów wpływa ich położenie. Dokładniej odczytujemy kąty umieszczone w osi poziomej niż ukośnej. Puryści dbający o dokładność przekazu w najlepszym przypadku odradzają, w najgorszym piętnują używanie wykresów kołowych

    Rysunek 20: Wykres kołowy. Przedstawiono częstości odpowiedzi 15-latków w Polsce na pytanie czy i jak często grają w szachy (na podstawie danych PISA2012)

    Dlaczego więc te wykresy są używane? Z jednej strony ich konstrukcja jest bardzo intuicyjna. Patrząc na wykres od razu wiemy, że przedstawia udział różnych czynników w całości. Pracując kiedyś ze studentami ASP przy prezentacji danych, dowiedziałem się również od nich, że koło jest postrzegane jako obiekt przyjazny, estetyczny, naturalny, nie straszy odbiorcy. Kierując więc komunikat do szerokiej publiczności, można poświęcić precyzję, na rzecz przyjazności.

    John Tukey znany był ze swojej niechęci do tego rodzaju wykresów oraz stwierdzenia, że nie ma danych, które można przedstawić na wykresie kołowym, a których nie można przedstawić lepiej w inny sposób

    Modyfikacją wykresu kołowego jest wykres obwarzankowy/
    wykres pierścieniowy, czyli wykres kołowy z usuniętym środkiem koła. Krytyka wykresów obwarzankowych idzie po linii krytyki wykresów kołowych, nie mając wspólnego punktu zaczepienia jest jeszcze trudniej ocenić względne proporcje kątów oraz względne proporcje pól.

    Dosłowne tłumaczenie ang. donut chart to wykres pączkowy. Ale polskie pączki rzadko mają dziurę w środku, więc nazwa obwarzankowy wydaje się odpowiedniejsza

    Dlaczego więc piszemy o tym typie prezentacji danych? Pewną zaletą wykresów obwarzankowych jest możliwość porównania struktury dwóch lub, w skrajnych przypadkach, większej liczby grup.

    Standardowe wykresy kołowe zupełnie się do tego nie nadają. Umieszczenie dwóch wykresów kołowych obok siebie w żaden sposób nie ułatwia porównywanie udziału poszczególnych wycinków w różnych kołach. Obwarzanki mogą być zestawiane jeden w drugim, przez co łatwiej można porównać strukturę. W tym przypadku najlepszym elementem do porównywania jest względna długość łuku wspólnego pierścienia obu obwarzanków.

    O ile można szukać usprawiedliwienia dla wykresów kołowych i obwarzankowych, nie sposób znaleźć żadnego usprawiedliwienia dla wykresów kołowych przedstawionych w pseudo trzech wymiarach.

    Rysunek 21: Wykres obwarzankowy/pierścieniowy przedstawiający jak często 15-letni chłopcy i dziewczęta grają w szachy (na podstawie danych PISA 2012). Takie zestawienie pozwala na porównanie dwóch struktur ze sobą

    W wykresach kołowych wielkości opisane są przez kąty i powierzchnie. A co się dzieje z kątami i powierzchniami, gdy dodajemy rzut z przestrzeni 3D na 2D? Kąty w osi poziomej są optycznie pomniejszane, kąty w osi pionowej są optycznie powiększane, podobne zniekształcenie dotyczy powierzchni, która jako powierzchnia nieregularnego kształtu jest dodatkowo trudna w oszacowaniu.

    Bardzo proste eksperymenty pokazują, że obserwatorzy błędnie oszacowują nie tylko wartości odpowiadające “wycinkom tortu”, ale również porządek tych wycinków.

    Jedyne uzasadnienie dla trójwymiarowych wykresów kołowych to potrzeba zniekształcenia danych. Jeżeli chcemy jakąś wartość optycznie powiększyć lub zmniejszyć, to możemy ją umieścić bliżej pionowej lub poziomej osi i możliwie pochylić trójwymiarowy wykres kołowy.

    Rysunek 22: Pseudo trójwymiarowy wykres kołowy (tzw. wykres tortowy), przedstawiający, jak często 15-latkowie w Polsce grają w szachy

    O ile krytyka wykresów kołowych jest dosyć powszechna, to można znaleźć zastosowania kątów w prezentacji danych cieszące się uznaniem nawet konserwatywnych projektantów grafiki statystycznej. Jednym z takich ciekawych rozwiązań są wykresy zmian przedstawiające kierunki i względne wielkości zmian pomiędzy dwoma punktami czasu lub pomiędzy dwoma grupami.

    Pomysł polega na umieszczeniu wartości dla pewnej liczby grup w dwóch kolumnach, a następnie połączeniu tych wartości odcinkami. Łatwo jest optycznie ocenić, które odcinki są płaskie, a które strome, przez co optycznie łatwiej ocenić, w których grupach zmiana była największa, a w których najmniejsza.

    Typowym zastosowaniem wykresów zmian jest obserwacja, jak w czasie zmieniają się pewne wartości, np. jak zmieniła się liczba studentów w różnych typach uczelni w ciągu 10 lat, jak zmienił się stan pacjentów po zastosowaniu terapii. Można zamiast czasu porównywać zarobki dla różnych zawodów pomiędzy mężczyznami a kobietami lub pomiędzy dwoma krajami.

    Rysunek 23: Wykres zmian przedstawiający, jak zmieniła się liczba studentów studiujących na uniwersytetach, uczelniach ekonomicznych i technicznych pomiędzy latami 2000 (lewa część) a 2010 (prawa część). Zaletą tego rodzaju prezentacji danych jest łatwa względna ocena, gdzie zmiany były większe, a gdzie mniejsze

    Wykresy zmian porównują wartości pomiędzy dwoma punktami czasowymi. Można oczywiście naturalnie je rozszerzyć na więcej punktów czasowych, otrzymując wykresy trendu, w których ewolucja pewnej wartości jest obserwowana w większej liczbie punktów czasowych.

    Jeżeli chcemy ułatwić porównywanie tempa zmian (a więc ocenę, czy trend przyśpiesza, czy nie) ciekawym rozwiązaniem jest zastosowanie reguły $45^{o}$. Zaleca ona takie dobranie szerokości i wysokości wykresu, by średni kąt zmian był równy $45^{o}$. Ponieważ nasze oko ma tendencję do przekłamywania oceny kątów tak, by była ona bliższa wielokrotnościom $90^{o}$, dlatego zwiększymy w ten sposób optycznie kontrast pomiędzy miejscami, gdzie zmiana jest mniejsza, a miejscami gdzie zmiana jest większa niż $45^{o}$.

    Przesadne rozciąganie wykresu będzie optycznie zmniejszało trend, a przesadne ściśnięcie będzie optycznie trend powiększało, z tego też powodu reguła $45^{o}$ jest dobrym wypośrodkowaniem pomiędzy tymi dwoma rodzajami zniekształceń.

    Rysunek 24: Wykres liniowy przedstawiający jak zmieniał się na przestrzeni 20 lat współczynnik skolaryzacji w szkolnictwie wyższym (frakcja osób studiujących w grupie osób w wieku 18-24 lat)

    Położenie/pozycja

    Opisane dotychczas cechy nadają się lepiej lub gorzej do przedstawiania względnych stosunków wartości. Jednak gdy przedstawiamy zmienne opisane w skali interwałowej, ilorazy wartości mogą nie mieć sensu, tak jak nie mają sensu ilorazy temperatur. Bywa też, że zmienne są w skali ilorazowej, ale na wykresie chcemy zwrócić uwagę na różnice pomiędzy wartościami, a nie na ilorazy wartości. W obu tych przypadkach dobrym pomysłem jest zakodowanie zmiennej za pomocą pozycji, która świetnie nadaje się do przedstawiania różnic pomiędzy wartościami. Pisząc o pozycji, mam na myśli położenie obiektu wzdłuż jednej lub kilku określonych osi, zazwyczaj pionowej lub poziomej.

    Najwygodniejszymi elementami do pozycjonowania są niewielkie kształty, głównie małe okręgi nazywane często punktami. Porównując względne położenie elementów, nasz mózg automatycznie ocenia odległości pomiędzy nimi, określa, które obiekty są bliżej siebie, a które dalej, wyszukuje skupiska i pustynie obiektów.

    Ponieważ położenie elementów wykresu porównywane jest z położeniem innych elementów wykresu, dla oceny odległości nie ma znaczenia położenie punktu zerowego, który dla skali interwałowej może nie istnieć.

    Najbardziej popularnym wykorzystaniem pozycji są wykresy punktowe, w których liczby przedstawione są jako wartości wzdłuż jednej określonej poziomej lub pionowej osi. Używając różnych kształtów punktów, możemy wzdłuż jednej linii pozycjonować różne wartości, co pozwala na znaczne upakowanie informacji na wykresie. W przypadku wykresów paskowych potrzebowalibyśmy kilku pasków obok siebie, a dla punktów wystarczy jeden odcinek.

    Rysunek 25: Punkty rozmieszczone wzdłuż jednej wspólnej osi. Wartości odpowiadają procentowi osób kupujących leki na receptę w podziale na płeć (trójkąty mężczyźni, koła kobiety) i grupę wiekową. Taka prezentacja obiektów pozwala szybko uchwycić kolejność i odległości pomiędzy obiektami

    Jedna oś jest przydatna do przedstawiania jednowymiarowych zmiennych, np. ułatwia budowanie rankingów krajów w zależności od ich produktu krajowego na mieszkańca. Ale jeżeli zbiór analizowanych obiektów jest opisany przez kilka zmiennych, to każdą z nich można przedstawić na innej osi. Chcemy pokazać dla krajów ich produkt krajowy, średnią długość życia i poziom szczęścia? Wystarczy zestawić obok siebie równolegle trzy osie i na każdej pokazać wybrany parametr każdego z krajów.

    Osie nie muszą być zresztą równoległe. Ciekawym zastosowaniem pozycji jest wykres typu radar/gwiazda, na którym osie są zaczepione w jednym punkcie i rozchodzą się promieniście. Możemy za pomocą takiego wykresu przedstawić wiele charakterystyk, co zresztą często się robi, wykorzystując wykresy radarowe do porównywania profili, silnych i słabych stron państw, osób lub innych obiektów.

    Jeżeli na różnych osiach przedstawiamy różne cechy, to należy uważać na jednostki na osiach. Wybór zakresu wartości na poszczególnych osiach jest subiektywny, a ściskając lub rozszerzając osie można sugerować większe lub mniejsze podobieństwa dla wskazanych obiektów. Jeżeli w centrum wykresu nie ma wartości zero, to warto to również wyraźnie zaznaczyć.

    Rysunek 26: Wykres radarowy, nazywany też wykresem typu gwiazda. Punkty są rozmieszczone na rozchodzących się osiach. Wartości odpowiadają procentowi osób kupujących leki na receptę w podziale na płeć (trójkąty mężczyźni, koła kobiety) i grupę wiekową. Młodzi mężczyźni konsumują mniej leków na receptę, w miarę upływu lat doganiają jednak kobiety

    Mając kilka zmiennych opisujących obiekty, można pokusić się o przedstawienie zależności pomiędzy zmiennymi. Najczęściej wykorzystywany jest w tym przypadku wykres punktowy (wykres rozrzutu, rozproszenia, ang. scatterplot) z dwoma prostopadle ułożonymi osiami, na którym prezentowane są dwie zmienne. Można też ten wykres przenieść w trzy wymiary, używając trzech zmiennych, można zamiast kartezjańskiego układu współrzędnych wykorzystać układ współrzędnych biegunowych, modyfikacji wykresów punktowych jest wiele.

    Do wykresów punktowych często dodaje się też linię trendu, pokazującą względną relację obu zmiennych. Należy być jednak ostrożnym ze zbyt pochopnym wyciąganiem zależności przyczynowo-skutkowych z tego typu wykresów. Bardzo często sama zamiana osi miejscami (pionowej z poziomą) daje inne wrażenie zależności. W Internecie można znaleźć wiele humorystycznych wykresów przedstawiających silną zależność np. pomiędzy spożyciem czekolady a liczbą noblistów urodzonych w danym kraju.

    Rysunek 27: Wykres punktowy przedstawiający zależność pomiędzy spożyciem czekolady na mieszkańca (oś pozioma, w kilogramach rocznie) a liczbą nagród Nobla dla osób urodzonych w danym kraju (oś pionowa, w przeliczeniu na 10 milionów mieszkańców). Korelacja tych dwóch wartości jest wysoka (rzędu 0,8), a wykres punktowy sprzyja widzeniu zależności pomiędzy zmiennymi

    Jeżeli prezentowanych obiektów jest bardzo wiele, często nie sposób wszystkich przedstawić na wykresie. Są też sytuacje, w których wcale nie interesują nas poszczególne obiekty, a jesteśmy bardziej zainteresowani opisem rozkładu wartości. W takich sytuacjach bardzo przydatnym wykresem jest wykres ramka-wąsy, nazywany też wykresem pudełkowym lub wykresem skrzynkowym Wykres ten przedstawia tak zwane pięć liczb Tukeya opisujących zbiór danych, czyli minimum, maksimum, 25% i 75% kwantyl (nazywane też dolnym i górnym kwartylem) oraz medianę wartości w pewnej grupie obiektów. Te pięć liczb tworzy cztery przedziały, każdy zawierający 25% zmienności określonej cechy.

    Używając wykresów pudełkowych można czytelnie przedstawić rozkład zarobków i zobaczyć, jak duża jest skośność tego rozkładu, czy górny kwartyl jest znacznie dalej od mediany niż dolny kwartyl, czy maksimum jest równie daleko od mediany co minimum. Za pomocą wykresu pudełkowego można też czytelnie porównać dwie podpopulacje, np. zarobki kobiet i mężczyzn. Umożliwi to nie tylko ocenę skośności rozkładu zarobków, ale również względne porównanie median i kwartyli tego rozkładu pomiędzy populacjami.

    Rysunek 28: Wykres pudełkowy (nazywany też wykresem ramka-wąsy/skrzynka z wąsami lub z angielskiego boxplotem), przedstawiający rozkład wzrostu 15-letnich chłopców i dziewcząt. Brzegi i kreska we wnętrzu pudełka oznaczają kwantyle rzędu $1/4$, $2/4$, $3/4$ (czyli połowa populacji mieści się w środku pudełka), wąsy zazwyczaj oznaczają minimum i maksimum, a w tym pasku zaznaczono nimi kwantyle rzędu 0,025 i 0,975

    Oczywiście mając wykres typu pudełko z wąsami, przedstawiający pięć liczb charakteryzujących rozkład, można proponować rozmaite warianty opisujące rozkład cechy za pomocą decyli lub innych charakterystyk (np. średniej i odchylenia standardowego). Takich modyfikacji wykresu pudełkowego zaproponowano wiele, a szerokie omówienie najpopularniejszych wariantów znajduje się w artykule 40 years of boxplots [Hadley Wickham and Lisa Stryjewski. 40 years of boxplots, 2011] Co ciekawe, okazuje się, że spośród rozmaitych wariantów to te pięć liczb Tukeya w większości przypadków najkrócej i najtreściwiej charakteryzuje rozkład. Jest to dobry kompromis pomiędzy zwięzłością a ilością informacji w opisie.

    O ile wykres pudełko z wąsami charakteryzuje rozkład cechy za pomocą pięciu liczb, to czasem pożądane jest zobaczenie tego rozkładu z większą liczbą szczegółów, na przykład na wykresie, który pokazywałby względne nagromadzenie się wartości w różnych przedziałach osi. Bardzo często w tym celu wykorzystywane są wykresy typu histogram lub wykres gęstości jądrowej (precyzyjniej by było: wykres oceny gęstości z użyciem estymatora jądrowego, ale to zbyt długa nazwa). Na obu tych wykresach można zaobserwować w jakich przedziałach osi występuje większe lub mniejsze nagromadzenie obiektów.

    Rysunek 29: Wykres gęstości rozkładu wzrostu 15-letnich chłopców i dziewcząt. Chłopcy są średnio wyżsi, ale jak widzimy, wzrost chłopców ma też większą wariancję (gęstość jest niższa co jest związane z większym spłaszczeniem). Przedstawiana jest podobna informacja jak w przypadku wykresu pudełkowego, w tym przypadku wyraźniej widać kształt rozkładu, ale trudniej odczytać kwantyle

    Wzajemne położenie elementów tych wykresów, takich jak najwyższe wzniesienia, pozwala na krótkie scharakteryzowanie rozkładu, określenie, czy rozkład jest jedno, czy wielomodalny (tej informacji nie sposób odczytać z wykresu pudełkowego), czy też występuje jedno skupienie zawierające większość obserwacji. Ten rodzaj wykresu w naturalny sposób pozwala zauważyć zagęszczenie obserwacji w okolicy określonej wartości, pozwala też na porównanie rozkładów w dwóch lub większej liczbie grup.

    Wykres gęstości pokazuje rozkład jednej zmiennej. W określonych sytuacjach pożądane jest opisanie rozkładu dla dwóch zmiennych. Zmienne często występujące w parach to szerokość i długość geograficzna, ciśnienie skurczowe i rozkurczowe czy wzrost i waga. Ale skoro jest potrzeba, to pojawiają się też rozwiązania. Dwuwymiarowym rozszerzeniem wykresu pudełkowego jest wykres torbowy (ang. bagplot), który na dwuwymiarowej płaszczyźnie pokazuje dwuwymiarową medianę oraz obszar zawierający 50% obserwacji. Dwuwymiarowym rozszerzeniem wykresu gęstości jest wykres konturowy, na którym gęstość przedstawiona jest za pomocą poziomic.

    Rysunek 30: Wykres torbowy przedstawia obszar mieszczący 50% obserwacji (środkowa otoczka), dwuwymiarową medianę (zaznaczona gwiazdką) oraz pozostałe punkty połączone z torbą odcinkiem, dzięki czemu można wizualnie ocenić, jak daleko te punkty znajdują się od mediany

    Takie wykresy można dodatkowo ubarwiać, dodając natężenie koloru obrazujące wartość gęstości, co ułatwia identyfikacje obszarów o szczególnym natężeniu pewnej cechy. Typowe przykłady dotyczą częstości występowania przestępstw na mapie miasta z zaznaczeniem, gdzie przestępstw jest więcej, lub średniej ceny mieszkań z zaznaczeniem, gdzie jest najdrożej.

    Rysunek 31: Wykres konturowy przedstawia łączny rozkład wagi i wzrostu 15-letnich chłopców. Waga i wzrost są oczywiście skorelowane, ale jak widzimy na wykresie, niezbyt silnie

    Natężenie, nasycenie

    Wspomniane powyżej cechy wymagają, by zmienne były opisane przynajmniej na skali interwałowej. Gdy przedstawiamy zmienne opisane w skali porządkowej, zarówno różnice jak i ilorazy wartości mogą nie mieć sensu, jedyne co można pokazać to gradacje wartości. Hierarchię kolejności możemy oczywiście przedstawić za pomocą długości, pola, lub pozycji, ale one zazwyczaj są kojarzone z liczbowymi wartościami i świadomie czy nieświadomie nasz mózg będzie wykonywał na tych wartościach operacje dzielenia lub odejmowania. Ciekawym rozwiązaniem dla przedstawiania zmiennych w skali porządkowej jest użycie natężenia, nasycenia lub jasności elementu wykresu. Należy przy tym pamiętać, że efektywnie jesteśmy w stanie rozróżnić około siedmiu poziomów intensywności czy nasycenia, w miarę możliwości warto więc redukować liczbę przedstawianych poziomów do nie większej niż siedem.

    Bezwzględna wartość nasycenia czy jasności będzie się różnić pomiędzy mediami (prostokąt może być jasnoszary na ekranie, ale ciemny na wydruku), ale kolejność stopni szarości zazwyczaj jest zachowana. Natężenie lub jasność jest odczytywana niezależnie od pozycji obiektu, przez co można obie cechy łączyć.

    Jednym z typowych zastosowań natężenia jest kartogram, czyli wykres prezentujących rozkład średniej określonej zmiennej w podziale na regiony geograficzne. Zazwyczaj ta średnia jest kodowana barwą lub natężeniem intensywności koloru. Taka forma prezentacji danych jest dosyć popularna, warto więc przedyskutować przynajmniej wybrane jej wady i zalety.

    Główną zaletą jest wizualna atrakcyjność. Lubimy oglądać tak zwane mapki, ponieważ przypominają one rzeczywiste mapy, a więc obrazy nam znajome. Pokolorowane mapki zachęcają do wyszukiwania wzorców i relacji, łączą estetykę map z zaproszeniem do samodzielnego rozwiązania zagadki mającej na celu odkrycie zależności. Drugą zaletą jest to, że w przypadku sąsiadujących obszarów możemy z dużą precyzją ocenić, na którym kolor jest mniej lub bardziej nasycony.

    Niestety możliwość dokładnego rozróżniania natężenia dotyczy tylko obszarów sąsiadujących ze sobą. Dla wszystkich pozostałych ten sposób prezentacji niesie problemy. Odczytana intensywność zależy też od powierzchni prezentowanego obszaru. Jeżeli porównywane obszary wyraźnie różnią się wielkością, ich względna różnica jasności może być niepoprawnie odczytana. Po drugie intensywność jest silnie zależna od lokalnego kontekstu. Ten sam odcień szarości będzie wyglądał na jaśniejszy, jeżeli otoczymy go ciemnymi obszarami i będzie wyglądał na ciemniejszy, jeżeli otoczymy go obszarami jasnymi. Po trzecie, nawet jeżeli obszary mają ten sam kontekst i tą samą wielkość, to nasycenie trudno porównać, jeżeli obszary są znacznie od siebie oddalone.

    Rysunek 32: Kartogram prezentujący gęstość zaludnienia w różnych województwach. Używając natężenia zaciemnienia, można przedstawić jedynie kilka poziomów danej cechy, w powyższym przypadku zdecydowano się na przedstawienie czterech poziomów gęstości zaludnienia

    Jeżeli jednak w danych istnieje wzorzec przestrzenny (np. jakieś zjawisko na północy Polski jest intensywniejsze niż na południu), to dobierając odpowiednie kodowanie, można go czytelnie przedstawić za pomocą kartogramów i natężenia.

    Za swoistą odmianę kartogramu, w którym składową przestrzenną zastąpiono składową czasową są wykresy kalendarzowe Długość i szerokość geograficzną zastąpił dzień tygodnia i tydzień roku. Użycie dwóch osi do przedstawienia liniowego czasu pozwala na atrakcyjne przedstawienie czasu w formie kalendarza, jak również “upakowanie” większej liczby dni na małym obszarze przy zachowaniu dużej czytelności.

    Jeżeli w jakimś zjawisku obserwuje się okresowość miesięczną lub tygodniową, to tego typu wykres pozwala na łatwe dostrzeżenie tego typu okresowości, na przykład mniejszej intensywności zjawiska w weekendy lub zwiększonej pod koniec miesiąca.

    Rysunek 33: Wykres kalendarzowy przedstawiający częstość głosowań w Sejmie na przełomie lat 2013/2014. Kreskowanie w jedną stronę oznacza od 1 do 9 głosowań, w obie strony od 10 do 99 głosowań, a zapełniona kratka oznacza ponad 100 głosowań. Widzimy, że głosowania mają miejsce głównie co drugi piątek, niewielka część ma miejsce w poprzedzającą ten piątek środę. Przed przerwą noworoczną przeprowadzono tak wiele głosowań, że z powodzeniem zapełniły trzy kolejne dni. W dniu 13 grudnia przeprowadzono 187 głosowań, co samo w sobie jest nie lada wyczynem

    Regularna siatka kwadratów o różnym stopniu zaczernienia znajduje zresztą wiele zastosowań. Jednym z nich jest mapa ciepła/mapa natężeń, a więc odmiana kartogramu, w której długość i szerokość geograficzna została zastąpiona przez dwie zmienne jakościowe. Ponieważ zmienne jakościowe nie mają żadnego naturalnego porządku, w celu ich pogrupowania można wykorzystać dendrogramy lub inne techniki skalowania wielowymiarowego do wyznaczenia podobieństwa pomiędzy poszczególnymi wartościami.

    Nazwa “mapa ciepła” bierze się z popularnego schematu kolorów kodującego wartości na tym wykresie na skali ciemnoczerwony–jasnożółty, nawiązującego do temperatur. Oczywiście zamiast żółto–czerwonej gamy kolorów można wybrać dowolną inną gradację kolorów. Z zastrzeżeniem, że popularna wśród bioinformatyków skala czerwono–zielona jest niezbyt czytelna dla osób cierpiących na ślepotę barw.

    Chcemy przedstawić jaka jest średnia pensja w różnych województwach w zależności od wielkości miasta? Nic prostszego! Niech województwa odpowiadają kolumnom, miasta pogrupujmy w pięć klas zależnych od wielkości, a następnie kolorem zaznaczmy, jaka jest średnia pensja w danej grupie.

    Jak widzimy, w przypadku każdego z powyższych wykresów cechą, którą chcieliśmy przedstawić, była cecha na skali interwałowej. W wielu jednak przypadkach zredukowanie informacji poprzez przejście z ciągłej skali na niewielki zbiór przedziałów pozwala na czytelniejsze przedstawienie różnic pomiędzy regionami geograficznymi, okresami czasu, zbiorami zmiennych, w których wartości obserwowanej cechy najbardziej się różnią.

    W druku czarno-białym natężenie koloru możemy zastąpić skalą szarości lub stopniem zakreskowania.

    Rysunek 34: Mapa ciepła przedstawiająca charakterystyki czterech wybranych aut z segmentu C (parametry dla najlepiej wyposażonych wersji kombi z silnikiem w okolicy 100 KM). Im większe zaczernienie, tym lepszy parametr. Silną stroną Kii Ceed jest niska cena, Forda Focusa niskie zużycie paliwa, Volkswagena Golfa duży bagażnik a Skody Octavii przyśpieszenie. Dendrogramy pokazują względne podobieństwo aut i cech

    Kształt, barwa

    Gdy przedstawiamy zmienne w skali nominalnej, kodowanie ich za pomocą pola, długości, natężenia może nie mieć sensu. Jak polem zakodować płeć, długością słupka – gatunek, czy kątem – narodowość? Nie da się tego sensownie zrobić.

    Zmienne na skali nominalnej najczęściej przedstawia się cechami, które nie mają wyróżnionego porządku, takimi jak kształt czy barwa. Zarówno kształt, jak i barwa wystarczą do określenia, czy dwa obiekty należą do tej samej grupy, czy do różnych grup. Zarówno kształt, jak i barwa mogą pełnić rolę cechy różnicującej, pozwalającej na wyróżnienie określonych wartości spośród pozostałych (trójkąt wyróżni się na tle kół tak jak i czerwona kropka na tle niebieskich kropek).

    Barwa i kształt odczytywane są niezależnie od siebie, można więc wykorzystać te cechy do przedstawienia dwóch różnych zmiennych, można też wykorzystać obie te cechy do prezentacji tej samej zmiennej. Warto pamiętać, że barwa szybciej rzuca się w oczy niż kształt, jednak ma mniejszą rozdzielczość. O ile nikt nie będzie miał problemu z rozróżnieniem trzech kolorów, to niewiele osób jest w stanie rozróżniać trzydzieści różnych barw na wykresie. W przypadku kształtu łatwo wyobrazić sobie kodowanie trzydziestu różnych grup różnymi kształtami, wystarczy za kształt przyjąć różne litery z alfabetu.

    Rysunek 35: Wykres punktowy z kształtami oznaczającymi grupy. Na wykresie przedstawione są województwa, na osi poziomej powierzchnia w kilometrach kwadratowych, na osi pionowej liczba mieszkańców. Kształtem przedstawiono poziom bezrobocia. W czterech najludniejszych województwach (mazowieckie, śląskie, wielkopolskie, małopolskie) bezrobocie jest niższe niż w pozostałych, w tych mało zaludnionych bezrobocie jest wyższe

    Najczęściej kształty lub kolory spotyka się na wykresach punktowych, na których służą one do wyróżnienia grup określonych wartości. Na jednym wykresie punktowym można przedstawić wręcz kilka grupowań, wykorzystując kolor dla jednej klasyfikacji, kształt dla drugiej, wielkość punktu dla trzeciej. Oczywiście pokazywanie na jednym wykresie pięciu grupowań to najprostszy sposób, by uczynić wykres całkowicie nieczytelnym, jednak posługując się kształtem i kolorem z rozwagą, można uzyskać ciekawe wyniki.

    Kolory na wykresie punktowym pełnić mogą rolę wyróżnika ułatwiającego szybkie dostrzeżenie skupisk punktów. Kształty nie przykuwają uwagi tak bardzo, mogą więc sprawdzić się do przedstawiania relacji “drugoplanowych”. O ile kształt i barwa nie mają żadnego naturalnego porządku, o tyle oczywiście wielkość punktu powinna odpowiadać zmiennej, opisanej przynajmniej na skali porządkowej.

    Rysunek 36: Wykres punktowy z grupami oznaczonymi wielkością punktu. Wykres przedstawia województwa, ich powierzchnię (oś pozioma) i ludność (oś pionowa). Wielkością punktu przedstawiono poziom bezrobocia. Ponieważ poziom bezrobocia jest na skali ilorazowej, wielkość punktu lepiej go opisuje niż kształt

    W sytuacji gdy precyzja przekazywanego komunikatu jest bardzo ważna, np. na wykresach naukowych, wybór odpowiedniego kodowania zmiennej za pomocą kształtów punktów jest istotny. Dlatego w dobrych czasopisamach naukowych naukowych znaleźć można artykułu poświęcone temu tematowi. W czasopiśmie “Nature Methods” jest mu poświęcona cała rubryka Points of view, w której para specjalistów od prezentacji danych naukowych, Martin Krzywinski i Bang Wong, wyjaśnia reguły budowy legendy wykresu, dodawania adnotacji do wykresu czy wybierania kształtów punktów. W artykule Points of view: Plotting symbols wyjaśniają dlaczego lepsze są otwarte symbole (koła, trójkąty, kwadraty z pustymi środkami) niż zamknięte (wypełnione koła, trójkąty, kwadraty) – otwarte symbole pozwalają na łatwiejsze dostrzeżenie skupisk punktów, podczas gdy zamknięte się ze sobą zlewają. Dlaczego koła są lepsze niż trójkąty – ponieważ przecięcie dwóch kół nie tworzy kształtu koła, a przecięcie dwóch trójkątów może utworzyć kolejny trójkąt, przez co trudniej zorientować się w liczbie obiektów. Dlaczego używanie liter jest wygodne do oznaczania dużej liczby klas punktów – należy jedynie uważać na małą rozróżnialność liter C i G, E i F czy B, R i P. Dlaczego punkty powinny być dobierane pod kątem podobnej złożoności (pięcioramienna gwiazda jest bardziej złożona niż okrąg) – w przeciwnym przypadku odbiorca będzie miał wrażenie różnej wielkości punktów.

    Rysunek 37: Symbole wypełnione mają tendencje do zlewania się, przez co trudniej określić liczbę nakładających się symboli. Tego problemu można uniknąć stosując symbole bez wypełnienia. Używanie okręgów ma tę przewagę nad kwadratami czy trójkątami, że nałożenie dwóch okręgów nie tworzy nowego okręgu

    Rysunek 38: Przykład symboli o wysokim optycznym kontraście (u góry) i o niskim kontraście. Wybierając symbole do przedstawienia różnych grup należy zatroszczyć się o to by można było łatwo te symbole od siebie odróżnić

    Myśląc o kształtach często ograniczamy się do prostych symboli, typu koło czy trójkąt, lub do popularnych ikon przedstawiających ludzika czy samochód. Kształt daje jednak znacznie szersze możliwości. Jednym z niestandardowych zastosowań są tak zwane twarze Chernoffa, a więc wykresy na których zmienne są przekodowywane na kształty określonych charakterystyk twarzy. Chcemy porównać różne marki samochodów? Możemy za pomocą wielkości twarzy przedstawić cenę samochodu, wielkością oczu kodować zużycie paliwa, wielkością uśmiechu zakodować wielkość bagażnika. Ludzki umysł ma zadziwiającą zdolność analizy cech ludzkich twarzy, błyskawicznie wychwytuje podobieństwa i różnice, można więc tę umiejętność mózgu wykorzystać do jednoczesnego prezentowania wielu różnych zmiennych. Taka prezentacja oczywiście nie jest zbyt dokładna, ale często budzi ciekawość, pokazuje też jak wiele jest możliwości na wykorzystanie kształtu czy wielkości w grafice statystycznej.

    Rysunek 39: Wykres twarze Chernoffa przedstawiający charakterystyki czterech wybranych aut z segmentu C. Wielkość twarzy odpowiada cenie, uśmiech odpowiada wielkości bagażnika, wielkość oczu zużyciu paliwa, a wielkość nosa przedstawia czas przyśpieszenia do 100 km/h. Z takich charakterystyk trudniej odczytać dokładne wartości, ale naszej percepcji łatwiej się skoncentrować na kilku interesujących wymiarach

    Animacja / interakcja

    W ostatnich latach coraz większą popularnością zaczynają się cieszyć grafiki interaktywne, zachęcające do manipulacji elementami wykresu lub animacje, przedstawiające zmiany zależności w czasie.

    Najlepszą reklamą animowanych wykresów statystycznych są prezentacje Hansa Roslinga (kto nie widział, powinien zobaczyć prezentacje The best stats you've ever seen [Hans Rosling. The best stats you've ever seen, 2006] oraz Religions and babies [Hans Rosling. Religions and babies, 2012]

    ). Sam Rosling stojący na tle wykresu przedstawiającego zmiany w współczynniku płodności oraz średniej długości życia stał się ikoną dla statystyków. W roku 2012 został nawet uznany przez magazyn Time za jednego ze 100 najbardziej wpływowych ludzi roku.

    Animacja z pewnością przyciąga uwagę, nadaje się też znakomicie jako tło dla prezentacji, szczególnie tych krótkich. Efekt “wow” gwarantowany. Jednak z punktu widzenia precyzji przedstawienia informacji animacja jest złym rozwiązaniem. Nie ma czasu, by dokładnie odczytać wielkości, które nieustannie się zmieniają. Dodatkowo, jeżeli na wykresie zmienia się jednocześnie wiele rzeczy, to nie sposób śledzić wszystkich. Skupiając się na kilku wybranych, można nie zauważyć istotnych zmian dziejących się w miejscu wykresu, na które akurat nie patrzymy (zjawisko nazywane ślepotą zmian od angielskiego change blindness).

    Osobiście nie uważam, by animacje były dobrym rozwiązaniem w prezentowaniu danych. To znaczy świetnie bawią, ale nie przekazują zbyt wielu informacji. Inaczej ma się rzecz, jeżeli chodzi o wykresy interaktywne. Te pozwalają na eksplorację danych, a jeżeli pozwolimy czytelnikowi samodzielnie odkrywać historię przedstawioną przez dane, większa jest szansa, że historia ta zostanie zapamiętana.

    Z tego sposobu prezentowania danych znana jest między innymi gazeta “The New York Times”, która często na swojej stronie internetowej przedstawia interaktywne wizualizacje ciekawych zjawisk. Te wizualizacje są najczęściej proste, ale zachęcające do eksploracji.

    Również wiele interaktywnych narzędzi do eksploracji dostarczają agencje zajmujące się zbieraniem i udostępnianiem danych, takie jak EuroStat lub OECD. Te z kolei często prezentują złożone zależności pomiędzy wieloma zmiennymi, które często są nieprzyjazne dla nieprzyzwyczajonych oczu.

    Osobom chcącym zobaczyć, jakie możliwości niesie interaktywna grafika statystyczna, chciałbym polecić aplikację [Przemyslaw Biecek and Francesca Borgonovi. Do parents' occupations have an impact on student performance? OECD, PISA in Focus n. 36, 2012], którą wykonałem, aby przedstawić zależność pomiędzy zawodem rodzica a wynikami ucznia w szkole. Kilka kliknięć wystarczy, by wykonać wiele różnych porównań, zobaczyć jak wygląda zróżnicowanie średnich wyników w zależności od zawodu lub jak wyniki dla różnych zawodów wyglądają w różnych krajach.

    Oprogramowanie

    Najlepszym programem do analiz i wizualizacji jest ... Zanim dokończymy to zdanie pozwolę sobie na anegdotkę.

    Basia zaprosiła Zbyszka na obiad. Urozmaicając przygotowania do obiadu, Zbyszek pokazywał Basi zdjęcia ze swojej ostatniej podróży do Japonii. Przy co drugim zdjęciu Basia wzdychała “...jakie piękne te zdjęcia, z pewnością masz świetny aparat...”. Nic więc dziwnego, że po obiedzie Zbyszek z zadowolonym wyrazem twarzy powiedział: “To był przepyszny obiad, z pewnością masz świetne garnki.”

    Z pewnością są lepsze i gorsze aparaty fotograficzne, z pewnością są lepsze i gorsze garnki, ale najlepszy aparat sam nie zrobi dobrego zdjęcia i najlepszy garnek sam nie ugotuje dobrego obiadu.

    Poniżej podzielę się kilkoma przemyśleniami dotyczącymi oprogramowania do tworzenia wykresów, z zastrzeżeniem jednak, że najbardziej zaawansowany program graficzny nie pokaże w ciekawy sposób historii ukrytej w danych.

    W Internecie można znaleźć wiele zestawień typu “50 najlepszych narzędzi do wizualizacji danych”. Są też listy 100 najlepszych narzędzi. Czemu służyć mają takie listy? Co najwyżej radosnej prokrastynacji, gdy przeznaczymy kilka minut na obejrzenie stron domowych pierwszych dziesięciu pozycji w zestawieniu.

    Narzędzi do prezentacji danych jest wiele i w zależności od tego, czy bardziej cenimy łatwość użycia, techniczne możliwości czy estetykę końcowego rozwiązania, każdy znajdzie coś dla siebie.

    W codziennej pracy z danymi w większości przypadków korzystam z czterech narzędzi.

    1. Na wczesnym etapie pracy nad wizualizacją jest to przysłowiowa kartka i ołówek (ewentualnie długopis, tablica i pisak). Nie stronię od elektroniki, używam rozmaitych gadżetów pozwalających na efektywną interakcję z komputerem, ale do prototypowania, gdy trzeba rozważyć różne propozycje, szybko nanosić korekty, zestawić te propozycje ze sobą, kartka i ołówek moim zdaniem nadają się najlepiej. W razie potrzeby szkic łatwo zdigitalizować np. robiąc mu zdjęcie telefonem.

      Najlepsze pomysły na grafiki powstają podczas burz mózgów i tutaj długopis w dłoni każdego z dyskutantów i wspólna kartka jest idealnym środowiskiem do prototypowania wykresów.

    2. Do przetwarzania danych i mapowania danych na cechy wykresu wykorzystuję środowisko statystyczne R [R: A Language and Environment for Statistical Computing R Foundation for Statistical Computing, Vienna, Austria, 2013] Łatwo można z jego pomocą przetworzyć dane, wykonać różnorodne transformacje i przygotować dane do naniesienia na wykres.

      Do tworzenia wykresów używam zazwyczaj pakietu lattice[Deepayan Sarkar. Lattice: Multivariate Data Visualization with R Springer, New York, 2008] (zbiór kilkunastu szablonów, które można modyfikować i parametryzować, szczególnie wygodne do pokazywania trendów w danych) lub z pakietu ggplot2 [Hadley Wickham. ggplot2: elegant graphics for data analysis Springer New York, 2009], w którym pracę zaczyna się od określenia zbioru zmiennych do przedstawienia, a następnie uszczegóławia się wizualizację, określając warstwy, geometrie, statystyki. Do mniej standardowych zastosowań pakiet ggplot2 nadaje się wyśmienicie.

      Język R jest względnie prosty do nauczenia się, dostępnych jest wiele książek, także w języku polskim, jak na przykład Przewodnik po pakiecie R z rozdziałem poświęconym tworzeniu grafiki z użyciem pakietów graphics, lattice lub ggplot2

    3. Wykres wykonany w programie R można zapisać w formacie wektorowym pdf/svg/ps, a następnie poddać dalszej edycji w programie graficznym. Ja akurat korzystam z Adobe Ilustrator (Płatny program dostępny w ramach odnawialnej licencji, dostępny na stronie http://www.adobe.com/pl/products/), ale można też wykorzystać program Inkspace (Inkscape, darmowy program do pobrania ze strony http://www.inkscape.org/) lub inny edytor plików wektorowych. Co prawda w programie R można dowolnie zmieniać każdy element wykresu, ale wiele rzeczy można wykonać łatwiej lub szybciej z użyciem programów do obróbki grafiki wektorowej.

    4. Do przygotowania aplikacji internetowych lub grafiki interaktywnej wygodnie jest wykorzystać bibliotekę D3 (Biblioteka Data-Driven Documents D3 http://d3js.org/) lub pochodne. Znając JavaScript taką aplikację można napisać samodzielnie, ale ja wolę posiłkować się prostszym językiem Processing(Środowisko do tworzenia animacji i interaktywnej grafiki Processing http://processing.org/), który jest następnie automatycznie tłumaczony na Java Script.

     
    Rysunek 40: Przykład kolejnych etapów pracy nad wykresem. Na przykładzie danych z badań PISA pokazujemy średni poziom umiejętności matematycznych dzieci w Polsce i w Finlandii w zależności od tego jaką pracę wykonują ich rodzice. Zawody podzielone są na 9 grup zgodnie z klasyfikacją ISCO (International Standard Classification of Occupations): kierownicy, specjaliści, technicy, sprzedawcy itp.. Pierwsze pomysły warto przelewać na papier ołówkiem. Daje on dużą swobodę, szybko można coś stworzyć, ołówek nie ma technologicznych ograniczeń. Pomysł jest przenoszony do R, w tym przypadku z użyciem pakietu ggplot2 Trochę pracy nad kolorami, legendą, rozmieszczeniem elementów i otrzymujemy całkiem czytelny wykres. Ale ostatnie szlify, takie jak krój pisma czy wielkość elementów, najłatwiej nałożyć w programie do edycji grafiki wektorowej, tutaj Adobe Illustrator

    Rysunek 40 przedstawia kolejne etapy przykładowego procesu tworzenia wykresu. Począwszy od szkicu na kartce, po wykres szlifowany w programie do grafiki wektorowej. Praca nad takim wykresem zajmuje trochę czasu, ale jeżeli jesteśmy zadowoleni z końcowego wyniku, to warto ten czas poświęcić. Krój pisma jest dopasowany do tekstu głównego książki (tutaj to Minion Pro). Kolory odpowiadają specjalizacji zawodów, od najbardziej wyspecjalizowanych (czerwone) do najprostszych (niebieskie).

    Wykres ma na celu porównanie dwóch krajów pod kątem umiejętności dzieci przedstawicieli różnych grup zawodów. Zastosowanie odcinków i nachyleń pozwala na proste porównywanie w którym kraju, który zawód ma średnio wyższe wyniki, a nachylenie odcinka pokazuje wielkość tych różnic. Dodatkowa oś pozwala na precyzyjne odczytanie średniego poziomu umiejętności (tutaj są to punkty w badaniu PISA).

    Korzystanie z programu R lub biblioteki D3 wymaga przynajmniej podstawowej umiejętności programowania. Osobiście uważam, że nawet jeżeli nie ma się żadnego doświadczenia w programowaniu, to warto się tego nauczyć, bardzo ułatwia to pracę z danymi. Osoby odczuwające dużą alergię na programowanie lub preferujące szybsze osiąganie wyników mogą skorzystać z kilku narzędzi pozwalających na wyklikanie “na szybko” wykresu.

    • Tableau – narzędzie do szybkiego tworzenia tablic rozdzielczych (ang. dashboards), czyli kompozycji wykresów pokazujących rozmaite aspekty danych. Darmowe do zastosowań niekomercyjnych, dosyć drogie w komercyjnych rozwiązaniach (Tableau bezpłatne do niekomercyjnych zastosowań http://www.tableausoftware.com/).

    • Many Eyes – narzędzie rozwijane przez oddział badawczy IBM Research, pozwalające na zastosowanie zbioru szablonów do publicznie dostępnych danych (można pracować na własnych danych, ale trzeba je najpierw upublicznić). Wiele ciekawych rozwiązań dotyczących prezentacji tekstu, w tym kontekstowe drzewa słów i chmury słów (Many Eyes, bezpłatny zbiór szablonów dostępnych online http://www-958.ibm.com/).

    • Excel – popularny arkusz kalkulacyjny. Największą jego wadą jest to, że umożliwia tworzenie wykresów z pseudo trzecim wymiarem. Pomijając tę wadę, można z jego pomocą szybko przygotować czytelne podsumowanie danych. Ponieważ jest to również bardzo popularne narzędzie, nie ma co liczyć na wykresy wyróżniające się oryginalnością (przynajmniej nie pozytywnie).

    • Google Spreadsheets, czyli darmowa wersja Excela (Google Spreadsheets, https://docs.google.com/spreadsheet).

    Bez względu na to jakiego narzędzia się używa, najważniejszy jest pomysł na przestawienie danych w sposób czytelny, poprawny, interesujący i estetyczny. Tak jak i nie jest ważne jakich garnków i kuchenki się używa, jeżeli nie ma się pomysłu na dobrą potrawę.