[Jacek Śliwerski]
(rzyjontko)Autor
Chłopak z Bałut (Dołów), po uniwerku i stypendium. Wiecznie zestresowane, przemądrzałe bezguście. Więcej na stronie domowej.
Użytkownicy GoldenLine
Wstęp
W poniedziałek zwróciłem się z prośbą do portalu GoldenLine o udostępnienie mi statystyki użytkowników w podziale na branże. Ponieważ nie otrzymałem żadnej odpowiedzi (nawet automatycznego: dziękujemy za zainteresowanie, postaramy się jak najszybciej odpowiedzieć
), postanowiłem sam sobie przygotować taką statystykę i opublikować ją na blogu, żeby każdy miał do niej dostęp. Przy okazji zebrałem dodatkowe statystyki w nadziei, że może komuś innemu się przydadzą. Na samym końcu opisałem metodykę zbierania i przetwarzania danych, a także ustosunkowałem się do kwestii zgodności moich działań z regulaminem GoldenLine.
Województwa
Zaczynamy od podziału użytkowników na województwa. Tylko 964 użytkowników spośród 90840, których profile udało mi się przetworzyć, nie umieściło tej informacji w swoim opisie. Rozkład pozostałych prezentuje się w następujący sposób:

Uwagę zwraca olbrzymia dysproporcja między Mazowszem i wszystkimi pozostałymi regionami Polski. W tej sytuacji, umieszczenie oferty pracy w województwie dolnośląskim (a np. w kategorii Informatyka-Programowanie jest ich zdecydowanie najwięcej) wydaje się być niezbyt dobrym pomysłem.
Branże
W przypadku statystyki branżowej, należy wziąć pod uwagę, że każdy użytkownik może przypisać się do wielu sektorów gospodarki. Z 90840 profili zebrałem 128829 punktów, które rozkładają się w następujący sposób:

Z zebranych przeze mnie danych wynika na przykład, że w portalu GoldenLine jest więcej ofert pracy w produkcji niż użytkowników pracujących w tej branży.
Pozostałe
Sporządziłem również rozkład poziomu studiów (tu należy zwrócić uwagę, że dotyczy on w wielu przypadkach zamierzonego, a nie ukończonego poziomu, jak również na możliwość wpisania wielu etapów wykształcenia):

oraz (niestety, niewiele mówiące) zestawienie uczelni, na których studiowali bądź studiują użytkownicy GoldenLine:
Metodyka
W pierwszej kolejności trzeba zdobyć listę użytkowników. Znaleźć ją można przy pomocy popularnej wyszukiwarki. Każdy, kto umie posługiwać się wgetem, grepem i sedem, będzie potrafił stworzyć sobie listę URLi do przetworzenia. Następnie, wystarczy (ponownie korzystając z wgeta) ściągać sobie jedną stronę po drugiej i przetwarzać prostym skryptem. Ot, i cała tajemnica.
Legalność
Punkt 3 paragrafu 25 regulaminu użytkownika wydaje się być jasny:
§ 25. Użytkownik jest zobowiązany w szczególności do:
3) powstrzymywania się od jakichkolwiek działań naruszających prywatność innych Użytkowników, w szczególności zbierania, przetwarzania i rozpowszechniania informacji o innych Użytkownikach bez ich wyraźnej zgody, chyba że jest to dozwolone przez przepisy prawa i niniejszego Regulaminu.
Wydaje się, bo przecież dane te można zbierać, przetwarzać i rozpowszechniać bez zakładania konta w serwisie. O co zatem chodziło autorom regulaminu? Niewątpliwie zebrałem, przetworzyłem, a w tej chwili rozpowszechniam informacje o innych użytkownikach bez ich wyraźnej zgody. Ale... nie robię niczego, co byłoby zabronione przepisami prawa.
Epilog
Jak zwykle, nie mam pomysłu na pointę kończącą post. Tak więc żegnam Was z nadzieją, że moje konto na GoldenLine nie zostanie usunięte (żadna ze stron nie musi podawać przyczyn rozwiązania umowy o świadczenie usług), a w przyszłości podzielę się z Wami może dodatkowymi danymi (mam jeszcze: miasta, kierunki studiów i języki obce), które wymagają jednak ode mnie dodatkowego postprocessingu.
21 kwietnia 2007, 20:16:46
Komentarze
Ale chyba nie robisz nic złego? Przetwarzasz dane, które nie pozwalają na identyfikację poszczególnych użytkowników. To tylko statystyki, nic więcej.
Czy ktoś może mi wytłumaczyć, dlaczego wyszczególnia się MBA, ale zabrakło już MSc? Przecież oba tutuły to magisteria, z tym że jedno „humanistyczne” a drugie „techniczne”.
Naprawdę nie rozumiem wszechogarniającego podniecienia trzema literkami MBA... i oświadczeń studentów, że zaraz po skończeniu studiów zrobią sobie „embiej”... WTF?
Krystku: Niby nic. A jednak udostępniłem dane, które mogą zniechęcić potencjalnych klientów portalu do skorzystania z ich usług. Po drugie, zaś, to tak mi już zostało po starciu z Gervem ;]
Piotrze: Oprócz MBA powinno być MSc i MA. MBA jest nie tyle humanistyczne, co biznesowe. Master of Arts jest tytułem magistra-humanisty. A samo MBA... chodzi chyba o to, żeby ludzi kasować na większą kasę niż za tytuł magistra zarządzania.
rzyjontko: Tak, jest jeszcze MA (dla mnie wszystko, co nietechniczne jest humanistyczne ;p).
Chyba faktycznie, wystepuje tu syndrom „cudze chwalicie, swego nie znacie”: bo przeciez „mam MBA” brzmi bardziej trendi od „jestem magistrem zarzadzania (i marketingu)”, podobnie jak teraz Polacy używają słowa „content”, zamiast polskiego „treść” ;-)
Karolina, 21 kwietnia 2007, 21:38:20Niby jacy Polacy? Pierwsze słyszę. Chyba ci z MSc :P
Ja tak sobie obserwuję naszych zachodnich sąsiadów z bliska i z zadowoleniem stwierdzam, że mimo wszystko nasz język jest znacznie bardziej konserwatywny.
Karolina: Nie nie, raczej marketingowcy i właściciele serwisów Web 2.0. Praktycznie w każdej prasówce na temat nowego serwisu widze słowo „content”. Podobnie, kilka razy na GW i Onecie można było przeczytać zarówno artykuły jak i wywiady, gdzie dyskutowano na temat generowania świeżego contentu.
Chociaż, z drugiej strony, ja wole mówić userzy niż użytkownicy. Bad me… tzn. ja zły. :-) OK (dobrze), koniec offtopicu (pisania nie na temat).
Dawid Gatti, 22 kwietnia 2007, 08:52:26Informatyka na drugim miejscu?! skandal ;)
ps. Dobry pomyslu zeby zebrac te tane. Statystyki rzadza _
pjk, 01 maja 2007, 22:00:02Korzystając z Google do zebrania listy użytkowników nie zbierzesz ich kompletnej listy, a więc i statystyki nie są kompletne. No bo co z tymi których profil jest widoczny tylko dla zarejestrowanych użytkowników?
A co z tymi, którzy od tego czasu się zarejestrowali? Moje statystyki są nie tylko niekompletne, ale również nieaktualne. Nie martwię się tym mimo wszystko, bo to za mały odsetek, żeby mógł coś na słupkach „zamieszać”.