luni, 18 mai 2009

De ce nu da, domle, 100%?

Il cheama NC. Nu Nicolae Ceausescu. Si scrie. Nu cuvantari. Scrie pe Internet, ca asa este mai la moda acum.

Ia uite ce scrie:

"Unii mi-ar putea replica că nu e mare lucru un procent. Aşa este. În economia jocului electoral, un procent nu ar putea schimba fundamental situaţia niciunuia dintre contracandidaţi. Problema e alta. Şi anume că lipsa acelui procent atrage o umbră de neîncredere asupra întregului sondaj care, în aceste condiţii, este susceptibil de a fi măsluit rezultatele prezentate opiniei publice. Că e aşa sau nu trebuie să ne-o spună Gallup care ar trebui să ne prezinte şi explicaţia pentru acel procent lipsă din sondajul cu pricina. "


Ce a facut stimabilul? A adunat cifrele din sondajul Gallup si, stupoare! dezastru! catastrofa! apocalipsa! nu i'a dat 100%, ci o cifra totalmente diferita: 99%. Drept pentru care distinsul ajunge la concluzia ca sondajul nu e bun, ca cifrele sunt varza si, mai rau si mai rau, ca de fapt e masluit.

In aceste conditzii imi dau seama ca trebuie neaparat facuta o culturalizare si o alfabetizare incapatoare precum fosnirea matasoasa a foii de'abecedare, ca sa invetze totzi neavenitzii Internetului meu cum e cu misterul masonic de rit statistic al acestor sondaje.

Sa incepem cu inceputul: un sondaj e o masuratoare aproximativa. Nu poti masura toata populatia (univers), si atunci masori doar o parte din ea (esantion), cat te duce putirinta si timpul si banii.

Si atunci in mod inerent introduci in masuratoare o aproximare, o eroare - vestita marja de eroare. Care spune, in mod fundamental, "rezultatele sunt undeva pe acolo". Acest "pe acolo" este din ce in ce mai exact pe masura ce masori un volum mai mare de esantion. Dar asta daca iti permiti din punct de vedere al efortului de timp, de oameni, de bani. Totdeauna este un compromis intre cost si exactitate (nu reprezentativitate - reprezentativitatea este alta mancare de peste).

Daca raportezi cifrele cu virgula (mai ales cu doua virgule, cum veti observa la unii destepti intr'ale cifrelor), asta este pur si simplu un semn al faptului ca nu ai inteles nimic din propozitie.

De ce? Pentru ca ai o marja de eroare acolo (de regula in jur de 3% - 4%, ca in general sondajele se fac undeva in jur de 700 - 1000 de cazuri), o vibratie de incertitudine in jurul unei valori pe care incerci sa o estimezi printr'o masuratoare incompleta (de'aia e sondaj si nu e recensamant, ca masori doar o parte a universului). Acel "pe undeva pe acolo" de care spuneam mai sus.

Si atunci este absolut inutil sa spui in raportul de cercetare 13,47 sau 23,2 sau 37,7. Sunt niste cifre prea exacte pentru tipul de masuratoare probabilistica pe care l'ai facut, care inseamna de fapt 13,47 + / 2%, 23.2 + / - 3.2 sau 37,7 + / - 2,8 (cat or fi marjele de eroare pt fiecare sondaj in parte).

Gestul de bun simt elementar, care este bagat in capul nostru de analisti cantitativi inca de pe bancile scolii, este sa raportezi cifrele rotunjite, fara virgula. Nu spui 37,47. Spui 37. Nu spui 23,2. Spui 21. Nu spui 16,78. Spui 17.

Pentru ca de fapt ce spui tu cu cifrele alea este un shorthand (o prescurtare, pentru guvizii care nu stiu nici engleza, pe langa statistica) pentru o exprimare de tipul "sunt suficient de sigur ca valoarea din populatie este in jurul lui 23.2 - pe undeva pe acolo, plus minus o incertitudine datorata faptului ca nu am putut masura toata populatia". Dar daca scrii asta la fiecare cifra, facem 50 de pagini de vorbe scrise marunt pentru fiecare variabila masurata, si devine chiar mai plictisitor decat cititul Mahabharattei.

Si atunci comunici rotunjit. Si atunci, in functie de jocul fractiilor, suma rotunjita poate sa dea 99 sau 101. Cum ar veni: daca ai prea multe cozi de 0,4 sau de 0,3 dupa virgula cifrelor din seria de distributie, atunci uneori da 99%. Daca, invers, ai prea multi de 0,6 sau 0,7, atunci poate sa iti dea 101.

Si iac'asa, stimati naivi intr'ale aritmeticii de rit superior, acesta este misterul sumei totale usor diferita de 100.

Insa uneori oamenii naivi or sunt de'a dreptul prosti ingramaditzi (si atunci nu ar trebui sa fie lasati sa dea din tastatura, daca nu au creierul in dotare), ori nu sunt prosti, ci mai rau, vor neaparat sa demonstreze ceva (si atunci sunt lepre si vicleni si consultanti). Astia sunt tipul de persoane care primul lucru se reped sa adune cifrele, ca sa ii prinda pe nenorocitii de sociologi in fapt.

Ni s'a intamplat si noua, cu siguranta s'a intamplat si altora. Distinsi clienti care, cu o ravna tractoriceasca demna de o cauza mai buna, aduna coloane lungi de cifre sa fie ei siguri ca da 100% si ca nu i'am furat la gramaj, sa le fi dat vreun procent in minus.

Si uite asa se mai pune o caramida mica, dar vioaie, la manjirea publica a ideii de sondaj. Cum ar fi, de'un par examplu luat absolut, dar absolut la intamplare, ca sondajele sunt rele si masluite. Sau, varianta soft, ca nu ne pricepem.

Cand de fapt nepriceputzii si ingramaditzii la scoartza cerebrala sunt aia care habar n'au cu ce se mananca sondajele, dar ishi permit in entuziasmul lor justitziaro-fascist sa emita judecati viguroase de valoare la adresa, si mai ales si mai ales impotriva sondajelor si a noastra, mana asta de rabotnici intr'ale SPSS'ului si Excel'ului care le realizam.

Mama voastra de dobitoci. Ori prosti, ori naimiti. Ori amandoua...

:(

6 comentarii:

parvan spunea...

D-astia care aduna procente si nu le da ultima cifra se gasesc peste tot, nu-i vorba doar de sondaje.
Si de-o dai cu zecimale sau cu sutimi tot se gaseste cate unu care sa le adune si sa puna singura intrebare pertinenta care-i vine in cap :) Ca daca nu e la unitati, poate fi la zecimi sau sutimi ... Ce ma enerveaza ca in general fix aia care intreaba d-astea sunt din cei care pricep mai greu cum e cu rotunjirile si de ce pot fi mai multe in jos/sus ... probabil de aici fascinatia cifrelor pentru acest tip de oameni.

In cazul de-l povestesti insa e altceva: "concluzia logica" cu "susceptibil de a fi măsluit" este dincolo de prostie si vadeste un discurs preconstruit in cautarea de argumentatii.
Pai daca cineva ar maslui niste procente ce l-ar impiedica sa dea procente care se inchid fix in 100%?

PS: ca sa fiu rautacios ... exista aici si o ratare a sondorului care da procente intregi (evident ca-i ok) dar cand le pune in nebunaticul de excel lasa cele doua zecimale implicte cu .00 .... si prin asta-i bulverseaza pe "comentatori" :)

satmareanca spunea...

Nimic nou, nu ştii că toată lumea se pricepe la toate? :P Mai puţin la treaba proprie ;)

Turambar spunea...

@ Cristi: Da, stiu. Si eu imi dau seama ca este un articol cu dedicatzie, pus sa scada din credibilitatea sondajelor in general si a sondajului Gallup in particular. De ce, nu intzeleg, pentru ca oricum ii da pe liberali la niste scoruri cam prea sus? Nu'i asa, Dane?

:)

@ Satmareanca: Da, doamna. De'aia n'are ursu coada si Romania liniste.

:(

cristi parvan spunea...

in general astia care pleaca de la concluzia ca sondajele "mint" se asteapta la procente mai mari la o intrebare sau alta. :)

PS: si eu cred ca liberalii sunt "cam prea sus" in declaratii fata de realitate (predictie de comportament :P ) dar am senzatia ca aveau asteptari mai mari ... si cautau sa mai faca rost de un procent :)

Turambar spunea...

Uite'asa se storc datele de ultima picatura de procent. Mai ceva ca la sucul de portocale, nu?

:rofl:

Anonim spunea...

Hehehe. I-ai spus-o bine. :)

Cred ca daca i-ai fi explicat chiar prin conceptul statistic de "cifre reprezentative", l-ai fi bagat complet in ceata. :))