vineri, 3 mai 2013

Probabilistic vorbind, un cap în gură nu se întîmplă decît în cel mult 1% din cazuri

Dugușlucilor,

Voi, care ca tot românul, evident că vă pricepeți cît se poate de cel mai foarte perfect la folbal, politică și sondaje, evident că știți cu toții poezia aia tocită și răstocită cu marja de eroare de +/- ceva aferentă unui volum de eșantionare de altceva. Cel mai des o știți în forma obosit-predictibilă “+/- 3% la un volum de eșantion de 1,100 de cazuri” sau “+/- 3.2% la un volum de eșantion de 1,000 de cazuri”.

Asta pentru că sînteți învățați că nu există viață înainte de 1000 de cazuri și că toate sondajele sînt cele mai foarte reprezentative de la 1000 de cazuri încolo și cele mai foarte nașpa și varză de la 999 de cazuri în jos. Așa ați învățat voi la școala vieții, la această maaare facultate de mediocritate îngălată numită “privitul la tembelizor”.

Drept pentru care, atunci cînd vă faceți mari și forțoși și deveniți clienți, de-ăia cu burtă, gușă și multă, multă aroganță, pe măsura banilor pe care nu vreți să-i dați, prima întrebare pe care o puneți de la înălțimea catedrei voastre de profesor universitar doctor docent academician emerit și chiar candidat cu șanse la Consiliul Local este “e reprezentativ eșantionul?”,

prin această întrebare dovedind că habar n-aveți de diferența dintre reprezentativitate și exactitate, că ați cu brio cursurile Facultății Televizate Post-Doctorale de Artimetică Aplicată și că la sfîrșit va fi simplu: dacă rezultatele sondajului vă convin, veți trage concluzia că este cel mai foarte calitativ sondaj, făcut de iată, nu-i așa? un adevărat geniu în domeniu (ăsta sînt eu, dacă n-ați înțeles).

Dacă în schimb rezultatele sondajului vă dezavantajează, vă scoate nenorocitul de sondaj că nu veți fi în stare să obțineți nici măcar un post la Comisia De Etică și Disciplina Științelor Paranormale, atunci pe cale de consecință în mod firesc rezultă că nenorocitul de sondaj e un nenorocit de falș neadevărat, făcut de un nenorocit de nemernic (ăsta aș fi tot eu, dar nu bag mîna în foc) care încearcă fie să fraerească bunătate de politician,

fie și mai rău, trădare! este de fapt reprezentantul coloanei a cincea din partea celorlalți, nemernicii de rit politic opus, care lasă că știm noi că ești omul lor și ești trimis aici cu un scop, cu o misie, să măsluiești sondajele și să ne bagi ceață la mal.

Dar asta, evident, doar cînd sondajele nu convin respectivului om mare, cu burtă, gușă și multă multă aroganță la purtător, care urăște sondajele și nu are încredere în ele dar i se scurg extremitățile sinapselor după o bucățică de fărîmă de informație moca și pe gratis, care nu vrea să comande nici un sondaj dar parcă totuși ar vrea unul, care...

Lasă, că mai sînt și alți care.

Unde naiba rămăsesem?

A, vroiam să vă spun și aia cu “probabilitate de 95%”, adicătelea sîntem destul de siguri, adică 95% siguri, că rezultatele sondajului chiar sînt în intervalul acela de măsurare definit de două marje de eroare, cuuuum? două marje de eroare? păi n-ai zis 3%? da, +/- 3%, adică pe litere plus minus 3%, undeva pe-acolo, stimabile.

E clar, dacă vă mai spun că din cînd în foarte cînd, adică în aproximativ 5% din cazuri, adicătelea cum ar veni dacă faci 100 de sondaje măcar în vreo cinci, rezultă pe cale de consecință că măsurătoarea pe bază de eșantion este cumva dincolo de intervalul ăsta de “suficientă exactitate”, de ce? de-aia, că e măsurătoare aproximativă, probabilistică, pentru că nu e farmacie, înjurați-l pe Gauss, nu pe mine,

ah, și dacă stau să mă gîndesc, credeți-mă, am făcut mai mult de 100 de sondaje la viața mea de nemernic nenorocit, înseamnă că...

Înseamnă că trecem la următorul subiect, cel de-al doilea complicatoriu al acestui curs de fiere și restul cifre și procente, de-alea cu semnul ăla “%” în coadă.

Păi e vorba despre probabilitatea apriorică. Adică aia care știm noi că există undeva acolo în sălbăticia de necuprins și de nemăsurat a realității, dar totuși există și noi o surprindem și o mermelim de manieră aproximativă prin intermediul măsurării pe bază de eșantion.

Să zicem că e vorba de biciucliști. Sau de stîngaci, că e mai simplu. Uite, în ultimele trei sondaje naționale (18+) ne-a rezultat că în cadrul populației României (adultă, neinstituționalizată, pe teritoriul României) ar fi 6.5%, 5.1%, respectiv 5.0% stîngaci. În plus, ar mai fi 5.8%, 4.9%, 4.3% ambidecștri, de-ăia de-și dau cu ciocanul în deget și cu stînga și cu dreapta.

Adică cum ar veni începem să avem o idee pe undeva pe-acolo: sînt cam 5% stîngaci și cam 5% ambidecștri. Aproximativ oarecum, cu marjele de eroare aferente. Avînd volume de sondaj de aprox. 1000 de cazuri, ar fi vestitul ăla de +/-3.1%. Adicătelea cum ar veni scădem, respectiv adunăm 3.1% și rezultă undeva între 2% și 8% intervalul în care am găsi stîngacii, respectiv ambidecștrii.

Corect? Nyet. Greșit. Zbîrka, bre.

Păi de ce?

Păi aici intervine complicăciunea.

Cînd calculăm marja de eroare, folosim o formulă simplificată, care pe scurt se poate aproxima suficient de bine cu formula unu pe radical din volum eșantion.

Asta pentru că în general nu știm probabilitățile apriorice ale apariției evenimentului pe care îl măsurăm în populație: votanți USL, fumători, consumatori de cafea decofeinizată, stîngaci, privitori de Prima TV, oameni cu venituri peste 1000 de euro pe lună, purtători de ochelari, ce-o mai fi acolo de măsurat/

Și atunci facem următorul egzerciț de simplificare conservatoare: orice fenomen în natură, deci și în universul social, se poate descompune / simplifica într-o sumă (finită / infinită) de evenimente binomiale, de tipul “fie se egzistă, fie nu se egzistă”.

Aceste distribuții binomiale sînt caracterizate în mod fundamental de o valoare simplă, probabilitatea de apariție: p. Cît la sută din total populație “se egzistă”, adică prezintă respectiva caracteristică: votează cu USL, fumează, bea cafea decofeinizată ș.a.m.d.?

Păi nu știm, că de-aia măsurăm.

Păi atunci ne bazăm pe nenea Gauss și pe toate rudele sale care ne spun că un fenomen cu probabilitatea de apariție p prezintă împrăștierea cea mai mare, lipsa de precizie, abaterea de la valoarea sa cea mai mare atunci cînd p este 50%.

Adicătelea simplu: cînd dai cu banul: jumătate este, jumătate nu este. Dacă mergi la ghici, greșești în jumătate din cazuri. În rest, cu cît te îndepărtezi de la această distribuție p / non-p de 50% / 50%, adicătelea de orbecăială maximă, de maximă ceață la mal, de maximă eroare, cu atît ești mai exact în predicții, în măsurători, pentru că distribuția 50% / 50% este cea mai bleagă, cea mai laxă, e mai împrăștiată, mai fleașcă decît restul: 55% / 45%, 60% / 40%, 80% / 20%, 90% / 10% și toate celelalte infinite combinații intermediare.

Asta se datorează formulei abaterii standard a acestei distribuții binomiale, care este radical din p * (1 – p), adică radical din probabilitate ori complementara sa (1 – p).

Păi p * (1 – p) știm noi din clasa a șaptea că face p – p2, adicătelea pe pătrat, și dacă rezolvăm condiția de maxim a acestei parabole, vedem că are soluții la jumătate între valorile ecuației, care sînt 0 și 1, adicătelea la 0.5. Adicătelea la 50%. Acolo este maximum de abatere standard, de împrăștiere a acestei distribuții. Restul devine din ce în ce mai strîns, din ce în ce mai exact în estimările pe bază de eșantionare.

Formula completă a marjei de eroare este +/- z(p) * eroarea standard, unde z(p) e o valoare asociată riscului pe care vrem să ni-l asumăm. Cum acesta de regulă este de 5% (adică vrem să fim siguri în 95% din cazuri), atunci z(p) asociat este de 1,96. Iar eroarea standard este abatere standard pe radical din n (n = volumul eșantionului). Iar abaterea standard este radical din p (1 – p).

Rezultă formula mare dar imensă:

marja de eroare = + / - 1,96 * radical ( p * (1 – p) / n).

Doar că nu îl știm pe p. Și atunci devenim conservatori, punem răul în față și considerăm că nu se poate mai împrăștiat și mai varză și mai lipsit de exactitate decît în cel mai rău caz, cazul în care dăm cu banul, 50% / 50%, și atunci p = 0.5 și 1 – p tot 0.5 este și astfel 0.5 iese de sub radical și dacă aproximăm pe 1,96 cu valoarea rotundă de 2, că sînt oricum foarte apropiate, rezultă 2 * 0.5, deci 1, deci gata, am găsit simplificarea formulei marjei de eroare, unu pe radical din n.

Însă nu toate fenomenele sînt de tip 50% / 50%, și atunci de fapt marja de eroare aferentă acestora este mult mai mică, pentru că la o distribuție de tip 10% / 90% dacă facem calculele rezultă că abaterea standard este de 0.3, mai mică decît 0.5, cam la 60% din ea. Iar la o distribuție de tip 5% / 95%, cum ar fi de exemplu în cazul stîngacilor, avem o abatere standard de doar 0.22, adică doar 44% din aia clasică, pe care o calculăm de regulă. Nu mai spun de distribuții de tip 1% / 99%, unde abaterea standard este de doar 0.1, adică doar o cincime (20%) din abaterea standard inițială.

Și astfel marjele de eroare aferente, intervalele de aproximare în care joacă de fapt valoarea reală se strîng și ele. Iar în cazul stîngacilor de exemplu, unde după mai multe măsurători ne cam prindem noi că probabilitatea apriorică e pe undeva în jur de 5% ( p = 5%), atunci intervalul nu mai este 5% +/- 3%, ci 5% +/- 1.35%, adică mai strîns, nu (3% ... 8%), ci (3.6% ... 6.4%). Muuult mai exact dintr-o dată.

Și astfel se explică de ce atunci cînd avem scoruri procentuale de-alea mici, pe la partide reziduale, gen PNȚ-CD sau PNG sau PER sau PC, cu procente de votanți estimate între 1% și 2%, cînd vine întrebarea superior-ironică “păi dacă aplici marja de eroare de 3% îți dă cu minus, cum faceți mă voi sondajele alea?”,

nu ai decît să îi dai un cap în gură clientului, să învețe statistică, și după aia, cînd se șterge de sînge la gură, întins pe jos, pe coate, văitîndu-se după dinții rupți, să-i arăți graficul următor, timp în care să-i citești acest text de maximă rigoare științifică, pentru că e scris cu diacritice:



Dar evident că noi nu putem să dăm capete în gură clienților aroganți-disprețuitori care nu știu statistică, dar fac pe deștepții. Nu se face. Nu de alta, dar pe urmă nu mai plătește...

Ah, ce ne-am face noi fără puterea terapeutic-vindecătoare a fantasmei puse pe hîrtie?


4 comentarii:

Adrian Năstase spunea...

Rău te-a supărat burtosul/varanul.

lektor spunea...

Ma bag si eu ca musca in lapte, dar n-am inteles niciodata de ce absolut toate sondajele de teveu sint date fara margini de eroare individuale pentru fiecare estimare, ci se spune in treacat la sfirsit ca eroarea maxima e de 3 la suta. Nu e normal ca boborul sa fie dus in greseala?

"Păi p * (1 – p) știm noi din clasa a șaptea că face 1 – p2, adicătelea pe pătrat,[...]"

ceva e gresit in formula asta.

Turambar spunea...

Ejt varza. N-ai intzeles nimic. Sint varza. Am scris gresit. Evident ca e p - p2 :)

laurentiucat spunea...

cica dupa patruj da ani...incepi sa ai probleme la desfacutul parantezelor.