miercuri, 13 februarie 2013

There’s poetry in structured noise


Uitați-vǎ la graficul de mai jos. Am fǎcut un sondaj. SocioPol pe ianuarie, cel mai recent, lucrǎm acum la el. Și pentru cǎ trebuie sǎ termin un proiect, evident cǎ aș face orice altceva.

Cum ar fi de exemplu sǎ mǎ uit cum se distribuie localitǎțile din eșantion și cum ar fi trebuit sǎ se distribuie.

Avem un eșantion de 1000 de cazuri. Geografic îl structurǎm pe regiuni istorice și pe mǎrimi de localitate, acestea fiind straturile de construcție. Pe urmǎ facem liste aleatorii de telefoane și sunǎm la oameni, sǎ-i întrebǎm cîte în lunǎ și în stele.

Rezultǎ, dupǎ multǎ bǎtaie de cap, un eșantion. În el au rǎspuns la întîmplare, cum s-au nimerit, din multe localitǎți ale României. 451 ca sǎ fiu mai exact, mult mai multe puncte de eșantionare decît ne-ar fi permis metoda de culegere a datelor în teren, Face-To-Face, aia dupǎ care plîngeți voi, metodologilor de vǎ pricepeți la toate, mai ales la cum trebuie fǎcute sondajele. Deci rǎspîndire mai mare, deci acoperire mai bunǎ, deci date mai valide. Deci sǎ mai înjurați sondajele telefonice.

Ne întoarcem. În fiecare din localitǎțile mai rǎsǎrite, orașele bunǎoarǎ, obținem un anumit numǎr de interviuri. Întrebarea este: cum se potrivesc aceste numere, aceste incidențe, cu distribuția teoreticǎ a numǎrului de interviuri pe care ar fi trebuit sǎ le obținem dacǎ picau fix cum trebuie, riguros pe structura teoreticǎ? Ce diferențǎ este între practicǎ și teorie?

Rezultǎ o structurare care este în același timp potrivitǎ și aproximativǎ, cu variațiile de rigoare specifice numerelor mici, pentru cǎ vorbim de incidențe teoretice de apariție în eșantion de 2, 3, 4, 10, hai maxim 20 de cazuri pentru cele mai mari orașe ale României.



Evident cǎ aici intervin și alte limitǎri metodologice, cum ar fi bunǎoarǎ probabilitǎțile ușor diferite de deținere de posturi telefonice în fiecare din aceste localitǎți, care evident cǎ depind de nivelul de dezvoltare comunitarǎ (economicǎ, instituționalǎ, valoricǎ) a orașului respectiv.

Evident cǎ inițial distribuția teoreticǎ dǎ cu virgulǎ, deci trebuie s-o nivelǎm la numere întregi, cǎ nu poți sǎ stai de vorbǎ cu 2,37 oameni, poți doar sta de vorbǎ cu 2 sau cu 3 oameni, nu se taie respondentul cu drujba – deși uneori așa ne bate niște gînduri, niște fantasme de rǎzbunare, mama lor de respondenli...

Dincolo însǎ de aceste limitǎri metodologice, dincolo de zgomotul de fond cauzat de apǎsarea numerelor mici, sub 30, se așeazǎ al naibii de bine.

Ce vedeți mai jos reprezintǎ un imn de slavǎ adus robusteții cercetǎrii cantitative, o poiezealǎ matematicǎ, un cîntec statistic surpins în pozǎ. A shiver down the spine cînd vezi cît de bine se așeazǎ.

Ce vedeți mai jos reprezintǎ o ușurare ontologicǎ, la fel de proaspǎtǎ acum dupǎ 15 de ani de profesie ca și în prima zi cînd am dat cu nasul de ea, întîiași oarǎ pentru prima datǎ.

Ah, damn it, frumoasǎ mai e matematica! Frumoasǎ mai e sociologia!

Ah, damn it: urît mai e proiectul meu neterminat... :(

PS: Am spart Bucureștiul în cele 6 sectoare componente pentru a nu turti graficul din cauza dimensiunii sale prea mari. Am introdus astfel 6 unitǎți semi-autonome de dimensiuni comparabile cu ale celorlalte orașe foarte mari din capul listei: Constanța, Timișoara, Brașov, Galați, Iași, Cluj, Craiova.

PPS: Evident cǎ observǎm cǎ e mai dificil sǎ realizezi norma de interviuri în orașele foarte mari, dacǎ ne uitǎm cum linia neagrǎ e ușor sub cea roșie. Nu-i nimic: o reparǎm la ponderare.

.

2 comentarii:

Bogdan Voicu spunea...

Frumos!

De altfel, dincolo de costul redus şi viteza culegerii datelor, acesta ar fi principalul avantaj al CATI, mai ales atunci când nu ai sumţii puternice legate de similitaritatea unor localităţi.

Pentru a judeca mai bine rezultatul, ar fi utile câteva informaţii suplimentare.

Bănuiesc că selecţia e făcută simplu aleator. Câte reţele de telefonie sunt folosite? Ce tip de grilă e folosită în selecţia din gospodărie pe fix?

Îţi amintesc că problemele de selecţie la telefonic NU sunt legate de distribuţia geografică, ci de reprezentativitatea pe categorii de vârstă-educaţie-sex (grupuri de 10 ani la vârstă, minim 5 categorii la educaţie, toate acestea încrucişate). În plus este problema de distorsiune a răspunsurilor la telefonic, imposibilitatea de a folosi cartele, control mai redus asupra respondentului real, insuficientă informaţie pentru a compara pe cei care refuză complet să răspundă cu cei care răspund, dificultatea de a aplica chestionare mai lungi.

Ar fi interesant de văzut cum stă eşantionul amintit mai sus măcar în ce priveşte structura sex-educ-vârstă (repet, încrucişat) şi ce rată de refuz a fost înregistrată. E eşantionul respectiv o experienţă repetabilă sau e atipic (adică alte eşantioane de genul lui ţi-au ieşit la fel, iar aici nu mă refer doar la geografie).

Turambar spunea...

Da, e simplu aleator in cadrul fiecarei celule geografice (marime localitate vs regiune istorica). O singura retea de telefonie fixa. Metoda zilei de nastere.

Stiu despre limitarile despre care vorbesti. Limitarea de reprezentativitate pe categorii o rezolvam in doua etape. In prima ne tinem de structura de distributie sex x varsta (cote, cind se implinesc cotele stop interviuri in celula respectiva). In privinta educatiei, ponderam, temperind studiile superioare si sprijinind studiile primare, cf experienta de biasare de selectie. In plus fata de educatie, fac controlul distributiei prin ponderare si pe variabila ocupatie (potolirea categoriilor inactive, cu exceptia somerilor) - desi in acest caz ne intilnim cu aceasta biasare de selectie si in cazul cercetarilor de teren.

Celelalte limitari (cartele, distorsiune raspunsuri, control redus) sint dupa parerea mea comparabile cu dificultatile din teren. Singura care nu poate fi suplinita este lipsa cartelei, evident. Da, chestionare mai lungi nu poti aplica - max 40-45 de intrebari (combinatie simple complexe, aprox 200 de itemi; 30 min).

Insa nu uita si de beneficiile specifice culegerii pe telefon: controlul mult mai bun al operatorilor, faptul ca respondentii de multe ori se simt mai confortabil sa raspunda in intimitatea unei relatii non-directe, fara eye contact.

Nu am mai facut analiza asta (pe localitati) pina acum. O pot repeta pe cercetarile anterioare. In privinta experientei repetabile, da: apar mai intotdeauna aceleasi structuri socio-demo. Am invatat deja sa identific o cercetare cu probleme at a glance :)