011.gif (9747 bytes)

CAPÍTULO 1

A AMOSTRA COM
TENDENCIOSIDADE
INTRODUZIDA

 

"O ex-estudante de Yale, formado em 1924, ganha em média 25.111 dólares por ano", afirmou o Time, comentando algo publicado no Sun de Nova Iorque.

Ótimo !

Mas... espere aí! Que significa este número impressionante? Será prova - como parece ser - de que, se meu filho for mandado para Yale, eu não mais terei que trabalhar depois de velho, e ele, menos ainda?

Duas coisas nesse número saltam aos olhos, se lermos a notícia desconfiados:

(1) Sua precisão é surpreendente.
(2) É tão bom que não deve ser verdade.

É muito improvável que a renda média de qualquer grupo muito espalhado seja conhecida com precisão, até o último dólar. Não é muito provável que você mesmo saiba qual foi sua renda no ano passado, tão precisamente, a menos que seja originária de salário. E rendas de 25 mil dólares dificilmente advirão de salários; as pessoas situadas em tal alíquota muito provavelmente têm investimentos diversificados.

Alem disso, esta linda média, sem dúvida, é calculada a partir das quantias que os ex-Yaleistas disseram que receberam. Mesmo que fossem juramentados à verdade, em seu tempo de estudante, lá por 1924, não poderíamos ter certeza de que, depois de tanto tempo, seu horror à mentira tenha sido mantido, pelo menos, no mesmo nível.

Algumas pessoas, quando indagadas sobre suas rendas, exageram-nas, por vaidade ou por otimismo. Outros minimizam suas receitas, especialmente (é de lamentar-se) em suas declarações ao Imposto de Renda; e, assim tendo feito, podem hesitar em se contradizer num outro papel. Quem sabe lá onde os olhos dos fiscais podem cair?

É possível que ambas as tendências, a da fanfarronada e a da modéstia, cancelem-se mutuamente, mas não é provável. Uma tendência pode ser mais acentuada do que a outra, e não sabemos qual.

Comecemos então a examinar um número - que o bom-senso nos diz que dificilmente represente a verdade. Agora, ponhamos o dedo na fonte provável do maior erro, uma fonte que pode apresentar 25 mil dólares como "renda média" de alguns nomes, cuja média real pode bem se aproximar apenas da metade do tal número.

012.gif (13838 bytes)

Esta fonte é o processo de amostragem, que está no cerne da maior parte das estatísticas que são encontradas sobre todos os tipos de assuntos. Sua base é bem simples, embora seus refinamentos na prática conduzam a muitos atalhos, alguns pouco respeitáveis.

Se tivermos um saco de feijão, algum preto e algum fradinho, só há uma maneira de sabermos quantos grãos temos de cada um: Contando-os. Entretanto, podemos achar aproximadamente quantos são pretos, de maneira bem mais fácil, apanhando-se um punhado do saco, e contando só os grãos do punhado, considerando que a proporção seja a mesma no saco inteiro. Se esta amostra for bastante grande, e escolhida adequadamente, representará o todo suficientemente, para a maior parte das finalidades.

Caso não seja, a amostra poderá ser menos acurada que uma adivinhação inteligente, e nada terá para recomendá-la, além de um ar espúrio de precisão cientifica.

A triste verdade é que as conclusões de tais amostras, tendenciosas, ou muito pequenas, (ou com ambos os defeitos), encontram-se atrás de muitas das informações que lemos, ou que acreditamos conhecer.

O relatório sobre o pessoal de Yale origina-se de uma amostra. Podemos estar seguros disso, porque o bom senso nos diz que ninguém pode pegar pelo colarinho todos os sobreviventes daquela classe de 1924. Os endereços de muitos serão forçosamente desconhecidos, depois de mais de quarenta anos.

E, entre aqueles cujos endereços são conhecidos, muitos não responderão a um questionário, especialmente um com perguntas de natureza íntima. Com alguns questionários via correio, uma resposta de 5 a 10% é bem alta. Esse questionário poderia ter atingido proporção maior, mas nunca 100%.

Assim, vemos que a renda se baseia numa amostra composta por todos os membros da classe de 1924:

(1) Cujos endereços são conhecidos e
(2) Que responderam ao questionário.

013.gif (12162 bytes)

Tal amostra é representativa? Isto é: pode considerar-se que este grupo tenha a mesma renda que o outro grupo, não representado, dos ex-alunos que não puderam ser localizados, ou que não responderam?

Quem são as ovelhinhas desgarradas cujos endereços não constam mais nos arquivos da secretaria de Yale? São os homens de sucesso, os banqueiros, os financistas, os diretores das grandes empresas, os executivos industriais? Não. Os endereços destes conseguem-se facilmente. Muitos dos membros mais prósperos da classe podem ser encontrados no Who's Who in America e em outras obras de referência, mesmo que não estejam em contato com a Associação dos Ex-Alunos.

014.gif (5500 bytes)

É muito provável que os nomes perdidos sejam os daqueles que, vinte ou trinta anos depois da formatura, não tenham tido nenhuma carreira brilhante. São os funcionários, os mecânicos, os vagabundos, os alcoólatras desempregados, os escritores, os artistas miseráveis... as pessoas que não ganham um décimo da tal média de 25.000 dólares. Estes não comparecem às reuniões de celebração que a classe andou fazendo ao longo dos anos, muitas vezes por não ter sequer dinheiro para a passagem.

Quem são os que jogaram o questionário na cesta de papéis? Não podemos ter certeza, mas talvez não erremos muito se considerarmos serem estes os que não estão ganhando o bastante para vangloriar-se. Devem parecer-se um pouco com o sujeito que achou uma notinha no seu primeiro envelope de pagamento, pedindo que considerasse o seu salário como confidencial, e que não deveria ser revelado nem comentado com seus colegas. "Não se preocupe", disse ele ao patrão. "Tenho tanta vergonha do meu salário quanto o senhor".

Torna-se bem claro que a amostra omitiu dois grupos bem capazes de reduzir a média. O número 25.111 começa a explicar-se. Se é que vale alguma coisa, é expressivo daquele grupo especial da classe de 1924 cujos endereços são conhecidos e que não se incomodam de dizer quanto ganham. Mesmo assim, espera-se que os cavalheiros estejam dizendo a verdade.

015.gif (17465 bytes)

Tal esperança (de que digam a verdade) não é desprezível. A experiência ganha num tipo especial de estudo de amostragens, a chamada pesquisa de mercado, diz-nos que tal esperança (de respostas verdadeiras) deve ser reduzida quase que a zero.

Um levantamento de porta-em-porta, pretendendo pesquisar a leitura de uma revista, foi certa ocasião realizado, tendo entre outras a seguinte pergunta-chave: "Quais as revistas lidas em sua casa?"

Quando os resultados foram tabulados e analisados, parecia que muitos leitores preferiam Harper's, uma revista literária, e poucos liam True Story, especializada em xaroposas e melodramáticas novelas.

Entretanto, existiam números disponíveis sobre a tiragem editorial dessas revistas, que indicavam claramente que True Story tinha milhões de exemplares em circulação, enquanto que Harper's tinha só algumas centenas de milhares.

Assombrados, os planejadores da pesquisa perguntavam se tinham entrado em contato com as pessoas erradas. Mas não! As perguntas foram feitas em todas as espécies de bairros, por todo o país. A única conclusão razoável foi que muitos dos entrevistados não tinham dito a verdade. Tudo o que a pesquisa tinha revelado foi o alto número de pernósticos.

Por fim, descobriu-se que, quando se deseja saber o que determinadas pessoas lêem, de nada adianta perguntar-lhes. Pode-se saber muito mais indo às suas casas, pedindo para comprar revistas velhas. Depois disso e só separar as revistas. Mesmo esse recurso furtivo, claro está, não dirá o que o pessoal lê, mas apenas revelará ao quê estiveram expostos. No meio, estarão certamente alguns relatórios técnicos.

Da mesma forma, a próxima vez que você ler que o americano médio (ouve-se muita coisa dele ultimamente, a maior parte vagamente improvável) escova os dentes 1,02 vezes por dia - um número que acabei de inventar, mas que é tão bom quanto o de qualquer outra pesquisa - faça uma pergunta a si mesmo: como se pode descobrir isto? Uma mulher, bombardeada por anúncios falados e escritos, que lhe dizem que não escovar os dentes é feio e anti-higiênico, irá confessar ao entrevistador que não escova os dentes regularmente? E se lhe perguntam "Uma vez por dia?", não será tentada a dizer "Duas!" e contribuir para os meus dois centésimos acima? A estatística terá um significado para quem quiser saber o que dizem as pessoas, quando lhes fazem perguntas sobre escovar dos dentes, mas na verdade não adianta muito sobre a freqüência real da aplicação da cerda ao incisivo.

Não pode um rio elevar-se acima de sua fonte originaria, dizem. Mas pode parecer que o faz, se houver uma estação elevatória escondida. Assim também é o resultado de uma pesquisa por amostragem: não pode ser melhor do que a amostra em que se baseia. Pelas alturas em que os dados estiverem sendo filtrados, através de camadas e camadas de manipulação estatística, e reduzidos a impressionantes médias decimais, o resultado passa a ter uma aura de convicção que uma espiada mais de perto na amostra original faria desmoronar.

A descoberta precoce do câncer salva vidas? Provavelmente. Mas, pelos números geralmente usados para prová-lo, o melhor que podemos dizer é que não salva. Tais números, os arquivos do Registro de Tumores do Connecticut, retrocedem até 1935, e parecem mostrar um aumento substancial na taxa de sobrevivência do período quinquenal, até 1941. Na verdade, tais arquivos iniciaram-se em 1941, e todos os dados anteriores foram obtidos por investigação do passado. Muitos pacientes tinham deixado Connecticut, e não se sabia se viviam ou tinham morrido. De acordo com o relator, o médico Leonard Engel, a tendenciosidade assim introduzida "basta para ser responsável por toda a melhoria indicada na taxa de sobrevivência".

017.gif (13751 bytes)

Para ter valor, um relatório baseado numa amostragem deve usar uma amostra representativa, que é aquela amostra livre de toda a fonte de tendenciosidade. É aqui que o nosso número para os ex-alunos de Yale mostra sua inutilidade. É aqui também que muitas das coisas lidas em jornais e revistas revelam sua falta de sentido inerente.

Um psiquiatra recentemente revelou que praticamente todos são neuróticos. Se assim fosse, tal incidência destruiria o significado da palavra "neurótico" (e todos seriam normais, pois a normalidade pertence à totalidade). Vamos dar uma espiada na amostra do nosso cidadão. Isto é, quem andou o nosso amigo observando? Descobrimos que ele chegou à sua edificante conclusão pelo estudo de seus pacientes, que estão muito, mas muito longe mesmo, de ser uma amostra da população. Se um homem é normal, o nosso psiquiatra terá pouca oportunidade de conhecê-lo.

018.gif (14138 bytes)

Experimente dar esta espécie de segunda olhada nas coisas que ler. Você poderá evitar aprender um monte de coisas que não existem.

Vale a pena ter em mente, também, que a fidedignidade de uma amostra pode ser destruída com a mesma facilidade, tanto pelas fontes ocultas de tendenciosidade, quanto pelas fontes visíveis. Isto quer dizer que mesmo que você não consiga descobrir uma fonte de tendenciosidade patente, permita-se um certo grau de ceticismo sobre os resultados, enquanto houver possibilidade de tendenciosidade em algum lugar. E sempre há! As eleições presidenciais americanas de 1948 e de 1952 são suficientes para provar esta afirmação, caso haja dúvidas.

Para prova maior, voltemos a 1936 e ao famoso fiasco do Literary Digest. Dez milhões de assinantes da revista, que eram também assinantes de telefone, afirmaram aos editores que os resultados eleitorais seriam de 370 votos para o candidato Landon e de 161 para Roosevelt. Constavam da mesma lista que tinha acuradamente previsto a eleição de 1932. Como poderia haver tendenciosidade numa lista já tão bem testada?

Entretanto, havia a tendenciosidade, como foi bem provado por inúmeras teses de pós-graduação e por outras autópsias: as pessoas que podiam dar-se ao luxo de ter, ao mesmo tempo, um telefone e uma assinatura de revista, em 1936, não mais representavam todos os votantes. Economicamente, tinham passado para a categoria especial, e a amostra estava carregada de eleitores republicanos. A amostra elegeu Landon, mas o eleitorado preferiu o outro resultado.

019.gif (16382 bytes)

A amostra básica é do tipo denominado "aleatória". É selecionada por puro acaso, de um "universo", uma palavra pela qual os estatísticos designam o todo, do qual a amostra é uma parte. Cada décimo nome é retirado de um fichário. Ou cinqüenta papeizinhos são tirados de um chapéu. Ou cada vigésima pessoa encontrada na Rua Nova é entrevistada (mas lembre-se de que esta é uma amostra, não da população do mundo, ou dos Estados Unidos, ou de São Francisco, mas tão somente das pessoas que andam pela Rua Nova naquele momento).

Um entrevistador de uma pesquisa de opinião disse que tinha entrevistado as pessoas numa estação ferroviária porque "todas os tipos de pessoas podem ser encontrados numa estação". Tiveram que lhe dizer que, por exemplo, as mães recentes, e os proprietários de automóveis, poderiam estar sub-representados.

O teste da amostragem aleatória, ou "ao acaso", é o seguinte: Cada nome ou coisa de todo o grupo deverá ter a mesma oportunidade de ser incluído na amostra.

A amostra puramente aleatória é a única espécie que pode ser examinada com toda a confiança por meio da teoria estatística, mas existe algo de errado com ela. É tão difícil e cara de obter-se que, para muitos fins, o peso de seu custo a elimina. Um substituto mais econômico, que é quase universalmente adotado nos campos de pesquisa de opinião e de mercado, é a denominada "amostragem aleatória estratificada".

Para se obter esse bicho-de-sete-cabeças, divide-se o "universo" em vários grupos, na proporção de sua prevalência. E é aqui que as complicações aparecem: sua informação sobre as proporções pode estar incorreta. Você instrui seus entrevistadores para que falem com tantos negros, e com tais e tais percentagens de brancos, em tais e tais alíquotas de renda, com um certo número de advogados etc. e tal. Toda essa gente deve ainda ser dividida entre os acima e os abaixo de quarenta anos.

Parece ótimo! Mas... o que acontece? Na questão de branco e preto, o entrevistador acertará com bastante freqüência, se não aparecerem pardos pela frente. Quanto às rendas, os erros serão bem maiores. Quanto a advogados, deve incluir todos os bacharéis? Os que militam no foro? Os que são procuradores, mas passam o tempo a estudar história? Mesmo a questão da idade traz problemas, que o entrevistador hábil (mas profissionalmente errado) contorna escolhendo pessoas obviamente abaixo ou acima dos quarenta. Neste ponto a amostra será tendenciosa pela ausência virtual dos grupos do fim dos trinta e do inicio dos quarenta. É um caso sério!

Além de tudo isso, como se obtém uma amostra aleatória dentro da estratificação? O obvio é começar com uma lista de todos e sair atrás de nomes escolhidos ao acaso, mas isso é muito caro. Portanto, você sai à rua - e introduz tendenciosidade por omitir os que estão em casa. Você vai de porta em porta durante o dia - e não encontra a maioria dos que trabalham fora. Você passa a fazer entrevistas noturnas - e não encontra os freqüentadores de cinema, os farristas, os redatores de jornal e os que acompanham as esposas à costureira.

A operação de um levantamento resume-se, no final, à batalha contra as fontes de tendenciosidade, e tal batalha é enfrentada ininterruptamente pelas organizações conscienciosas. O que o leitor dos relatórios deve ter em mente é que tal batalha prossegue sempre, e nunca há uma vitória. Nenhuma conclusão do tipo "67% dos americanos são contra" qualquer coisa deve ser lida sem aquela constante dúvida: "67% de quais americanos"?

022.gif (10189 bytes)

Isto ocorre no Volume Fêmea do Dr. Alfred C. Kinsey (Relatório Kinsey sobre o Comportamento Sexual dos Americanos). O problema, como sucede com qualquer coisa baseada em amostragens, é de como o ler (ou ler um sumário popular do alfarrábio) sem perder de vista que todas as suas afirmações não são obrigatoriamente definitivas, ou mesmo completamente reais.

Há pelo menos três níveis de amostragem no caso. As amostras da população (um nível) estão longe de ser aleatórias e podem não ser especialmente representativas, mas são amostras enormes, comparadas com qualquer coisa jamais feita anteriormente no seu campo, e seus números devem ser aceitos como reveladores e importantes, ainda que não inteiramente acurados. Talvez seja mais importante lembrar que qualquer questionário é apenas outra amostra (outro nível) das questões possíveis, e que as respostas dadas pela dama não passa de ainda outra amostra (terceiro nível) de suas atitudes e experiências quanto a cada questão.

As espécies de entrevistadores empregados poderão dar um tom especial ao resultado, de modo interessante. Há alguns anos, durante a Segunda Grande Guerra, o National Opinion Research Center enviou dois quadros de entrevistadores para fazer três perguntas a quinhentos negros numa cidade sulista. Um quadro era de brancos, outro de negros.

Uma pergunta era: "Os negros serão tratados melhor ou pior, caso os japoneses conquistem os Estados Unidos?" Os entrevistadores negros relataram que nove por cento dos entrevistados respondeu "Melhor". Os entrevistadores brancos receberam apenas dois por cento de tal resposta. E enquanto os negros acharam vinte e cinco por cento de respostas "Pior", os entrevistadores brancos receberam quarenta e cinco por cento.

Quando, na pergunta, a palavra "Nazista" foi empregada em lugar de "Japonês", os resultados foram similares.

A terceira questão sondava atitudes que poderiam basear-se em sentimentos revelados pelas duas primeiras. "Acredita que seja mais importante concentrar esforços para derrotar o Eixo, ou fazer com que a democracia funcione melhor internamente?" "Derrotar o Eixo" foi a resposta de 39%, de acordo com os entrevistadores negros; 62%, de acordo com os brancos.

Aqui encontramos tendenciosidade introduzida por fatores desconhecidos. Parece que o fator mais efetivo foi a tendência, que devemos sempre descontar em qualquer inquérito, de se querer dar uma resposta agradável. Não é, pois, de espantar que, ao responder a uma pergunta com conotações de deslealdade patriótica, em tempo de guerra, um negro sulista dissesse a um homem branco o que soava bem, antes de lhe dizer o que realmente pensava. É também possível que grupos diferentes de entrevistadores escolham diferentes tipos de pessoas para se dirigir.

024.gif (10047 bytes)

De qualquer modo, os resultados são obviamente tão tendenciosos que não têm qualquer valor. Pode julgar por você mesmo quantas conclusões baseadas em inquéritos de opinião são tão tendenciosas e tão inúteis, mas sem ter um indicador tão óbvio para demonstrar imediatamente tal nulidade.

Você terá suficiente indicação para prosseguir nas suas investigações, se forem levantadas suas suspeitas de que um levantamento foi feito numa direção específica: a do Literary Digest. Esta é a tendenciosidade para a pessoa com mais dinheiro, mais educação, mais informação e mais vivacidade, melhor aparência, comportamento mais convencional e hábitos mais educados do que a média da população que a amostragem pretende representar.

Facilmente se vê o que produz tal tendenciosidade. Digamos que você seja um entrevistador que recebe uma determinada esquina de rua como posto para fazer uma entrevista. Você vê dois homens que parecem estar na categoria desejada: acima de quarenta, negro, urbano. Um está de macacão limpo, decentemente remendado, bem ajustado. O outro está sujo e sua fisionomia é azeda. Tendo que cumprir sua missão, você aborda o mais agradável, e seus colegas, em todo o país, estarão tomando a mesma decisão.

Parte da mais extremada objeção contra pesquisas de opinião publica encontra-se nos círculos liberais ou de esquerda, onde se acredita extensamente que tais pesquisas sejam tramadas. Atrás de tal crença está o fato de que os resultados da pesquisa freqüentemente deixam de coincidir com as opiniões e desejos daqueles cujo pensamento não segue as linhas conservadoras. As pesquisas, dizem eles, parecem sempre eleger os Republicanos, mesmo quando os votantes, logo após, fazem o contrário.

Na verdade, como vimos acima, não é necessário que uma pesquisa seja pré-dirigida - isto é, que os resultados sejam deliberadamente torcidos para se criar uma falsa impressão. A tendência natural, da amostra, nessa direção constante, automaticamente falsificará a pesquisa.