2.4. Relação entre duas variáveis qualitativas

Tabelas de contingência. Sejam X e Y duas variáveis qualitativas com r e s modalidades, respectivamente. Se utilizarmos uma tabela para estruturar a apresentação dos dados teremos uma tabela de contingência com r linhas e s colunas (veja-se a tabela 1).
Tabela 1.

 

Onde $$n_{i.} = \sum \limits_{j=1}^s n_{ij} \hspace{10 mm} e \hspace{10 mm} n_{.j}=\sum \limits_{i=1}^r n_{ij}$$ Representando \(n_{i.}\) o total em linha e \(n_{.j}\) o total em coluna. Neste sentido, o total de indivíduos que constituem esta população (N) é neste caso representado por \(n_{..}\), sendo $$n_{..}= \sum \limits_{i=1}^r n_{i.} = \sum \limits_{j=1}^s n_{.j} = \sum \limits_{i=1}^r \sum \limits_{j=1}^s n_{ij}$$
Consideremos uma vez mais a turma de 30 alunos do nosso curso de informática divididos agora também por género: 0 - feminino e 1 - masculino. A distribuição cruzada dos alunos pelas modalidades das duas variáveis é apresentada na tabela 2.

 

Tabela 2.

 

Neste contexto, quando entramos na análise bivariada e cruzamos informação relativa a duas variáveis, podemos responder a outro tipo de questões. Por exemplo, investigar se as duas variáveis estarão ou não relacionadas (associadas). Poderemos, ou não, associar certas modalidades da variável X com determinadas modalidades da variável Y? Ou seja, neste universo de 30 alunos, existirá uma associação entre o resultado da avaliação e o género? O género feminino, ou masculino, estará associado com algum dos resultados (excluído, admitido ou dispensado)? Para responder a esta questão importa, em primeiro lugar, notar que a partir de uma tabela de contingência podem ser realizadas duas leituras consoante a variável que se priviligie: a leitura em linha ou a leitura em coluna. Se a opção for a linha então as frequências condicionais que importam são calculadas por \(\frac{n_{ij}}{n_{i.}}\), enquanto no caso da coluna será \(\frac{n_{ij}}{n_{.j}}\). Assim, se pretendermos saber como se distribuem as classificações por rapazes e raparigas, então teremos \(\frac{5}{6}\) dos alunos excluídos são raparigas, enquanto apenas \(\frac{1}{6}\) são rapazes. Nos alunos admitidos \(\frac{4}{9}\) são raparigas (44,4%) e \(\frac{5}{9}\) são rapazes (55,6%). Nos dispensados as proporções para raparigas e rapazes alteram-se significativamente para 20% e 80%, respectivamente. Por outro lado, se pretendermos saber as classificações obtidas por cada género, então teremos \(\frac{5}{12}\) das raparigas foram excluídas (42%), \(\frac{4}{12}\) foram admitidas (33%) e \(\frac{3}{12}\) foram dispensadas (25%). Nos rapazes teremos então 5,6% de excluídos, 27,8% admitidos e 66,6% dispensados.

 

O desvio à independência Se as proporções (as frequências condicionadas) encontradas em todas as linhas forem idênticas,i.e., $$\frac{n_{1j}}{n_{1.}} = \frac{n_{2j}}{n_{2.}} = ... = \frac{n_{rj}}{n_{r.}},\forall j $$ então podemos dizer que as variáveis X e Y são independentes, uma vez que o conhecimento de X não muda a distribuição condicional de Y. Resultando daqui por soma dos numeradores e denominadores que $$\frac{n_{ij}}{n_{i.}} = \frac{n_{.j}}{n_{..}} $$ Portanto, a situação de independência é dada por $$n_{ij}^{*}=\frac{n_{i.}n_{.j}}{n_{..}} $$ que representa a frequência esperada (teórica) caso as variáveis sejam independentes. No nosso exemplo a situação de independência, que corresponde à distribuição proporcional dos indivíduos segundo a estrutura em linha ou segundo a estrutura em coluna, é apresentada na tabela 3.

 

Tabela 3.

 

Neste sentido, quanto maior forem as diferenças entre \(n_{ij} \) e \(n_{ij}^{*} \) maior tenderá a ser a associação entre X e Y. É geralmente aceite como medida de associação o qui-quadrado - \( \chi ^{2}\) - dado por: $$ \chi ^{2} = \sum_{i=1}^{r}\sum_{j=1}^{s}\frac{(n_{ij}-n_{ij}^{*})^2}{n_{ij}^{*}} $$ Portanto, se \(n_{ij} = n_{ij}^{*}, \forall i,j\) então estaremos no caso em que as variáveis são independentes e \(\chi^2 = 0\). No entanto, o problema surge no limite superior a partir do qual possamos estabelecer uma dependência funcional uma vez que \(\chi^2 \leq N(s-1)\) ou \(\chi^2 \leq N(r-1)\). Para ultrapassar esta dificuldade diversos coeficientes foram propostos para obter uma medida que varie entre 0 (independência) e 1 (ligação funcional).
1. o coeficiente de contingência de K. Pearson - \(C = \sqrt{\frac{\chi^2}{\chi^2+N}} \)

 

2. o coeficiente de Tschuprow - \(T = \sqrt{\frac{\chi^2}{N\sqrt{(r-1)(s-1)}}} \)

 

3. o coeficiente de Cramer - \(V = \sqrt{\frac{\chi^2}{N \; inf (s-1);(r-1)}} \)

 

No exemplo dos alunos teremos então \(\chi^2 = 7.268\) e \( C = 0.441\) o que permite afirmar a existência de alguma associação entre género e resultado do exame. Com efeito, comparando as frequências observadas, presentes na tabela 2, e as frequências esperadas, presentes na tabela 3, verifica-se que os alunos do género feminino estarão associados a resultados mais negativos (exclusão) enquanto os alunos masculinos estarão mais associados a resultados positivos (dispensa).