Estatística aplicada à psicolinguística (2)

59
Estatística Aplicada às Ciências da Linguagem Prof. José Ferrari Neto

Transcript of Estatística aplicada à psicolinguística (2)

Page 1: Estatística aplicada à psicolinguística (2)

Estatística Aplicada às Ciências da Linguagem

Prof. José Ferrari Neto

Page 2: Estatística aplicada à psicolinguística (2)

O que é Estatística ?

Estatística é uma ferramenta (ou método) que nos ajuda a interpretar e analisar conjuntos de

números. É, portanto a ciência da análise de dados. Consiste de um conjunto de instrumentos

que podem ser utilizados para recolher, classificar, apresentar e interpretar conjuntos de dados

numéricos.

Page 3: Estatística aplicada à psicolinguística (2)

Ramos da Estatística

- Estatística Descritiva: estuda o comportamento de um conjunto de dados ou valores

- Estatística Probabilística: estuda as probabilidades associadas a ocorrência de um determinado dado ou

valor

- Estatística Inferencial: estuda como é possível fazer afirmações sobre um universo de dados ou valores a partir de um subconjunto desses dados ou valores.

Page 4: Estatística aplicada à psicolinguística (2)

Conceitos Fundamentais em Estatística

- População: Coleção de unidades individuais, que podem ser pessoas ou resultados experimentais, com uma ou mais

características comuns, que se pretendem estudar.

- Amostra: Conjunto de dados ou observações, recolhidos a partir de um subconjunto da população, que se estuda com o

objetivo de tirar conclusões para a população de onde foi recolhida.

Variável Estatística: qualquer característica associada a um indivíduo ou população. Também chamada de parâmetro

- Distribuição: conjunto de valores assumidos por uma variável, e qual a frequência com que ela os assume

Page 5: Estatística aplicada à psicolinguística (2)

Amostragem

-Randômica (aleatória)- Não-enviesada- Representativa- Proporcional

- Uniforme

-Que tamanho deve ter uma amostra ?

Page 6: Estatística aplicada à psicolinguística (2)

Tipos de Dados

- Qualitativos: Representam a informação que identifica alguma qualidade, categoria ou característica, não

susceptível de medida, mas de classificação, assumindo várias modalidades.

- Quantitativos: Representam a informação resultante de características susceptíveis de serem medidas,

apresentando-se com diferentes intensidades, que podem ser de natureza discreta (descontínua) - dados

discretos, ou contínua - dados contínuos.

Page 7: Estatística aplicada à psicolinguística (2)

7

QUALITATIVA

(expressa em

categorias

ou atributos)

QUANTITATIVA

(expressa em

números ou

medidas)

NOMINAL (absolutas)

ORDINAL (níveis)

CONTÍNUA

(qualquer valor)

DISCRETA

(valores finitos)

peso, altura, salário, idade

número de filhos, número de carros

sexo, cor dos olhos

classe social, grau de instrução

Variáveis Estatísticas:

Classificação das Variáveis:

Page 8: Estatística aplicada à psicolinguística (2)

Desafio (I)Classifique cada uma das alternativas a seguir conforme a tabela de classificação das variáveis estatísticas:

a) A duração das pausas em um trecho de conversação, medida em milissegundos;b) A taxa de palavras por informante, numa escala de polidez que vai de 1 (pouco polido) a 5 (muito polido);c) A presença ou ausência de verbos finitos em cada sentença presente em um texto particular;d) O nível de gramaticalidade de sentenças numa escala de 0 (completamente agramatical) até 4 (totalmente gramatical)e) O número de sentenças relembradas por um sujeito 10 minutos depois de ouvi-las.

Page 9: Estatística aplicada à psicolinguística (2)

Frequência e Distribuição de Frequência

• Frequência (ou frequência absoluta) é o número de valores registrados em uma dada população ou amostra

• Frequência relativa é a proporção (em percentuais) com que dado valor aparece em relação ao total da população

ou amostra

• Frequência Acumulada é um dado igual à soma das frequências deste e a de todos os dados anteriores

• Distribuição de Frequência é uma representação gráfica ou em tabela, que aponta o número de vezes que uma

variável aparece em uma amostra.

Page 10: Estatística aplicada à psicolinguística (2)

Exemplificando: Tabela de Frequência para Dados Discretos

Sujeitos Frequência(ƒi)Frequência

relativa (ƒri)Frequência percentual

Frequência acumulada

1 1 0,05 5 5

2 2 0,1 10 15

3 5 0,25 25 40

4 8 0,4 40 80

5 3 0,15 15 95

6 1 0,05 5 100

Em um experimento de produção eliciada, observou-se a ocorrência da perda do travamento silábico em verbos infinitos na fala urbana típica do Rio de Janeiro. Analisaram-se dados produzidos por 6 informantes. Os resultados aparecem na tabela abaixo:

Page 11: Estatística aplicada à psicolinguística (2)

Exemplificando: Tabela de Frequência para Dados Contínuos

Tempos médios de Resposta em um experimento de decisão lexical

TABELA 2

Tempos de Resposta(ms)

FREQ

450451452453454455456457458460461462463464465466467468469470472473

1111143125422311121111

Total 40

Page 12: Estatística aplicada à psicolinguística (2)

Tabela 3

Tempos de Resposta(ms)

FREQUÊNCIA

— — — — — —

4911853

Total 40

Dados fictícios.

Page 13: Estatística aplicada à psicolinguística (2)

Observações:

Algumas indicações na construção de distribuição defrequências com dados contínuos são:

•Na medida do possível, as classes deverão ter amplitudesiguais.•Escolher os limites dos intervalos entre duas possíveisobservações.•O número de intervalos não deve ultrapassar 20.•Escolher limites que facilitem o agrupamento.•Marcar os pontos médios dos intervalos.•Ao construir o histograma, cada retângulo deverá ter áreaproporcional à frequência relativa (ou à frequência absoluta, oque dá no mesmo) correspondente.

Page 14: Estatística aplicada à psicolinguística (2)

Histogramas de Frequência

Page 15: Estatística aplicada à psicolinguística (2)

Gráfico de Pizza

58%

22%

11%

5%3% 1%

Uso de Pronomes Relativos

QUE

QUAL

ONDE

QUEM

QUANTO

CUJO

Page 16: Estatística aplicada à psicolinguística (2)

Gráfico Temporal

s1 s2 s3 s4 s5 s6

Afásico 1466 1733 1189 1504 1500 1522

Controle 951 782 886 754 802 1082

0

500

1000

1500

2000

2500

3000

Axi

s Ti

tle

Leitura do Segmento Crítico

Page 17: Estatística aplicada à psicolinguística (2)

Quando usar ?

•Use o gráfico de barras (histograma) sempre que oobjetivo for comparar diferentes fatores quandomedidos na mesma unidade

•Use o gráfico de pizza sempre que o objetivo forenfatizar as partes de um todo

•Use o gráfico temporal sempre que o objetivo forestabelecer uma relação entre uma observação e otempo em que ela foi medida

Page 18: Estatística aplicada à psicolinguística (2)

Analisando-se um Gráfico

Ao se analisar um gráfico, seja de que tipo for, sempre procure observar:

•A forma: presença de picos ou vales, ou ainda fatias•O centro: :dados mais próximos à média•A dispersão: o afastamento dos dados em relação àmédia•A distribuição: se é normal ou não•A simetria: para que lado cresce o gráfico•A presença de dados discrepantes

Page 19: Estatística aplicada à psicolinguística (2)

Desafio (II)Para cada tipo de fenômeno abaixo, aponte o tipo de gráfico mais adequado para representar os dados:

•Desempenho médio de alunos do Ensino Médio na prova de português do ENEM, por faixa etária;•Surgimento de orações encaixadas na fala infantil, de 12 a 48 meses;•Preferência por tempo verbal na expressão da polidez, num grupo de 100 sujeitos;•Percentual de julgamentos de gramaticalidade sobre um certo tipo de sentença, numa escala de 1 a 5;•Matérias mais importantes para a formação do professor de português oferecidas nos cursos de Letras;•Reconhecimento de elementos afixais em palavras morfologicamente complexas entre sujeitos de três faixas etárias.

Page 20: Estatística aplicada à psicolinguística (2)

Estatística Descritiva

Medidas de Concentração ou de Tendência Central

1. Média (mean)1. Aritmética2. Ponderada3. Geométrica4. Harmônica

2. Mediana (median)3. Moda (mode)

Page 21: Estatística aplicada à psicolinguística (2)

Estatística DescritivaMédia aritmética simples

É o resultado da divisão da soma de n valores por n. X = [∑(i→n) xi] / n

Média aritmética ponderadaNeste tipo de média aritmética, cada número que fará parte da média terá um peso. Este peso será multiplicado pelo número, que serão somados e divididos depois pela

soma dos pesos. X = (∑ xifi) ÷ (∑ fi)

Média GeométricaEntre n valores, é a raiz de índice n do produto desses valores.

X = n x1 x2 x3...xn

Média harmônicaA média harmônica equivale ao inverso da média aritmética dos inversos de n valores.

Page 22: Estatística aplicada à psicolinguística (2)

Estatística Descritiva

ModaDefine-se moda como sendo: o valor que surge com mais frequência se os dados são discretos, ou, o intervalo de classe com maior frequência se os dados são contínuos.

Assim, da representação gráfica dos dados, obtém-se imediatamente o valor que representa a moda ou a classe modal

Esta medida é especialmente útil para reduzir a informação de um conjunto de dados qualitativos, apresentados sob a forma de nomes ou categorias, para os quais não se

pode calcular a média e por vezes a mediana.

MedianaA mediana, é uma medida de localização do centro da distribuição dos dados, definida

do seguinte modo:Ordenados os elementos da amostra, do maior para o menor, a mediana é o valor

(pertencente ou não à amostra) que a divide ao meio, isto é, 50% dos elementos da amostra são menores ou iguais à mediana e os outros 50% são maiores ou iguais à

medianaPara a sua determinação utiliza-se a seguinte regra, depois de ordenada a amostra de n

elementos, se n é ímpar, a mediana é o elemento médio. Se n é par, a mediana é a semi-soma dos dois elementos médios.

Page 23: Estatística aplicada à psicolinguística (2)

Estatística Descritiva

Que medida de tendência central devemos usar ?

A escolha deve levar em conta três fatores:

a) O tipo de variável: a média só é realmente confiável quando usada com variáveis quantitativas contínuas ou discretas; para dados qualitativos ordinais, recomenda-se a mediana, e, para

dados qualitativos nominais, a moda pode ser usada;

b) O tipo de distribuição de frequência: se a distribuição for enviesada positivamente ou negativamente, a moda e a mediana diferirão da média; assim, somente se a distribuição

tender a ser simétrica valerá a pena usar a média como medida central; do contrário, a mediana é mais recomendável;

c) Os objetivos da análise: Como medida de localização, a mediana é mais robusta do que a média, pois não é tão sensível aos dados. A mediana não é tão sensível, como a média, às

observações que são muito maiores ou muito menores do que as restantes (outliers). Por outro lado a média reflete o valor de todas as observações. A média, ao contrário da mediana, é uma

medida muito influenciada por valores "muito grandes" ou "muito pequenos", mesmo que estes valores surjam em pequeno número na amostra. Estes valores são os responsáveis pela má utilização da média em muitas situações em que teria mais significado utilizar a mediana.

Page 24: Estatística aplicada à psicolinguística (2)

Estatística Descritiva

Medidas de Dispersão

1. Amplitude (range)2. Variância (variance)3. Desvio-Padrão (standard deviation)

1. Escore-z4. Erro Padrão (standard error)5. Quartis

Page 25: Estatística aplicada à psicolinguística (2)

Estatística Descritiva

Amplitude: é uma medida de dispersão dada peladiferença entre o maior e o menor valor em umconjunto de dados.

R = X max – X min

A utilização da amplitude como medida de dispersão élimitada, pois, sendo uma medida que dependeapenas dos valores externos, não capta possíveisvariações entre esses limites

Page 26: Estatística aplicada à psicolinguística (2)

Estatística Descritiva

Variância : medida que se obtém somando os quadrados dos desvios das observações da amostra, relativamente à sua média, e dividindo pelo número

de observações da amostra menos um.

S2 = ∑ (xi - X)2 ÷ ∑ fi

Desvio-padrão: Uma vez que a variância envolve a soma de quadrados, a unidade em que se exprime não é a mesma que a dos dados. Assim, para obter

uma medida da variabilidade ou dispersão com as mesmas unidades que os dados, tomamos a raiz quadrada da variância e obtemos o desvio padrão. O desvio padrão é uma medida que só pode assumir valores não negativos e quanto maior for, maior será a dispersão dos dados. o desvio padrão será

maior, quanta mais variabilidade houver entre os dados.

S = √s2

Page 27: Estatística aplicada à psicolinguística (2)

Estatística Descritiva

Erro Padrão: O erro padrão é uma medida da precisão da média amostral calculada. O erro padrão obtém-se dividindo o desvio padrão pela raiz quadrada do tamanho da amostra. Ou seja, quando não se conhece o desvio padrão da população, usa-se o desvio padrão da amostra (s) ficando a fórmula:

Se de uma população ou amostra, com média µ e desvio padrão σ se retirarem muitas amostras todas do mesmo tamanho n, e para cada amostra se calcular a respectiva média, a distribuição de todas essas médias é normal com média µ e desvio padrão σ: é a chamada distribuição-Z. Assim, o erro padrão não é mais do que o desvio padrão da distribuição das médias das amostras de uma população. A partir do erro padrão é possível estabelecer a margem de erro .

Page 28: Estatística aplicada à psicolinguística (2)

QuartisSão valores dados a partir do conjunto de observações ordenado emordem crescente, que dividem a distribuição em quatro partes iguais. Oprimeiro quartil, Q1, é o número que deixa 25% das observações abaixoe 75% acima, enquanto que o terceiro quartil, Q3, deixa 75% dasobservações abaixo e 25% acima. Já Q2 é a mediana, deixa 50% dasobservações abaixo e 50% das observações acima.

O espaço compreendido entre o primeiro e o terceiro quartis échamado de amplitude interquartis, a qual é usada para calcular oslimites inferior e superior, por meio da fórmula:

Limite Inferior: Q1 – 1,5(Q3 – Q1)Limite Superior: Q3 + 1,5(Q3 – Q1)

Valores além dos limites inferior e superior são chamados de outliers

Page 29: Estatística aplicada à psicolinguística (2)

Encontrando Valores Discrepantesboxplot2.jpg300px-Bland-altman_plot.png

Page 30: Estatística aplicada à psicolinguística (2)

Tipos de Distribuição

Normal Não-Normais Viés (Assimetria ou enviesamento, “skewed”) Curtose (“kurtosis”)

Uniforme Bimodal (Binomial) U-shaped J-shaped

Page 34: Estatística aplicada à psicolinguística (2)

Estatística DescritivaInterpretando o desvio padrão: a regra empírica

Page 35: Estatística aplicada à psicolinguística (2)

Como Saber se os Dados são Normais ?

Testes de Normalidade

•Anderson-Darling•Kolmogorov-Smirnov•Shapiro-Wilk

•Quando os dados não são normais, pode-se aplicar uma Transformação de Box-Cox

Page 36: Estatística aplicada à psicolinguística (2)

Estatística Inferencial

Teste de Hipóteses: Trata-se de uma técnica para sefazer a inferência estatística sobre uma população apartir de uma amostra

Os fundamentos epistemológicos do Teste de Hipótesesfundamentam-se na teoria da ciência de Karl Popper, aqual sustenta que não podemos provar que uma teoriaé verdadeira, mas apenas mostrar que ela é falsa.Assim, a Estatística Inferencial não indaga sobre acerteza de estarmos certos, mas sobre a probabilidadede estarmos errados. Para isso, estabelecem aschamadas hipóteses estatísticas.

Page 37: Estatística aplicada à psicolinguística (2)

A Lógica da InferênciaA inferência estatística se baseia na ideia de que podemos usar as distribuiçõesamostrais de estatísticas para, com os nossos conhecimentos sobre asprobabilidades, fazer afirmações sobre o que ocorreria caso repetíssemos o processode obtenção de distribuições amostrais muitas vezes.

Para se realizar uma inferência, é preciso ter uma amostra aleatória simples, suporque os valores possíveis para os parâmetros (variáveis) apresentem distribuiçãonormal (ou o mais próximo possível da normalidade) e que conheçamos o desvio-padrão da população, mesmo que a média desta população seja desconhecida(repare que estamos falando de média e desvio-padrão da população, e não daamostra).

Existem dois tipos básicos de inferência estatística, os intervalos de confiança, usadospara se estimar o valor de um parâmetro populacional desconhecido, e os testes designificância, usados para se avaliar a evidência fornecida pelos dados sobre algumaafirmação relativa à população (afirmação expressa por meio das hipótesesestatísticas)

Page 39: Estatística aplicada à psicolinguística (2)

Testes de Significância

Page 40: Estatística aplicada à psicolinguística (2)

Estatística Inferencial

HIPÓTESE ESTATÍSTICA

Trata-se de uma suposição quanto ao valor de um parâmetropopulacional, ou quanto à natureza da distribuição deprobabilidade de uma variável populacional.

TIPOS DE HIPÓTESES

Designa-se por Ho, chamada hipótese nula, a hipótese estatística a ser testada, e por H1, a hipótese alternativa. A HIPÓTESE NULA É UMA ASSERTIVA DE COMO O MUNDO DEVERIA SER, SE NOSSA SUPOSIÇÃO ESTIVESSE ERRADA.

Page 43: Estatística aplicada à psicolinguística (2)

ErrosTIPOS DE ERRO DE HIPÓTESE

EXISTEM DOIS TIPOS DE ERRO DE HIPÓTESE.

Erro tipo 1 - rejeição de uma hipótese verdadeira;Erro tipo 2 – aceitação de uma hipótese falsa.

A probabilidade α do erro tipo I é denominada “nível designificância” do teste.

Page 44: Estatística aplicada à psicolinguística (2)

Estatística de Teste e P-Valor

Uma estatística de teste calculada a partir de dados amostraismede de quanto os dados divergem do que esperaríamos se ahipótese nula fosse verdadeira. Valores grandes da estatísticamostram que os dados não são consistentes com a hipótese nula.Uma outra interpretação da estatística de teste é a de que elailustra o tamanho da diferença entre as hipóteses, e o quantoessa diferença se deu ao acaso.

A probabilidade, calculada supondo-se H0 verdadeira, de que aestatística de teste assuma um valor tão ou mais extremo do queo valor realmente observado é chamado de p-valor do teste.Quanto menor o P-valor, mais forte é a evidência contra ahipótese nula, fornecida pelos dados. O P-valor deve sercomparado com o nível de significância do teste.

Page 45: Estatística aplicada à psicolinguística (2)

Testes Estatísticos de Significância

•Para amostras com uma variável:•Teste-t•One-Way ANOVA

•Para amostras com mais de uma variável•ANOVA Multifatorial

•Ambos os testes (teste-t e ANOVA ) fazem uso da média e dodesvio-padrão amostral e populacional em suasfórmulas, tomados como parâmetros, e por esta razão os doistestes são chamados de testes paramétricos de significância.Devem ser usados apenas com dados quantitativos contínuos oudiscretos. Não devem ser usados com dados qualitativosnominais ou ordinais.

Page 46: Estatística aplicada à psicolinguística (2)

Aplicando um Teste-t

•Presença de Fator Grupal•Pareado ou Dependente (paired)•Não-Pareado ou Independente (unpaired)•Amostra Única

•Medida Repetida

•Caudas•Monocaudal (monodirecional)•Bicaudal (bidirecional)

Page 47: Estatística aplicada à psicolinguística (2)

Interpretando um Teste-t (I)Desafio (III)

a) Aplicou-se um estudo experimental para avaliar se ainterpretação semântica agentiva de sentenças é afetada pelapresença de certos tipos de verbo. 15 sujeitos foram expostosa um conjunto de 30 frases, as quais variavam quanto apresença de verbos ergativos (“A janela abriu”), inergativos(“O homem morreu”) e transitivos (“O menino pintou”).Mediram-se o índice de respostas agentivas e o tempo médiode respostas. Pergunta-se:a) Quais as variáveis independentes ?b) Quais as variáveis dependentes ?c) Como podemos formular as hipóteses alternativa e nula ?d) A qual das duas medidas poderia se aplicar o teste-t ?e) Por que usamos o teste-t nesse caso ?f) Que especificações de teste-t devemos usar aqui ?

Page 48: Estatística aplicada à psicolinguística (2)

Interpretando um Teste-t (II)Desafio (IV)

b) Suponha que o experimento anterior tenha dado o seguinteresultado, com relação à variável tempo de resposta:

t(14) = 12,48 e p < 0,003

Pergunta-se:

a) O que significa o número entre parênteses ?b) Como se chama o valor numérico de t ? Como podemos

interpretá-lo ?c) Como se chama o valor numérico de p ? Como podemos

interpretá-lo ? d) Como podemos interpretar o resultado desse

experimento ?

Page 49: Estatística aplicada à psicolinguística (2)

Interpretando uma Análise de VariânciaDesafio (V)

c) Resolveu-se aplicar o mesmo experimento a dois grupos distintos desujeitos, divididos pela escolaridade. Passou-se a ter um grupo com 15sujeitos de alta escolaridade, e outro com 15 pessoas de baixa escolaridade.Os resultados da variável tempo de resposta foram submetidos a umaANOVA, obtendo-se os seguintes resultados (fictícios):

Tipo de Verbo: F(1, 28) = 9,77,48 e p < 0,01Escolaridade: F(1,28) = 4,21 e p < 0,5Tipo de Verbo x Escolaridade = F(1, 28) = 22,19 e p < 0,06

a) O que significa o número entre parênteses ?b) Como se chama o valor numérico de F? Como podemos interpretá-lo ?c) Como se chama o valor numérico de p no item c ? d) Como podemos interpretar o resultado desse experimento ?e) Por que se usou a ANOVA nesse caso ?f) Que tipo de ANOVA usou-se aqui ?

Page 50: Estatística aplicada à psicolinguística (2)

Testes para Comparação 2 x 2

•Teste de Tukey•Teste LSD de Fisher•Teste de Dunnett•Teste de Scheffé

Page 51: Estatística aplicada à psicolinguística (2)

Testes Não-Paramétricos

São testes de inferência estatística que não assumem pressuposições básicassobre a forma da distribuição, como a normalidade, nem levam em contaparâmetros como a média e o desvio-padrão. São, por esta razão, conhecidoscomo testes de distribuição livre.

De um modo geral, os testes não-paramétricos costumam ser menospoderosos que os seus correlatos paramétricos, no sentido em que, porvezes, apresentam maior probabilidade de rejeitar H0 quando esta éverdadeira, ou de aceitar H0 quando esta é falsa. Contudo, aindaassim, constituem-se em excelentes alternativas aos testesparamétricos, principalmente por lidarem com dados não passíveis de análiseparamétrica (como dados qualitativos ordinais ou nominais) e serempassíveis de utilização quando as condições para a aplicação dos testesparamétricos não são plenamente satisfeitas.

Page 52: Estatística aplicada à psicolinguística (2)

Quando Usar Testes Não-Paramétricos ?

•Quando as variáveis em análise não qualitativas e não-quantificáveis;•Quando os dados são do tipo emparelhados;•Quando a amostra for relativamente pequena;•Com dados qualitativos nominais e/ou ordinais;•Quando as condições para aplicação de testes paramétricos não podem ser satisfeitas em algum nível;

•Normalidade•Homocedasticidade•Tamanho da amostra

Page 53: Estatística aplicada à psicolinguística (2)

Vantagens e DesvantagensVantagens:

•Estatísticas não-paramétricas exprimem probabilidades exatas;•Não existem alternativas para provas não-paramétricas quando as amostras são muito pequenas;•Possibilidade de se tratarem dados de várias populações diferentes;•Possibilidade de se aplicar a dados qualitativos•Facilidade de uso e aprendizado

Desvantagens•Provas não-paramétricas por vezes não levam em conta certas propriedades dos dados, e por isso representam um desperdício de informações;•São menos poderosas, no sentido da relação poder-eficiência

Page 54: Estatística aplicada à psicolinguística (2)

Comparação entre TestesParamétrico Não-Paramétrico

Coeficiente de Pearson para Correlação

Coeficiente de Spearman para Correlação

Teste-t 1 Amostra Teste de Wilcoxon 1 Amostra

Teste-t Pareado Teste de Wilcoxon Pareado

Teste-t 2 AmostrasTeste de Wilcoxon-Mann-Whitney Amostras

Independentes

ANOVA (dados independentes)

Teste de Kruskal-Wallis

ANOVA (dados dependentes) Teste de Friedman

Teste de Qui-Quadrado (Chi-Square)

Page 55: Estatística aplicada à psicolinguística (2)

Teste de WilcoxonO teste de Wilcoxon pareado é utilizado para compararse as medidas de posição de duas amostras são iguaisno caso em que as amostras são dependentes.Constitui-se em excelente alternativa ao teste-tpareado, em especial quando os dados são qualitativos.O teste de Wilcoxon é muito útil quando se deseja obterdiferenças qualitativas tais como “maior/menorque”, “melhor/pior que”, etc.

Exemplo: testar se a frequência de exposição a certosmarcadores conversacionais altera o nível decompetência pragmática de crianças.

Page 56: Estatística aplicada à psicolinguística (2)

Teste de Mann-WhitneyO teste de Mann-Whitney é utilizado para comparar se asmedidas de posição de duas amostras são iguais no caso em queas amostras são independentes. Constitui-se em excelentealternativa ao teste-t não-pareado, em especial quando os dadossão qualitativos, ainda que possa ser usado com dadosquantitativos também. O teste de Mann-Whitney é muito útilquando as variáveis envolvidas tenham uma escala de medidapelo menos ordinal

Exemplo: testar se a eficiência de um determinado método deensino de língua estrangeira é a mesma em aprendizes de trêsfaixas etárias distintas.

Page 57: Estatística aplicada à psicolinguística (2)

Teste de FriedmanO teste de Friedman é uma alternativa não paramétrica para oteste de experimentos com dados dependentes (medidasrepetidas) da ANOVA regular. Ele substitui a ANOVA quando ospressupostos de normalidade não estão assegurados, ou quandoas variações são possivelmente diferentes de população parapopulação. Este teste utiliza os ranks dos dados ao invés de seusvalores brutos para o cálculo da estatística de teste. Como oteste de Friedman não faz suposições sobre a distribuição, elenão é tão poderoso quanto o teste padrão se as populaçõesforem realmente normais.

Exemplo: testar se crianças de certa faixa etária percebem deigual maneira no input três tipos de informação relativa a gênerogramatical.

Page 58: Estatística aplicada à psicolinguística (2)

Teste de Kruskal-WallisO teste de Kruskal-Wallis é o análogo ao teste F utilizado naANOVA de um fator, podendo ser usado em análises multifatoriais.Enquanto a análise de variância dos testes dependem da hipótesede que todas as populações em confronto são independentes enormalmente distribuídas, o teste de Kruskal-Wallis não colocanenhuma restrição sobre a comparação. Este teste é útil comdados independentes sobre os quais se quer saber se há algumadiferença estatística entre eles.

Exemplo: testar se os tempos de leitura do segmento crítico quecontém uma retomada anafórica pronominal são diferentes emsujeitos de alta escolaridade e baixa escolaridade.

Page 59: Estatística aplicada à psicolinguística (2)

Teste do Qui-Quadrado

Quando os dados da pesquisa se apresentam sob a forma de frequências emcategorias discretas (dados quantitativos discretos ou dados qualitativosnominais) pode-se aplicar o Teste do Qui-Quadrado (Chi-Square Test) paradeterminar a significância das diferenças entre dois ou mais gruposindependentes.

Basicamente, o Qui-Quadrado pode ser aplicado nas seguintes situações:

•Verificar se há diferença entre as proporções obtidas em uma única amostra(Qui-Quadrado de Pearson);•Verificar se há diferença entre as proporções obtidas em duas amostras (Qui-Quadrado de Proporção);•Verificar se as frequências observadas na amostra refletem as frequênciasesperadas na população (Qui-Quadrado de Homogeneidade);•Verificar se existe uma correlação entre as variáveis (Qui-Quadrado deIndependência).