Tratamento estatístico do conhecimento lingüístico Christina Abreu Gomes Departamento de...
Transcript of Tratamento estatístico do conhecimento lingüístico Christina Abreu Gomes Departamento de...
Tratamento estatístico do conhecimento lingüístico
Christina Abreu Gomes Departamento de Lingüística e Filologia/UFRJ
Questões básicas da ciência lingüística
• Chomsky, 1986:
(i) O que constitui o conhecimento lingüístico?
(ii) Como esse conhecimento é adquirido?
(iii) Como esse conhecimento é usado?
• Rizzi, 1998:
(iv) Como o conhecimento é representado na mente?
(v) Como esse conhecimento é acessado?
Postulação de um conhecimento inato (GU)
• Argumento da pobreza de estímulo
• Input degenerado
• Ausência de evidência negativa (Gold, 1967: linguagens formais não podem ser adquiridas / aprendidas somente com base em evidência positiva.
Abordagem estocástica do conhecimento lingüístico
• O uso lingüístico real é altamente variável, gradiente e rico em fenômenos contínuos;
• Há um conjunto de experimentos que demonstraram que os julgamentos dos falantes apresentam propriedades de contínuo e comportamento gradiente, e que a cognição humana é baseada em processamento probabilístico.
• A faculdade da linguagem apresenta propriedades probabilísticas presentes na representação, no processamento, na mudança, na aquisição e na produção.
Pressupostos Teóricos: Modelos baseados no Uso, Lingüística Probabilística, Fonologia de
Laboratório- “grammar is usage, and usage is grammar” (Bybee,2005): gramática é a organização cognitiva da experiência do falante com a
língua e aspectos dessa experiência têm impacto na representação, aquisição e mudança.
- abandono da doutrina do dualismo: “language as a cognitive system imputed to the individuals is thus to be
explained in terms of general facts of the physical world (...); in terms of specific capabilities of the human species which arose through evolution (...): and in terms of interactions of the organism with its environment (...). Social interaction is subsumed under the same umbrella, as a phenomenon of nature (Pierrehumbert, Beckman & Ladd, 2001)
- Modelagem probabilística da organização do conhecimento lingüístico: ”Knowledge of language can be understood not as a minimal set of categorical rules or constraints, but as a (possible redundant) set of gradient rules, which may be characterized by a statistical distribution” (Bod, Rens & Jannedy, 2003)
- As estruturas emergem do sistema de armazenagem
Gramática probabilística como solução para a ausência de
evidência negativa• Jurafsky, 2003
• Input lingüístico: contém ruído, ambíguo e não segmentado;
• Outras ciências cognitivas utilizam modelos estatísticos para lidar com problemas semelhantes:
– processamento visual humano (Rao et al. 2001; Weiss & Fleet 2001)– categorização (Tenenbaum 2000; Tenenbaum and Griffiths 2001b;
Tenenbaum and Griffiths 2001a)– compreensão humana da causatividade (Rehder 1999; Glymour and Cheng1998).
Proposição de um modelo probabilístico: - Modelo probabilístico é um modelo que serve para resolução de problemas
de tomada de decisão sob incerteza- Evidência positiva: possui uma quantidade suficiente de dados para
modelagem estatística- Generalizações baseadas em inferência estatística tornam-se mais
robustas
Probabilidades onde?
• “Everywhere”. Probabilities permeate linguistic system (Bod, Hay and Jannedy, 2002).
• Integração entre conhecimento lingüístico e uma perspectiva probabilística.
Processamento: “The complex houses married and single students and their families (Jurafsky, 1996)
“differences in sound change a word, ...”
“a bela casa na fazenda”
• Fonotática:
- Julgamentos fonotáticos e de boa formação apresentam característica de contínuo associados à freqüência de ocorrência de cada difone.
- Representação: efeito de freqüência de type e de token
Fonologia Probabilística
• Distribuição probabilística de qualquer unidade é atualizada através da experiência;
• conhecimento implícito de detalhes quantitativos da pronúncia faz parte da competência, e se desenvolve cedo a partir de uma predisposição inata de observar a fala.
• para modelar esse conhecimento são necessários dois ingredientes: um mapa cognitivo e uma representação análoga da realidade física.
• memórias extremamente detalhadas da experiência são estocadas. Essas percepções gradualmente preenchem uma região do mapa cognitivo correspondendo a uma categoria ou rótulo. Uma categoria encontrada várias vezes vai ser representada por numerosas memórias que povoam densamente a região correspondente ao rótulo ou categoria. Categorias menos freqüentes terão uma representação mais empobrecida.
• A classificação perceptual de um novo dado é realiza através uma regra de escolha estatística que computa o rótulo mais provável dada a localização e a contagem de distribuições competidoras, da região do novo dado.
• mesmo modelo para a produção: produção se realiza ativando um subregião do espaço de exemplar para uma categoria. As propriedades agregadas dessa subregião servem como metas de produção do planejamento articulatório.
• As crianças são sensíveis às freqüências de distribuição das formas lingüísticas no input, mas o efeito da freqüência de type e de token pode ser diferenciado em função do estágio aquisitivo (Henry,2002, Pierrehumbert, 2003).
• A variação sociofonética tem um papel na abstração de padrões fonológicos, uma vez que as variantes são formas fonéticas em competição da mesma palavra e podem refletir também competição entre padrões fonológicos.
CARACTERIZAÇÃO DOS TIPOS SIILÁBICOS C(l)V e C(r)V
C(l)V ~ C(r)V • p, b, k, g, f + (l) tl: limita-se à palavras
emprestadas: atlas, Atlântico, atleta
• Ausência de restrições fonéticas regulares. Condicionamento lexical. (Gomes, 1987, Cristófaro-Silva, 2003).
• [bisiklεtə] ~ [bisikrεtə]
• [‘bluzə] ~ [‘bruzə]
C(r)V ~ CøV
• p, b, t, d, k, g, f, v + (r)
• Ausência favorecida em sílabas finais átonas e em presença de outros grupos na palavra.
• Ex.: [kuatøu]; [pøo’blemə];
• Plosivas e obstruintes surdas (Mollica & Paiva, 1991)
• [‘prכpriu] ~ [‘prכpiu] • [pri’sizə]~[pi’sizə]• [‘otru] ~ [‘otu]
Freqüência dos Tipos de Onsets Complexos Coletado de Michaelis –
www. uol. com. br /michaelis/ por Cristófaro-Silva (2003)
Estrutura C(l)V
• Tipo menos freqüente• CV 279.083• CC 43.584• C(l) 7.971
Estrutura C(r)V
• Tipo mais freqüente• CV 279.083• CC 43.584• C(r) 35.613
AVALIAÇÃO SOCIAL VARIAÇÃO POR
FALANTE
C(l)V ~ C(r)V: Marcador social
C(r)V ~ CøV: Depende do
item lexicalNão percebido em:
[prכpriu] ~ [prכpiu]
Altamente estigmatizado em:
[progrãmə] ~ [pøgrãmə]
ROTACISMO
01020304050607080
0 10 20 30 40 50 60
falantes
%
DELEÇÃO DO (R)
0
1020
3040
5060
70
0 10 20 30 40 50 60
falantes
%
Estudos sobre a Aquisição do Padrão CCV no Português:
• Lamprecht (1991): CV e V > CVC > CCV
- aquisição pode iniciar pelos encontros com a lateral como com não lateral, fricativa ou plosiva
• Ribas (2004): CV, V >> CVV >> CVC >> CCV
adquirido até aos 4;0 >> aos 5;0
- não há ordem de domínio dos diferentes grupos de onset complexo.
- C(r)V: labial-r > dorsal-r > coronal-r
C(l)V: parece não haver preferência
Distribuição de Ocorrências de CCV nos dados da amostra AQUIVAR
AMOSTRA: 18 crianças entre 2;0 e 5;0
• Total de Dados: 666/1219
• Total de C(r)V: 551/1043
• Total de C(l)V: 115/176
Distribuição das ocorrências de CCV por faixa etária
2;0 2;6 3;0 3;6 4;0 5;0
4/108
4%
11/85
13%
94/210
45%
44/68
65%
297/512
58%
216/236
92%
0%10%20%30%40%50%60%70%80%90%
100%
2;0 2;6 3;0 3;6 4;0 5;0
CCV
Realização do padrão silábico CCV em função da idade e do tipo silábico
2;0 2;6 3;0 3;6 4;0 5;0 TotalC(l)V 2/14
14%
.13
5/25
20%
.18
18/28
64%
.61
6/6
100%
51/68
75%
.72
33/35
94%
.93
176
C(r)V 2/94
2%
.02
6/60
10%
.09
76/182
42%
.38
38/62
61%
.58
246/444
55%
.47
183/201
91%
.90
1043
Distribuição de ocorrências de C(l)V e C(r)V por idade
0%
20%
40%
60%
80%
100%
120%
2;0 2;6 3;0 3;6 4;0 5;0
C(l)V
C(r )V
• X2=2108.337, df=23 p.val < 2.2 e-16
Evolução da sílaba C(r)V em função da tonicidade da sílaba
0%
20%
40%
60%
80%
100%
120%
2;0 2;6 3;0 3;6 4;0 5;0
tônica
pretônica
postônica
atona fin.
Evolução da sílaba C(l)V em função da tonicidade da sílaba
0%
20%
40%
60%
80%
100%
120%
2;0 2;6 3;0 3;6 4;0 5;0
tônica
pretônica
átona fin.
Comparação de C(l)V e C(r)V em sílabas tônicas
0%
20%
40%
60%
80%
100%
120%
2;0 2;6 3;0 3;6 4;0 5;0
C(l)V - t.
C(r)V - t.
• X2=1150.991, df=23 p.val < 2.2 e-16
Realização do padrão silábico CCV em sílaba tônica em função da idade e do tipo silábico
2;0 2;6 3;0 3;6 4;0 5;0 TotalC(l)V 2/10
20%
.13
3/15
20%
.13
13/21
62%
.48
6/6
100%
34/44
77%
.66
24/26
92%
.87
122
C(r)V 1/38
3%
.02
3/30
10%
.06
38/100
38%
.26
15/28
54%
.40
145/222
65%
.52
110/114
96%
.94
532
Discussão
• As diferenças desenvolvimentais observadas para os dois tipos de cluster parecem indicar:
• A abstração é gradual, dependente do tipo estrutural e de contexto fonológico (tonicidade, por exemplo)
• As crianças abstraem o tipo C(l)V antes do C(r)V; uma vez que a variação no input - C(r)V ~ C_V – gera também a possibilidade de representação de itens sem a 2a. consoante no grupo.
0%10%20%30%40%50%60%70%80%90%
100%
2;0 2;7 3;0 3;3 3;7 4;6
medial
final N
final V
Conclusões Finais
• Há interação entre os dois processos: variabilidade desenvolvimental e reflexo da variação do input
• Diferenças na atuação de contextos estruturais são consistentes com o observado para as variáveis sociolingüísticas no input