LC-2.1-Tipos de Córpora-S2015-1

113
Tipos de córpora Lingüística de Corpus S2015-1 Unidad 2.El Corpus como objeto: diseño y propósito

description

Apuntes de Lingüística de Corpus

Transcript of LC-2.1-Tipos de Córpora-S2015-1

Page 1: LC-2.1-Tipos de Córpora-S2015-1

Tipos de córpora Lingüística de Corpus S2015-1

Unidad 2.El Corpus como objeto: diseño y propósito

Page 2: LC-2.1-Tipos de Córpora-S2015-1

Contenido 2.1 Corpus, texto y lenguaje.

2.1.1 Tipos

2.1.2 Ejemplos de córpora

2.2 Recopilación y diseño.

2.3 Búsqueda, líneas de concordancia y su presentación.

2.4 Lo que se observa en las líneas de concordancia.

2.5 Qué hacer con los datos: Uso de fraseología.

2

Page 3: LC-2.1-Tipos de Córpora-S2015-1

Los córpora vs. los textos procesables por computadora

•Corpus como un conjunto electrónico recopilado de textos hablados o escritos cuya finalidad es algún tipo de análisis lingüístico.

•Texto (/discurso)

• Lenguaje 3

Page 4: LC-2.1-Tipos de Córpora-S2015-1

¿Qué es un corpus y qué no?

• En el sentido que se maneja en la lingüística de corpus, de otras colecciones de textos electrónicos.

• ¿Qué criterios deben cumplir los textos para conformar un corpus?

• ¿Qué es un corpus?

• A partir de esos criterios y definiciones, ¿qué no es un corpus según la LC?

4

Page 5: LC-2.1-Tipos de Córpora-S2015-1

¿Podríamos considerar corpus?

• Archivo (o colección) informatizado: se trata de un simple conjunto de textos electrónicos sin estructurar. El único criterio que prevalece a la hora de conformarlo es la disponibilidad de los textos.

• Biblioteca de textos electrónicos: se trata de un conjunto de textos electrónicos recogidos sin seguir criterios lingüísticos, pero guardados en un formato estándar.

5

Page 6: LC-2.1-Tipos de Córpora-S2015-1

Proyecto Gutenberg http://www.gutenberg.org/wiki/Main_Page

• Pionero en lo que se refiere a la recopilación de libros o textos electrónicos.

• Data de 1971, desde entonces, recoge textos clásicos, textos de literatura ligera y obras de referencia anteriores a 1923. Pueden leerse on-line

¿Es un corpus?, sí/no y por qué

7

Page 7: LC-2.1-Tipos de Córpora-S2015-1

Búsqueda de libros de Google • (antes Google Print): proyecto para digitalizar y

poner a disposición de los usuarios de Internet los fondos bibliográficos de las universidades de Stanford, Harvard, Princeton, Oxford, Michigan, Complutense de Madrid y de la Biblioteca Pública de Nueva York, entre otros centros que se suman al proyecto cada año.

8

Page 8: LC-2.1-Tipos de Córpora-S2015-1

Otras bibliotecas • The Oxford Text Archive, desde 1976 recoge textos en

veinticinco lenguas de autores individuales,

• Electronic Text Center, Biblioteca de la Universidad de Virginia, desde 1992 recoge textos en quince lenguas.

• Electronic Text Collections in Western European Literature, reúne textos literarios en diferentes lenguas europeas distintas del inglés.

• Biblioteca Virtual Miguel de Cervantes nace en 1999 por iniciativa de la Universidad de Alicante y el Banco Santander recopila las principales obras de literatura en español.

9

Page 9: LC-2.1-Tipos de Córpora-S2015-1

¿WWW es un corpus? • No en el sentido estricto del término porque no sigue unos

criterios de diseño y en muchos casos falta información sobre el número y procedencia de los textos.

• Sin embargo, hay que reconocer su utilidad, aunque sea con los debidos filtros, como fuente de información para los estudios lingüísticos.

• La web ofrece la posibilidad de acceder a un conjunto de textos, en formato electrónico, que son muestras reales de uso de la lengua de todo tipo y materia y que constituyen un proyecto abierto en cambio continuo, que pueden ser recuperados mediante las diferentes funciones de búsqueda de cualquier navegador.

10

Page 10: LC-2.1-Tipos de Córpora-S2015-1

Tipos de corpus La palabra corpus es un poco ambigua y actualmente se utiliza en un sentido general para referirse a cualquier tipo de compilación de textos.

Pero en realidad, hay que distinguir estas colecciones según el grado especificación en los criterios de selección.

12

Page 11: LC-2.1-Tipos de Córpora-S2015-1

McENERY

14

Page 12: LC-2.1-Tipos de Córpora-S2015-1

McEnery

15

Page 13: LC-2.1-Tipos de Córpora-S2015-1

Tipos de corpus

• Corpus informatizado (Computer corpus): colección de textos elaborado y ordenado según criterios lingüísticos externos (datos de los autores, medios de trasmisión utilizados, nivel social de los participantes, función comunicativa de los textos) o internos (patrones lingüísticos)

Los corpus pueden ser clasificados de diferentes maneras en función de los parámetros que se quieran utilizar

17

Page 14: LC-2.1-Tipos de Córpora-S2015-1

Tipos de corpus La palabra corpus es un poco ambigua y actualmente se utiliza en un sentido general para referirse a cualquier tipo de compilación de textos.

Pero en realidad, hay que distinguir estas colecciones según el grado especificación en los criterios de selección.

18

Page 15: LC-2.1-Tipos de Córpora-S2015-1

Clasificación de corpus • Los principales parámetros para clasificar los corpus

se centran en:

• 1. La modalidad de la lengua

• 2. El número de lenguas a que pertenecen los textos

• 3. El tamaño o cantidad de textos que conforman el corpus

• 4. Los límites del corpus

• 5. La variedad lingüística o el grado de especialización de los textos

• 6. El período temporal que abarcan los textos

• 7. El tratamiento aplicado al corpus

19

Page 16: LC-2.1-Tipos de Córpora-S2015-1

1. Según la modalidad de la lengua

• -corpus escritos

• -corpus orales

• -corpus mixtos.

20

Page 17: LC-2.1-Tipos de Córpora-S2015-1

1. Corpus orales: constituidos por señales de voz y sus transcripciones de anotación fonética.

2. Corpus de texto: constituidos por lengua escrita o por lengua oral transcrita.

3. Corpus multimodales: constituidos por datos orales como prosodia, gestos, movimientos de la boca, grabaciones sonoras y fílmicas.

21

Page 18: LC-2.1-Tipos de Córpora-S2015-1

• Lengua: oral vs. escrita

• Registros especiales: finanzas, medicina, filosofía, gastronomía, economía, etc.

• Parámetros demográficos: edad, grupo social, género, religión.

• Época: (1960-1974, 1975-1993) o (s. XII-XIV, s. XV-XVII, s. XVIII-XX)

• Medios de comunicación: libros, periódicos, correos electrónicos, radio

• Niveles lingüísticos: coloquial, formal, familiar, lengua infantil, lengua publicitaria.

• Tipos de textos: novelas, poemas, formularios, etc.

22

Page 19: LC-2.1-Tipos de Córpora-S2015-1

Corpus de textos

Están constituidos por lengua escrita o por lengua oral transcrita. Predominan, por lo general corpus textuales que se originan en su totalidad de textos ya que se pueden elaborar con bastante menos esfuerzo que otros corpus. Comúnmente, tienen varios cientos de millones de palabras. Otros tipos de corpus cuentan apenas con poco más de un millón de palabras.

23

Page 20: LC-2.1-Tipos de Córpora-S2015-1

• Corpus orales

Están constituidos por señales de voz, eventualmente con sus transcripciones de anotación fonética. Un corpus oral contiene grabaciones de llamadas telefónicas, entrevistas o programas de radio.

• Corpus multimodales

Están constituidos por otros datos orales como prosodia, gestos, movimientos de la boca, inclusive grabaciones sonoros y fílmicas (noticias, documentales).

24

Page 21: LC-2.1-Tipos de Córpora-S2015-1

2. El número de lenguas • 1. monolingües: textos en una sola lengua. Se recopilan con

el objetivo de dar cuenta de dicha lengua o variedad lingüística (o de un subconjunto de la misma).

• 2. Los corpus bilingües o multilingües están formados por textos de dos (bilingües) o más lenguas (multilingües) sin que, en principio, sean traducciones unos de otros y sin compartir criterios de selección. No obstante, este tipo de corpus son raros; son más habituales los corpus de dos o más lenguas que contienen textos elegidos según unos mismos criterios o que son traducciones mutuas:

• Comparables

• Paralelos

25

Page 22: LC-2.1-Tipos de Córpora-S2015-1

Corpus monolingües de control

• Corpus como medio de control

• corpus de control permiten complementar y probar la relevancia los datos extraídos de otro corpus; y orientan acerca de cuál es el recurso más adecuado para el tratamiento informático del objeto de estudio.

• Debido a la necesidad de comparar los datos obtenidos, se usan además varios corpus monolingües de control como el British National Corpus o Cobuild Bank of English en inglés o el CREA en español.

26

Page 23: LC-2.1-Tipos de Córpora-S2015-1

Corpus comparables (“paired texts”):

• Conjunto de textos en más de una lengua o variedad lingüística, parecidos en cuanto a sus características y que comparten criterios de selección.

• Se utilizan sobre todo para comparar variedades de la lengua en estudios contrastivos.

• El ejemplo más destacado es el International Corpus of English (ICE) (http://ice-corpora.net/ice/)

• - un corpus en el que desde 1990 se están recopilando

materiales escritos y orales posteriores a 1989 pertenecientes a diferentes variedades del inglés a lo largo del mundo.

27

Page 24: LC-2.1-Tipos de Córpora-S2015-1

Corpus paralelos (“bi-texts”): •Recogen textos en más de una lengua (bilingües o multilingües) pero, a diferencia de los anteriores, se trata del mismo texto y sus traducciones o equivalentes en una o más lenguas.

•El más sencillo consta del original y su traducción. Son especialmente útiles para los estudios de traducción, para el desarrollo de sistemas de traducción automática y en entornos bilingües o multilingües, como la ONU, la OTAN, la UE o el parlamento de Canadá.

29

Page 25: LC-2.1-Tipos de Córpora-S2015-1

Corpus paralelo • un corpus que consiste de textos

originales en una lengua con su traducción en otra: corpus paralelo.

• Un corpus con textos en dos o más lenguas seleccionados según los mismos criterios lo llamamos un corpus bilingüe o multilingüe.

(Baker 1995: 230; McEnery 1996: 58)

30

Page 27: LC-2.1-Tipos de Córpora-S2015-1

Ejemplos de corpus paralelo Hansard Corpus

• Contiene una colección de actas del parlamento canadiense tanto en inglés como en la francés.

• El corpus paralelo se usa para la construcción automática de léxicos y para la investigación sobre la traducción.

• Para poder manejar estos corpus es necesario que las frases y las palabras que son traducciones mutuas sean alineadas, es decir puestas unas al lado de otras. 32

Se requiere pagar suscripción

Page 28: LC-2.1-Tipos de Córpora-S2015-1

corpus paralelo

los programas de concordancias bilingües

Permiten:

• La búsqueda de una sola palabra o segmentos infraoracionales.

• Examinar párrafos completos o la traducción del texto completo en lugar de pares de oraciones independientes

• Desventajas: no presenta una variedad natural de la lengua y que puede representar la idiosincrasia de un sólo traductor

33

Page 29: LC-2.1-Tipos de Córpora-S2015-1

corpus paralelo

los programas de concordancias bilingües

Permiten:

• La búsqueda de una sola palabra o segmentos infraoracionales.

• Examinar párrafos completos o la traducción del texto completo en lugar de pares de oraciones independientes

• Desventajas: no presenta una variedad natural de la lengua y que puede representar la idiosincrasia de un sólo traductor

34

Page 30: LC-2.1-Tipos de Córpora-S2015-1

Ejemplos de corpus paralelo

• CRATER (Corpus Resources and Terminology Extraction) se utiliza un corpus en tres lenguas: inglés, francés y español, del terreno de las telecomunicaciones.

• Se llama el ITU (International Telecommunications Union) corpus.

• el corpus paralelo inglés - noruego (universidad de Oslo) (Johansson & Ebeling 1996);

• el corpus paralelo inglés - sueco (universidad de Lund) (M. Johansson 1996);

• el Chemnitz corpus paralelo/de traducción inglés - alemán (Schmied & Schäffler 1996);

• el corpus paralelo castellano - euskara (Abaitua, Casilla & Martínez 1997);

• el GILLBT Corpus de lenguas africanas;

• la ATR Dialogue Database, japonés - inglés;

• la Leiden-Jerusalem Armenian Database, armenio, griego, árabe y sirio (Baker 1995:232).

• el Corpus Lingüístico da Universidade de Vigo (CLUVI) : http://sli.uvigo.es/CLUVI/.

35

Page 31: LC-2.1-Tipos de Córpora-S2015-1

Corpus alineados: • Son corpus paralelos en los que, para facilitar su

explotación, los textos están dispuestos unos al lado de otros por párrafos o frases, de tal forma que sea más fácil extraer las equivalencias de traducción: aquellos elementos que son traducciones mutuas.

• Aunque no siempre es un proceso simple, el alineamiento de oraciones y palabras se puede conseguir automática o semiautomáticamente con un alto grado de exactitud. Se utilizan, sobre todo, como entrenamiento para sistemas de traducción automática basados en estadísticas o en la docencia sobre traducción.

• El CLUVI también ilustra perfectamente este tipo de corpus.

36

Page 32: LC-2.1-Tipos de Córpora-S2015-1

3. Según la cantidad, la proporción y la distribución de los tipos de textos

• 1. Corpus grandes: no tienen un límite de palabras o este es muy elevado en comparación con otros tipos de corpus; no suelen atender a cuestiones de equilibrio o de representatividad. Cada vez es mayor la tendencia al aumento de volumen gracias a los medios y facilidades técnicas disponibles; no obstante, en la actualidad existen corpus de gran tamaño diseñados con criterios que garantizan la representatividad de los datos.

• 2. Corpus equilibrados: recogen la misma proporción de diferentes tipos de textos.

• 3. Corpus piramidales: contienen textos distribuidos en estratos o niveles, de tal forma que un nivel consta de pocas variedades temáticas pero con muchos textos para cada una; un segundo nivel, de textos más variados temáticamente, pero con menos cantidad de cada uno; etc.

• 4. Corpus léxicos (“sample corpus”): recogen fragmentos de textos muy pequeños y de longitud constante en cada documento. Era lo habitual en los primeros corpus, debido a las limitaciones de tamaño que los medios técnicos de la época imponían. Hoy en día han vuelto a cobrar importancia debido a lo cuidado de su diseño.

37

Page 33: LC-2.1-Tipos de Córpora-S2015-1

4. Según los límites establecidos

• 1. Cerrados: constan de un número finito de palabras, que se

establece de forma previa a la recopilación del corpus. Una vez alcanzado ese número, el corpus se da por finalizado, sin añadir más material posteriormente. Útiles cuando interesa estudiar fenómenos estáticos o estados de lengua.

• 2. Abiertos o monitor: son corpus dinámicos, que se

mantienen en constante crecimiento, normalmente mediante la introducción periódica de nuevas cantidades de textos según unas proporciones previamente definidas. Cuando la capacidad de almacenamiento no lo permitía, se iban retirando los textos más antiguos a medida que se introducían los nuevos. Son un material excelente para los estudios diacrónicos, para observar tendencias de uso, cambios de significado, frecuencias de distribución, etc.

38

Page 34: LC-2.1-Tipos de Córpora-S2015-1

5. Especificidad de los textos

1. General o de referencia:pretenden reflejar la lengua

o variedad lingüística de la forma más equilibrada posible; cuantos más tipos de textos, modalidades (textos orales, textos escritos), géneros y materias, mejor. Tienen que ser amplios como para reflejar todas las variedades relevantes de una lengua y su vocabulario, de forma que se puedan tomar como base para la elaboración de gramáticas, diccionarios, tesauros, etc. El CREA

2. Especializado: recogen textos que puedan aportar datos para

la descripción de un tipo particular de lengua(“sublenguaje”). Contienen alta cantidad de términos y dirigido a un público especializado.

3. Genérico: recogen textos pertenecientes a un único género, ya que

el objetivo es caracterizar ese género frente a otros. solo poesía.

4. Canónico: Formados por todos los textos que configuran la obra

completa de un autor. 40

Page 35: LC-2.1-Tipos de Córpora-S2015-1

Corpus de la lengua general con fines generales

• Su objetivo principal es constituir una fuente de información textual del español para fines diversos.:

• “Corpus de Referencia del Español Actual” (CREA). Desarrollado por el Instituto de Lexicografía de la RAE, contiene textos literarios, periodísticos, científicos y técnicos, así transcripciones de grabaciones de la lengua oral y de medios de comunicación correspondientes a los últimos veinticinco años (1975-1999). 41

Page 36: LC-2.1-Tipos de Córpora-S2015-1

Corpus generales • Corpus Diacrónico del Español (CORDE).

Desarrollado también por el Instituto de Lexicografía de la RAE, recogerá textos de la lengua española desde sus orígenes hasta 1975.

• Archivo de textos hispánicos de la Universidad de Santiago (ARTHUS). Incluirá textos literarios, periodísticos y transcripciones de la lengua oral de diferentes períodos de la historia de la lengua española.

43

Page 37: LC-2.1-Tipos de Córpora-S2015-1

Corpus generales

• CUMBRE es un conjunto de datos lingüísticos representativos del uso del español contemporáneo recogidos por la editorial SGEL SA y supervisados por A. Sánchez (Universidad de Murcia).

• Corpus de español de la República de Argentina y Corpus Chileno de Referencia abarcan una gran variedad de tipos de textos del español escrito en Argentina y Chile, respectivamente.

44

Page 38: LC-2.1-Tipos de Córpora-S2015-1

6. Según el periodo temporal que abarcan los textos 1. Periódico o cronológico: recogen textos de unos años

determinados o de unas épocas concretas con el objeto de estudiar la lengua producida durante ese período.

2. Diacrónico o histórico: incluyen textos de diferentes etapas temporales sucesivas con el fin de poder observar evoluciones de la lengua en un período largo, lo que los diferencia de los corpus monitor, que no abarcan períodos temporales tan amplios.

3. Corpus sincrónicos: su finalidad es permitir el estudio de una o más variedades lingüísticas en el momento presente, sin prestar atención a su evolución excepto en lo que se refiere a los cambios rápidos que ocurren en la actualidad. Ejemplo: COCA 45

Page 39: LC-2.1-Tipos de Córpora-S2015-1

Corpus históricos

• Mientras los corpus textuales modernos pueden recurrir al material ya en forma digital, los textos para corpus históricos tienen que ser digitalizados.

• Deben tomarse en cuenta algunos problemas especiales: ¿Se emplea el manuscrito o una edición? ¿Cómo se manejan las correcciones, las glosas, etc.? Otro problema es la codificación de las letras y otros signos de escritura porque algunos caracteres no existen.

• Archivo franciscano: colecciones como manuscritos de los siglos XVI al XIX sobre la Orden de San Francisco en México(UNAM)

46

Page 40: LC-2.1-Tipos de Córpora-S2015-1

Ejemplos • Corpus especializado: Corpus Técnico do Galego (CTG) del

Seminario de Lingüística Informática de la Universidad de Vigo-textos jurídico-administrativos, de informática y telecomunicaciones, de ecología y ciencias ambientales, de economía, de sociología y de

• http://sli.uvigo.es/CTG/

• Corpus genérico: el York-Helsinki Parsed Corpus of Old English Poetry contiene solo poesía.

• http://www-users.york.ac.uk/~lang18/pcorpus.html

• Corpus periódico o cronológico: los corpus Brown o LOB, que recogen textos publicados exclusivamente en 1961 en Estados Unidos y el Reino Unido respectivamente

47

Page 41: LC-2.1-Tipos de Córpora-S2015-1

corpus comparable • Consisten en una selección de textos en más de una lengua o variedad lingüística parecidos en cuanto a sus características y que comparten criterios de selección.

• Se utilizan sobre todo para comparar variedades de la lengua en estudios contrastivos.

• Esta colección de textos se ha de recopilar de acuerdo a unos criterios que aseguren su comparabilidad, por lo que deben incluir un mismo campo, variedad de lengua, temporalidad y una extensión similar.

49

Page 42: LC-2.1-Tipos de Córpora-S2015-1

corpus comparable • Este tipo de corpus se usa para estudios sobre la traducción a fin de determinar características generales de textos traducidos en comparación con textos originales (es decir, no traducidos).

• A comparable corpus is a pair of corpora in two different languages, which come from the same domain.

50

Page 43: LC-2.1-Tipos de Córpora-S2015-1

• Corpus dialectales

Los corpus dialectales están disponibles normalmente sólo en forma oral.

Una razón es que los dialectos por lo general no tienen una norma de escritura correcta y que en muchos dialectos no existe en absoluto la tradición de una escritura.

52

Page 44: LC-2.1-Tipos de Córpora-S2015-1

Corpus de géneros electrónicos • Los géneros electrónicos: el chat, el foro

de discusión, el correo electrónico o el mensaje SMS

• Han experimentado un enorme desarrollo en los últimos años y, en cierta medida, han sustituido a géneros tradicionales como la carta, el diálogo, la conversación oral o el debate.

53

Page 45: LC-2.1-Tipos de Córpora-S2015-1

Composición del corpus

Como el objetivo de un corpus es reflejar por medio de una muestra el comportamiento de una lengua es necesario decidir cómo se debe componer para que sea lo más representativo posible en atención a la investigación lingüística. Por ello el corpus debe cumplir los siguientes parámetros:

54

Page 46: LC-2.1-Tipos de Córpora-S2015-1

Tamaño de los corpus generales

58

Page 47: LC-2.1-Tipos de Córpora-S2015-1

El CREA

• REAL ACADEMIA ESPAÑOLA: Banco de datos (CREA) [en línea]. Corpus de referencia del español actual. <http://www.rae.es>

59

Page 48: LC-2.1-Tipos de Córpora-S2015-1

Concordancia de “chamaco”

66

Page 49: LC-2.1-Tipos de Córpora-S2015-1

Concordancia de “chamaco” Núm. 1

Concordancia: las Ligas Mayores con los Bravos de Atlanta. Y el chamaco al que sus compañeros llaman "chato", procedi **

2001 PRENSA Excélsior, 04/09/2001: Tommy al Bat... MÉXICO 05.Deportes (México), 2001

67

Page 50: LC-2.1-Tipos de Córpora-S2015-1

Párrafos

68

Page 51: LC-2.1-Tipos de Córpora-S2015-1

Párrafo de “chamaco” • Excélsior, 04/09/2001 : Tommy al Bat... PRENSA 13 México 2001

2001 10 505 P Tommy al Bat...

• El Nuevo Fenómeno de los Tigres: "Chato" Vázquez

• TOMAS MORALES F.

• Parece increíble, pero sucedió el domingo en el "Foro Sol", ante otra muy buena entrada de unos 15,000 espectadores. El novato Jorge Alberto Vázquez, con solamente 19 años y nativo de Culiacán, fue colocado por el manager Dan Firova en lugar de Julio Franco, el formidable campeón bateador del Tigres, que dejó al equipo para regresar a las Ligas Mayores con los Bravos de Atlanta. Y el chamaco al que sus compañeros llaman "chato", procedió a ser el gran héroe ofensivo dominical al batear de 4 - 4, con un cuadrangular, un doble y dos sencillos para que los felinos ganaran 11 - 6 y empataran la final contra Diablos Rojos.

69

Page 52: LC-2.1-Tipos de Córpora-S2015-1

Agrupaciones (clusters)

70

Page 53: LC-2.1-Tipos de Córpora-S2015-1

Documentos

71

Page 54: LC-2.1-Tipos de Córpora-S2015-1

Nómina de autores y obras

72

Page 55: LC-2.1-Tipos de Córpora-S2015-1

CHEM http://www.iling.unam.mx/chem/

73

Page 56: LC-2.1-Tipos de Córpora-S2015-1

El CHEM

•Está constituido por: •una amplia y creciente colección de documentos diacrónicos que representan diversos géneros textuales; •las herramientas para explorarla y analizarla. 74

Page 57: LC-2.1-Tipos de Córpora-S2015-1

Consulta de concordancia

75

Page 58: LC-2.1-Tipos de Córpora-S2015-1

“Chocolate” 1750-1850

76

Page 59: LC-2.1-Tipos de Córpora-S2015-1

“Chocolate” 1750-1850

77

Page 60: LC-2.1-Tipos de Córpora-S2015-1

COCA

78

Page 61: LC-2.1-Tipos de Córpora-S2015-1

Corpus size

• The Corpus of Contemporary American English (450+ million words) is 4-5 times as large as the British National Corpus (100 million words).

• As a result, it often provides data for lower-frequency constructions that are not available from the BNC. In terms of concrete examples, let us focus here on just two types of phenomena -- collocates and syntax

79

Page 62: LC-2.1-Tipos de Córpora-S2015-1

http://corpus.byu.edu/coca/

80

Page 63: LC-2.1-Tipos de Córpora-S2015-1

http://corpus.byu.edu/bnc/

81

Page 64: LC-2.1-Tipos de Córpora-S2015-1

82

Page 65: LC-2.1-Tipos de Córpora-S2015-1

“Dog”

83

Page 66: LC-2.1-Tipos de Córpora-S2015-1

http://www.corpusdelespanol.org/

84

Page 67: LC-2.1-Tipos de Córpora-S2015-1

CODEA http://demos.bitext.com/codea/

85

Page 68: LC-2.1-Tipos de Córpora-S2015-1

Acceso a los documentos

86

Page 69: LC-2.1-Tipos de Córpora-S2015-1

Resultados de la búsqueda

87

Page 70: LC-2.1-Tipos de Córpora-S2015-1

Documento

88

Page 71: LC-2.1-Tipos de Córpora-S2015-1

UN CORPUS DE ESPECIALIDAD En un área determinada permite analizar y observar cuestiones relacionadas con el conocimiento de los expertos en esa especialidad; por ejemplo, podemos mencionar cómo se expresa el especialista y cómo escribe.

89

Page 72: LC-2.1-Tipos de Córpora-S2015-1

Corpus de especialidad

• pueden examinar rasgos textuales más refinados como el marcaje tipográfico, que resalta los elementos temáticos más importantes, las variedades estilísticas, etc.

• al ser documentos lingüísticos los corpus sirven para analizar la estructura léxica, morfológica y gramatical de la lengua representada.

90

Page 73: LC-2.1-Tipos de Córpora-S2015-1

CORPUS DE ESPECIALIDAD • CRATER. Proyecto europeo consistente en textos de la IUT (International Telecommunications Union) en español, francés e inglés. Este corpus está disponible en la U.A.de Madrid.

• Gramática Española-Corpus de contraste (Universidad de Salamanca)

• Valencias verbales del español (Universidad de Murcia).

• AGLE (Archivo Gramatical de la Lengua Española), que contiene más de 100.000 citas recogidas por el gramático español Salvador Fernández Ramírez y editado por el Instituto Cervantes.

92

Page 74: LC-2.1-Tipos de Córpora-S2015-1

http://saussure.ii.unam.mx/cli/

93

Page 75: LC-2.1-Tipos de Córpora-S2015-1

Corpus Lingüístico en Ingeniería, en México • Del Grupo de Ingeniería Lingüística (GIL) del Instituto de

Ingeniería, UNAM.

Los objetivos generales del proyecto son:

1. Elaborar, desarrollar y mantener un corpus lingüístico que contenga textos selectos en el área de ingeniería, los cuales deben estar debidamente codificados y organizados.

2. Diseñar herramientas de análisis adecuadas para manejar el corpus y explotar su utilidad en el desarrollo de diversas investigaciones en las áreas de ingeniería, ingeniería lingüística y lingüística.

94

Page 76: LC-2.1-Tipos de Córpora-S2015-1

Se busca tener

a) una colección balanceada de textos representativos de la ingeniería en lengua española; y

b) las herramientas computacionales necesarias para consultar y analizar dicha colección.

95

CLI

Page 77: LC-2.1-Tipos de Córpora-S2015-1

Búsqueda

96

Page 78: LC-2.1-Tipos de Córpora-S2015-1

Es un corpus multipropósito • Podrá satisfacer distintas necesidades

dependiendo de la finalidad de su consulta:

• contribuirá a construir el consenso necesario para el establecimiento de terminologías de las diversas áreas temáticas de la ingeniería;

• ayudará en la redacción de este tipo de documentos, libros o artículos proporcionando modelos de escritura o bien, ilustrando a través de un panorama estilístico diversos aspectos de la exposición de temas.

97

CLI

Page 79: LC-2.1-Tipos de Córpora-S2015-1

Aplicaciones del CLI, Méx.

• Los ingenieros lingüistas podrán elaborar herramientas vinculadas con el procesamiento del lenguaje natural; y

• Los lingüistas tendrán una herramienta de apoyo para investigaciones lexicográficas, terminográficas, gramaticales, pragmáticas y semánticas. 98

Page 80: LC-2.1-Tipos de Córpora-S2015-1

Aplicaciones 1. Elaboración semiautomática de

diccionarios especializados.

2. Identificación de paradigmas semánticos

3. Extracción terminológica a partir de documentos actuales y confiables en el área de ingeniería.

4. Elaboración de herramientas para facilitar la redacción de artículos e informes técnicos al ingeniero (generación automática de documentos).

99

CLI

Page 81: LC-2.1-Tipos de Córpora-S2015-1

CLI • Se mantendrán los formatos tipográficos y de estilo, así

como la estructura textual que los caracterice.

• Se marcarán los documentos con etiquetas estructurales XML (Extensible Markup Language).

• Conservar la tipografía marcada en el documento original, para mostrarla en el momento de su consulta y para utilizarla en búsquedas automáticas de patrones.

• Ya que, se ha observado que en la situación pragmática de introducir nuevos términos y definiciones en los textos de especialidad, los autores hacen uso de patrones recurrentes en los que se involucran marcas tipográficas (negritas, cursivas, subrayado, espaciado, etc.) con el fin de resaltar el nuevo término o la definición.

100

Page 82: LC-2.1-Tipos de Córpora-S2015-1

Por ejemplo,

• Según G. Malagón (1996) un hospital se define como: “una parte integrante de la organización médica, cuya función es la de proporcionar a la población…

• Según la etiquetas XML:

• <doc><p> Según <name> G. Malagón</name> (<num> 1996</num>) un hospital se define como: “<b> una parte integrante de la organización médica, cuya función es la de proporcionar a la población… </b></p></doc>

101

Page 83: LC-2.1-Tipos de Córpora-S2015-1

Explicación de las etiquetas • <doc>…</doc> que serán las “etiquetas madre” o “raíz”

de la cuales dependerán todas las existentes dentro de los documentos.

• <p>…</p> nos indican que todo lo que esté dentro de ellas es un párrafo;

• <name>…</name> contienen dentro de ellas algún nombre propio;

• <num>…</num> nos indican la existencia de un número;

• <b>…</b> nos dicen que todo el texto ahí presente se encuentra en negritas (bold).

102

Page 84: LC-2.1-Tipos de Córpora-S2015-1

El corpus del IULA Pompeu Fabra

• Textos escritos en cinco diferentes lenguas: catalán, español, inglés, francés y alemán.

• Pertenecen a especialidades: economía, derecho, medicina, informática y ciencias del lenguaje.

• Se intenta inferir las líneas que rigen el comportamiento de cada lengua en cada área.

• Las investigaciones previstas: detección de neologismos y términos, estudios de variación lingüística, análisis sintáctico parcial, construcción de diccionarios electrónicos y elaboración de tesaurus.

103 http://www.iula.upf.edu/corpus/corpuses.htm

Page 85: LC-2.1-Tipos de Córpora-S2015-1

Corpus técnico de IULA

104 http://bwananet.iula.upf.edu/

Page 86: LC-2.1-Tipos de Córpora-S2015-1

1er paso

105

Page 87: LC-2.1-Tipos de Córpora-S2015-1

2do. paso

106

Page 88: LC-2.1-Tipos de Córpora-S2015-1

3er. paso

107

Page 89: LC-2.1-Tipos de Córpora-S2015-1

4to. paso

108

Page 90: LC-2.1-Tipos de Córpora-S2015-1

Banco de Términos

• http://www.iling.unam.mx/SABTEF/admin/Administracion.php 109

Es una recopilación de términos detalladamente explicados, pues además de la definición del término, también proporciona ejemplos, contextos definitorios, así como el área y la sub-área temática a la que pertenecen.

Page 91: LC-2.1-Tipos de Córpora-S2015-1

Sistema de Administración de Bancos Terminológicos Flexibles

110

14 Bancos terminológicos

Page 92: LC-2.1-Tipos de Córpora-S2015-1

Búsqueda

111

http://www.iling.unam.mx/SABTEF/web/Diccionario.php

Page 93: LC-2.1-Tipos de Córpora-S2015-1

Palabra clave: corpus

112

Page 94: LC-2.1-Tipos de Córpora-S2015-1

Corpus codificado

113

Page 95: LC-2.1-Tipos de Córpora-S2015-1

http://www.corpus.unam.mx/

114

http://saussure.ii.unam.mx/cli/

http://saussure.ii.unam.mx:8080/csmx/

http://saussure.ii.unam.mx/chem/

http://saussure.ii.unam.mx:8080/corcode/

http://www.corpus.unam.mx:8080/cemc/

http://www.corpus.unam.mx/rst/

http://www.iifl.unam.mx/coreecom/

http://www.bdpn.unam.mx/

Page 96: LC-2.1-Tipos de Córpora-S2015-1

Practica 1: Diseño y características del corpus • Consulta 4 corpus • En un PPP realiza la descripción de cada uno (con

imágenes y anotaciones) • 1. Características del corpus: • 1.1 Objetivo general • 1.2 Criterios de selección del material • 1.3 Dimensión • 1.4 Tipos de resultados • 2. Descripción de una búsqueda • 2.1 Realiza una búsqueda y describe el paso a paso

de la misma, así como toda la información que el corpus proporciona.

115

Page 97: LC-2.1-Tipos de Córpora-S2015-1

Práctica 2 1) Busca un mexicanismo, en DRAE: mexicanismo

1. m. Vocablo, giro o modo de hablar propio de los mexicanos

2) Haz una relación de las diferentes definiciones dadas por los diccionarios: DRAE, DEM, Dicc. de María Moliner; el Breve diccionario de mexicanismos, Diccionario de mexicanismos de AML, Diccionario de americanismos (todos en línea).

EJEMPLIFICAR

3) Busca la palabra en diferentes corpus: CREA, Corpus del español de Mark Davies, CEMC y el CORDE, etc.

116

Page 98: LC-2.1-Tipos de Córpora-S2015-1

Práctica 2

4) Analiza cuáles resultados arrojados por los corpus corresponden a las definiciones dadas.

5) Por cada definición, aporta 3 ejemplos oracionales, los cuales los obtendrás de los corpus.

6) Trata de identificar qué otras definiciones harían falta agregar a los diccionarios y da ejemplos que ubicaste en las líneas de concordancia de los corpus.

7) Busca una traducción para cada definición

8) Ejemplifica las traducciones utilizando Corpus en inglés

9) Entregar en WORD y por correo electrónico.

117

Page 99: LC-2.1-Tipos de Córpora-S2015-1

EJEMPLO

• Diccionario de mexicanismos Academia Mexicana de la Lengua

118 http://www.academia.org.mx/DiccionarioDeMexicanismos

El DM de la AML solo tiene en línea hasta “i”: iztle

Page 100: LC-2.1-Tipos de Córpora-S2015-1

Diccionario escolar de AML • Agachar v.tr. 1. Inclinar o bajar alguna parte del cuerpo, en

especial la cabeza: Al pasar por la puerta tuvo que agachar la cabeza. || agacharse v.prnl. 2. Encogerse, doblando el cuerpo hacia la tierra: Se agachó para recoger lo que se había caído. Se conjuga como cantar.

119

DRAE agachar. (Quizá del lat. coactāre, frec. de cogĕre 'reunir', 'apretar'). 1. tr. Inclinar o bajar alguna parte del cuerpo, especialmente la cabeza o el tronco. U. t. c. intr. 2. prnl. Encogerse, doblando mucho el cuerpo hacia la tierra. 3. prnl. Ceder, someterse. 4. prnl. Arg. y Ur. Prepararse o disponerse a hacer algo. 5. prnl. Col. Apropiarse de algo indebidamente. Agacharse CON el reloj. 6. prnl. Cuba. Dicho de un jugador de dominó: Quedarse con las fichas que podía poner en juego. 7. prnl. coloq. p. us. Retirarse, apartarse durante algún tiempo del trato y vista de la gente. 8. prnl. coloq. p. us. Dejar pasar algún contratiempo, persecución o acusación sin defenderse ni excusarse, para sacar después mejor partido.

Page 101: LC-2.1-Tipos de Córpora-S2015-1

Diccionario de Americanismos

agachar(se).

I. 1. tr. Mx. En los juegos de mesa, principalmente en el dominó, fingir una desventaja para luego aprovecharse.

2. prnl. Cu. En el dominó, no matar la ficha del contrario, como parte de una estrategia de juego.

II. 1. intr. prnl. ES, Cu. Someterse una persona a la voluntad de otra por miedo o por servilismo. ◆ aplastar; aplatar.

a. ǁ ~ el moño. loc. verb. Ch; Pe, p.u. Ceder alguien en determinadas circunstancias o ante determinadas actitudes.

120

http://lema.rae.es/damer/

Page 102: LC-2.1-Tipos de Córpora-S2015-1

DEM • Agachar v (Se conjuga como amar)

I tr 1 Inclinar hacia abajo, particularmente el cuerpo o la cabeza: “Estoy triste, dijo, agachando la cabeza” 2 Agachar la cabecita (Popular) Morir II Agacharse prnl 1 Inclinarse hacia el suelo, ya sea flexionando las piernas o doblando la cintura: “Me agaché casi a besarle los pies” 2 (Coloq) Consentir o aceptar, con indignidad, algo vergonzoso o indebido: “Los líderes se agacharon ante los malos manejos del diputado”, “Ese hombre no se agacha ante nadie” 3 (Popular) En los juegos de mesa, principalmente en el dominó, fingir una desventaja para luego aprovecharse

121

http://dem.colmex.mx/

Page 103: LC-2.1-Tipos de Córpora-S2015-1

Ejemplificación con corpus • Diccionario de mexicanismos AML :

• Agachar: acobardar

122

CEMC: 1. TRES, DIZQUE MI SOBRINO Y MI COMPADRE,

TUVIERON GANAS DE AGACHARSE Y SE FUERON PAL MONTE. NO LOS VOLVÍ A VER

CEMC: QUE ÉL CARGABA LO HACIA OIR AQUELLAS COSAS. VOLVIÓ A AGACHARSE A TOMAR AGUA Y OYÓ LA VOZ OTRA VEZ. Y

DEM; 1 Inclinar hacia abajo, particularmente el cuerpo o la cabeza Agacharse: Inclinarse hacia el suelo, ya sea flexionando las piernas o doblando la cintura

Page 104: LC-2.1-Tipos de Córpora-S2015-1

Definiciones ejemplificadas con corpus

Dicc Definiciones Corpus Ejemplos (3)

DEM DRAE DAML

Inclinar hacia abajo, particularmente el cuerpo o la cabeza: “Estoy triste, dijo, agachando la cabeza”

DEM DM-AML

Locución Agachar la cabecita (Popular) Morir

DEM (Coloq) Consentir o aceptar, con indignidad, algo vergonzoso o indebido:

DEM DAMER DM-AML

(Popular) En los juegos de mesa, principalmente en el dominó, fingir una desventaja para luego aprovecharse 123

Page 105: LC-2.1-Tipos de Córpora-S2015-1

Definiciones y sus traducciones

Definiciones traducción Corpus Ejemplos (3)

Inclinar hacia abajo, particularmente el cuerpo o la cabeza: “Estoy triste, dijo, agachando la cabeza”

To hang To bend To duck

COCA - … Don´t hang your head” - … than bending the head when

passing through the door… - … ducks its head and closes its eyes

Locución Agachar la cabecita (Popular) Morir

(Coloq) Consentir o aceptar, con indignidad, algo vergonzoso o indebido:

To bow down

COCA … you have to bow down and obey

(Popular) En los juegos de mesa, principalmente en el dominó, fingir una desventaja para luego aprovecharse

To bluff There are two main kind of bluffing in Poker

124

Page 106: LC-2.1-Tipos de Córpora-S2015-1

Academia Mexicana de la Lengua

125

• http://www.academia.org.mx/Cordiam

Page 107: LC-2.1-Tipos de Córpora-S2015-1

126

Page 108: LC-2.1-Tipos de Córpora-S2015-1

127

Page 109: LC-2.1-Tipos de Córpora-S2015-1

Corpus en internet

128

Page 110: LC-2.1-Tipos de Córpora-S2015-1

CÓRPORA • [CEDOPU] Corpus español de dominio público de 120 millones de

palabra: http://www.lsi.upc.edu/~nlp/wikicorpus/ • [CdA] Corpus del habla de Almería: http://www.grupoilse.org/ • [CdE] Davies, Mark. (2002-) Corpus del español (100 millones de

palabras, siglo XIII - siglo XX): http://www.corpusdelespanol.org • [CHIEDE] Corpus de Habla Infantil Espontánea del Español

http://www.lllf.uam.es/ESP/Chiede.html • [CEDP] Corpus español de dominio público de 120 millones de

palabras: • http://www.lsi.upc.edu/~nlp/wikicorpus/ • http://www.lsi.upc.edu/%7Enlp/wikicorpus/ • [CORDE] Corpus Diacrónico del Español:

http://corpus.rae.es/cordenet.html • [CORLEC] Corpus Oral de Referencia de la Lengua Española

Contemporánea: http://www.lllf.uam.es/ESP/Corlec.html • [CDE BYU]Corpus del Español de Brigham Young University:

http://www.corpusdelespanol.org/x.asp • [CORLEC] Corpus Oral de Referencia de la Lengua Española

Contemporánea: http://www.lllf.uam.es/ESP/Corlec.html

129

Page 111: LC-2.1-Tipos de Córpora-S2015-1

CÓRPORA • Corpus Lingüístico de Referencia de la Lengua Española en Argentina • Corpus lingüístico de referencia de la lengua española en Chile:

http://www.lllf.uam.es/ESP/Chile.html • [COSCACH] Corpus Sociolingüístico del Castellano Oral de Chile.

http://ssadowsky.hostei.com/coscach-es.html • [CLiReLEA] Corpus Lingüístico de Referencia de la Lengua Española en

Argentina: http://www.lllf.uam.es/ESP/Argentina.html • [CLiReLeCHI] Corpus lingüístico de referencia de la lengua española en

Chile: http://www.lllf.uam.es/ESP/Chile.html • [CREA] Corpus de Referencia del Español Actual:

http://corpus.rae.es/creanet.html • [ICE] International Corpus of English: http://www.ucl.ac.uk/english-

usage/ice/ (se necesita autorización para usarlo) • [STB] UAM Spanish Treebank: http://www.lllf.uam.es/ESP/Treebank.html#

examples • [SOL] Spanish Online. Concordancias españolas en la web: • http://spraakbanken.gu.se/konk/rom2/ • Corpus oral del castellano, Servidor TactWeb • El Grial: banco de datos lingüísticos elaborados por la Real Academia,

desarrollado por la Escuela Lingüística de Valparaíso. http://www.elv.cl/prontus_linguistica/site/edic/base/port/grial.html

130

Page 112: LC-2.1-Tipos de Córpora-S2015-1

Inglés • [ANC] American National Corpus. http://www.americannationalcorpus.org/ • [BNC] British National Corpus: http://www.natcorp.ox.ac.uk/ • [BOE] Collins Wordbank of English.

http://www.collinslanguage.com/wordbanks/subscribe/mailed.aspx • [COCA] Corpus of Contemporary American English: http://corpus.byu.edu/coca/ • [CCE] Corpus Concordance English:

http://www.lextutor.ca/concordancers/concord_e.html • [Cocor]Coconut Corpus: http://www.pitt.edu/~coconut/coconut-corpus.html. • [CEN] Corpus I-EN: http://corpus.leeds.ac.uk/internet.html • [COHA] Corpus of Historical American English: http://corpus.byu.edu/coha/ • [C-ORAL-ROM] C-ORAL-ROM: http://lablita.dit.unifi.it/coralrom/ • [CWbE] Collins Wordbank of English. • http://www.collinslanguage.com/wordbanks/subscribe/mailed.aspx • [OEC] Oxford English Corpus: http://www.oxforddictionaries.com/page/oec • [MICASE] Michigan Corpus of Academic Spoken English: • http://quod.lib.umich.edu/cgi/c/corpus/corpus?page=home;c=micase;cc=micase • [TIME] Time Magazine Corpus: http://corpus.byu.edu/time/ • WebCorp: http://www.webcorp.org.uk.

131

Page 113: LC-2.1-Tipos de Córpora-S2015-1

Otras lenguas • [LACITO] Langage et civilisations à traditions oral:

http://lacito.vjf.cnrs.fr

• [LIRICS] Linguistic Infrastructure for Interoperable Resources and Systems: http://lirics.loria.fr/

• [CA] Corpus del Alemán: http://www.ids-mannheim.de/

• [CA-I] Corpus de alemán/inglés: http://quickie.ikw.uni-osnabrueck.de/CQPdemo/

• [CORGA] Corpus de Referencia do Galego Actual: http://corpus.cirp.es/corga/

• [CUCweb] Corpus de uso del catalán en la web: http://ramsesii.upf.es/cgi-bin/cucweb/search-form.pl

• [CP] Corpus do Portugués: http://www.corpusdoportugues.org/

132