EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

169
EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ORIENTADAS A LA ADQUISICIÓN Y EL APRENDIZAJE DE VOCABULARIO ANÁLISIS E INVESTIGACIÓN DE DISCURSOS EN JUNTAS GENERALES DE ACCIONISTAS MEDIANTE SCAP Aantal woorden: 29.483 Jasper Degraeuwe Studentennummer: 01403367 Promotor: Prof. dr. Patrick Goethals Masterproef voorgelegd voor het behalen van de graad master in het tolken: talencombinatie Nederlands, Engels, Spaans Academiejaar: 2017 2018

Transcript of EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

Page 1: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

EXPLORACIONES METODOLÓGICAS

DE LINGÜÍSTICA DE CORPUS

ORIENTADAS A LA ADQUISICIÓN Y EL

APRENDIZAJE DE VOCABULARIO ANÁLISIS E INVESTIGACIÓN DE DISCURSOS EN JUNTAS

GENERALES DE ACCIONISTAS MEDIANTE SCAP

Aantal woorden: 29.483

Jasper Degraeuwe Studentennummer: 01403367

Promotor: Prof. dr. Patrick Goethals

Masterproef voorgelegd voor het behalen van de graad master in het tolken: talencombinatie Nederlands,

Engels, Spaans

Academiejaar: 2017 – 2018

Page 2: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...
Page 3: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

Declaración sobre derechos de autor

De auteur en de promotor geven de toelating deze studie als geheel voor consultatie

beschikbaar te stellen voor persoonlijk gebruik. Elk ander gebruik valt onder de beperkingen

van het auteursrecht, in het bijzonder met betrekking tot de verplichting de bron uitdrukkelijk

te vermelden bij het aanhalen van gegevens uit deze studie.

Het auteursrecht betreffende de gegevens vermeld in deze studie berust bij de promotor. Het

auteursrecht beperkt zich tot de wijze waarop de auteur de problematiek van het onderwerp

heeft benaderd en neergeschreven. De auteur respecteert daarbij het oorspronkelijke

auteursrecht van de individueel geciteerde studies en eventueel bijhorende documentatie, zoals

tabellen en figuren.

Page 4: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

Palabras de agradecimiento

Me gustaría agradecer a todos los que han hecho posible la realización de esta tesina.

Primeramente, le estoy muy agradecido al profesor doctor Patrick Goethals por ofrecerme la

oportunidad de elegir el tema yo mismo, además de guiarme a través de los desafíos que supone

una investigación académica con sus consejos valiosos y su fuente inagotable de conocimiento.

Asimismo, les agradezco a mis padres su apoyo incondicional, que no solo han prestado

durante mi máster y la realización de esta tesina, sino también durante los demás años de mi

carrera escolar, ofreciéndome, por ejemplo, la libertad de estudiar lo que me más me interese.

A Amy de Vet le estoy muy agradecido por estar dispuesta a revisar parte de esta tesina y,

sobre todo, por ser tan buena amiga. Por último, me gustaría agradecer a mis dos hermanos

haber procurado suficiente distracción durante el proceso de escribir, lo cual sin duda ha tenido

un efecto positivo en el resultado final.

Page 5: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

Resumen

En esta tesina estudiamos tres dimensiones de la adquisición y el aprendizaje de vocabulario

en L2 (grado de especificidad; competencia activa-pasiva; grado de dificultad), abordando el

tema desde la perspectiva específica de la lingüística de corpus. Concretamente, compilamos

un corpus sobre discursos en juntas generales de accionistas, después de lo cual realizamos dos

exploraciones metodológicas separadas mediante la herramienta informática SCAP.

En la primera exploración metodológica (1) elaboramos de forma prácticamente automática

una lista de palabras clave con el vocabulario supuestamente especializado de nuestro corpus,

basándonos en las medidas %DIFF (Gabrielatos y Marchi, 2011) y DP (Gries, 2008).

Evaluamos los contenidos de la lista al compararlos con el juicio de cuatro profesores expertos.

La segunda exploración (2) se centra en una investigación de la evolución en la competencia

activa-pasiva de estudiantes del segundo bachelor y del máster. Además, elaboramos una

clasificación de niveles de dificultad basándonos en los resultados de la encuesta e

investigamos si podemos predecir esos niveles mediante una serie de criterios niveladores (e.o.

la frecuencia léxica, el percentil de frecuencia y la existencia de un cognado) en un modelo de

aprendizaje automático.

(1) Casi el 75% de los términos se incluiría por al menos tres de los cuatro profesores en un

verdadero glosario (de traducción) acerca del tema de la junta general. (2) Hemos encontrado

una evolución estadísticamente significativa hacia un conocimiento más profundo de los

elementos léxicos en los estudiantes del máster. Asimismo, hemos comprobado que un modelo

de nivelación basado en el aprendizaje automático tiene futuro, dado que los grados de

precisión (accuracy) obtenidos alcanzan hasta el 61,8%.

Número de palabras: 263

Palabras clave: adquisición y aprendizaje de vocabulario; lingüística de corpus; keyness;

competencia activa-pasiva; predecir niveles de dificultad del vocabulario; aprendizaje

automático

Page 6: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

Índice

Abreviaturas ............................................................................................................................................ 1

Lista de tablas y figuras .......................................................................................................................... 2

Índice de tablas ................................................................................................................................... 2

Índice de figuras .................................................................................................................................. 3

1 INTRODUCCIÓN ............................................................................................................................. 4

2 INVESTIGACIÓN BIBLIOGRÁFICA ................................................................................................ 7

2.1 Introducción ............................................................................................................................ 7

2.2 Adquisición y aprendizaje de una segunda lengua ................................................................. 7

2.3 Adquisición y aprendizaje de vocabulario .............................................................................. 8

2.3.1 Introducción ......................................................................................................................... 8

2.3.2 Instrucción enfocada en la palabra ................................................................................... 10

2.3.3 Vocabulario activo y pasivo ............................................................................................... 11

2.4 Computer-Assisted Language Learning ................................................................................ 14

2.5 Aprendizaje basado en datos (ABD) ..................................................................................... 16

2.5.1 Efectividad y contribuciones de ABD ................................................................................ 16

2.5.2 Clasificación de los métodos de investigación .................................................................. 17

2.6 Técnicas de lingüística de corpus .......................................................................................... 20

2.6.1 Keyness ............................................................................................................................. 20

2.6.2 Dispersión ......................................................................................................................... 22

3 SCAP ............................................................................................................................................. 25

3.1 Introducción .......................................................................................................................... 25

3.1.1 Información general .......................................................................................................... 25

3.1.2 Grupos meta ...................................................................................................................... 26

3.2 Funcionamiento .................................................................................................................... 27

3.2.1 Tokenización (tokenisation), etiquetado gramatical y lematización .................................. 27

3.2.2 Asignación de grado de dificultad ..................................................................................... 30

3.2.3 Frecuencia de ocurrencia y percentil ................................................................................ 31

3.2.4 Asignación de grado de especificidad .............................................................................. 32

3.3 Funcionalidades .................................................................................................................... 32

3.3.1 Interfaz web ....................................................................................................................... 32

3.3.2 Funcionalidades de investigación ..................................................................................... 38

3.4 Fundamentos teóricos de SCAP ............................................................................................ 39

3.4.1 Adquisición y aprendizaje de vocabulario ......................................................................... 39

3.4.2 Instrucción enfocada en la palabra (word-focused instruction) ........................................ 40

3.4.3 Vocabulario activo y pasivo ............................................................................................... 42

3.5 Conclusión ............................................................................................................................. 44

Page 7: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

4 DISEÑO DEL ESTUDIO ................................................................................................................ 46

4.1 Introducción .......................................................................................................................... 46

4.2 Diseño y motivación .............................................................................................................. 46

4.3 Preguntas de investigación ................................................................................................... 48

5 EXPLORACIONES METODOLÓGICAS ....................................................................................... 49

5.1 Compilación del corpus ......................................................................................................... 49

5.1.1 Contexto ............................................................................................................................ 49

5.1.2 Recopilación de los textos ................................................................................................ 50

5.1.3 Introducción del corpus en SCAP ..................................................................................... 51

5.2 Exploración metodológica 1: definir palabras clave ............................................................. 51

5.2.1 Introducción ....................................................................................................................... 51

5.2.2 Aplicación de %DIFF ......................................................................................................... 51

5.2.3 Aplicación de DP ............................................................................................................... 52

5.2.4 Crear listas de palabras clave ........................................................................................... 52

5.2.5 Añadir traducciones a las listas ......................................................................................... 55

5.2.6 Comparación con el juicio de profesores ELE .................................................................. 57

5.2.7 Resultados ........................................................................................................................ 60

5.3 Exploración metodológica 2.1: la encuesta .......................................................................... 68

5.3.1 Organización de la encuesta ............................................................................................. 68

5.3.2 Procesamiento de los resultados ...................................................................................... 70

5.3.3 Resultados ........................................................................................................................ 72

5.3.4 Nivelación en base a los valores medios .......................................................................... 79

5.4 Exploración metodológica 2.2: hacia una nivelación automática ........................................ 84

5.4.1 Limitaciones de una encuesta ........................................................................................... 84

5.4.2 Definición de la variable dependiente ............................................................................... 84

5.4.3 Regresión logística ordinal en SPSS ................................................................................ 88

5.4.4 Conclusión intermedia ....................................................................................................... 96

5.5 Exploración metodológica 2.3: modelo predictivo de aprendizaje automático ................... 96

5.5.1 Introducción ....................................................................................................................... 96

5.5.2 Preparación del experimento ............................................................................................ 97

5.5.3 Método 1: la regresión lineal ............................................................................................. 99

5.5.4 Método 2: el decision tree ............................................................................................... 102

5.5.5 Conclusión ....................................................................................................................... 103

6 CONCLUSIÓN ............................................................................................................................. 105

6.1 Introducción ........................................................................................................................ 105

6.2 Exploración metodológica 1 ................................................................................................ 105

6.3 Exploración metodológica 2.1 ............................................................................................. 106

6.4 Exploraciones metodológicas 2.2 y 2.3 ............................................................................... 107

Page 8: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

7 DISCUSIÓN ................................................................................................................................. 109

7.1 Limitaciones del estudio ..................................................................................................... 109

7.2 Observaciones y sugerencias .............................................................................................. 109

Referencias bibliográficas ................................................................................................................... 112

Apéndice ............................................................................................................................................. 116

Apéndice I: Metadatos_corpus ....................................................................................................... 116

Apéndice II: Referencias bibliográficas (enlaces)_corpus ............................................................... 117

Apéndice III: PoS-tagging en SCAP_lista completa de etiquetas .................................................... 120

Apéndice IV: 100 términos idóneos ................................................................................................ 122

Apéndice V: 50 términos no idóneos_lista1 (frecuentes pero no específicos) .............................. 124

Apéndice VI: 50 términos no idóneos_lista2 (específicos pero menos frecuentes) ....................... 125

Apéndice VII: Glosario de traducción extenso ................................................................................ 126

Apéndice VIII: Glosario de traducción breve .................................................................................. 128

Apéndice IX: Encuesta_documento1 .............................................................................................. 132

Apéndice X: Encuesta_documento2 ............................................................................................... 136

Apéndice XI: Encuesta_documento3 .............................................................................................. 140

Apéndice XII: Encuesta_niveles Ba2 ............................................................................................... 144

Apéndice XIII: Encuesta_niveles máster ......................................................................................... 147

Apéndice XIV: Set de datos de prueba ............................................................................................ 150

Apéndice XV: Set de datos de entrenamiento ................................................................................ 152

Page 9: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

1

Abreviaturas

ABD aprendizaje basado en datos

Ba2 segundo bachelor

Ba3 tercer bachelor

BNC British National Corpus

CALL Computer-Assisted Language Learning

COCA Corpus of Contemporary American English

CREA Corpus de Referencia del Español Actual

DDL data-driven learning

ELE español lengua extranjera

IATE InterActive Terminology for Europe

L2 segunda lengua

MAE Mean Absolute Error

MCER Marco Común Europeo de Referencia

NBLT Netword-Based Language Learning

PoS Part of Speech

PV PortaVoces

SCAP Spanish Corpus Annotation Project

TELL Technology-Enhanced Language Learning

TT TreeTagger

TWS Thematische Woordenschat

Page 10: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

2

Lista de tablas y figuras

Índice de tablas

Tabla 1: Adquisición y aprendizaje de vocabulario ................................................................................. 8 Tabla 2: Instrucción enfocada en la palabra ......................................................................................... 11 Tabla 3: Instrucción enfocada en la palabra_ejemplos ......................................................................... 11 Tabla 4: Vocabulario activo y pasivo ..................................................................................................... 13 Tabla 5: Programas de CALL orientados a la adquisición y el aprendizaje de vocabulario ................. 15 Tabla 6: Categorías de investigaciones de ABD ................................................................................... 17 Tabla 7: %DIFF_ejemplos ..................................................................................................................... 22 Tabla 8: DP_ejemplos ........................................................................................................................... 24 Tabla 9: Tokenización, etiquetado gramatical y lematización ............................................................... 29 Tabla 10: Niveles Thematische Woordenschat ..................................................................................... 30 Tabla 11: Niveles PortaVoces ............................................................................................................... 30 Tabla 12: Número de elementos léxicos en índices Thematische Woordenschat y PortaVoces ......... 31 Tabla 13: Puntuaciones de percentil de frecuencia en SCAP .............................................................. 32 Tabla 14: Interfaz web SCAP (versión beta) ......................................................................................... 33 Tabla 15: Preguntas de investigación ................................................................................................... 48 Tabla 16: Composición del corpus ........................................................................................................ 50 Tabla 17: Criterios lista de palabras clave ............................................................................................ 52 Tabla 18: Lista de 100 palabras clave ................................................................................................... 54 Tabla 19: Criterios términos no idóneos_2 ............................................................................................ 57 Tabla 20: Lista de 50 términos no idóneos_1 ....................................................................................... 58 Tabla 21: Criterios términos no idóneos_2 ............................................................................................ 58 Tabla 22: Lista de 50 términos no idóneos_2 ....................................................................................... 59 Tabla 23: Resultados1 test_%DIFF_DP ............................................................................................... 61 Tabla 24: Resultados2 test_%DIFF_DP ............................................................................................... 62 Tabla 25: Lista de términos aprobados correctamente por al menos 3/4 de los participantes ............. 64 Tabla 26: Lista de términos aprobados erróneamente por al menos 3/4 de los participantes ............. 65 Tabla 27: Lista de términos rechazados erróneamente por al menos 3/4 de los participantes ............ 66 Tabla 28: Explicaciones “grado de conocimiento” encuesta ................................................................. 69 Tabla 29: Número de palabras y participantes encuesta ...................................................................... 70 Tabla 30: Valores encuesta_ejemplos .................................................................................................. 71 Tabla 31: Niveles encuesta_1 ............................................................................................................... 71 Tabla 32: Resultados encuesta_comparación NC/V/ADJ ..................................................................... 72 Tabla 33: Resultados encuesta_resumen evolución Ba2 > máster ...................................................... 75 Tabla 34: Resultados encuesta_cambios en nivel Ba2 > máster ......................................................... 76 Tabla 35: Resultados encuesta_statu quo en nivel............................................................................... 77 Tabla 36: Resultados encuesta_regresión de nivel .............................................................................. 78 Tabla 37: Valores medios encuesta_ejemplos...................................................................................... 79 Tabla 38: Niveles encuesta_2 ............................................................................................................... 80 Tabla 39: Niveles encuesta_Ba2/máster/promedio (Ba3) ..................................................................... 80 Tabla 40: Promedio_nivel 1 ................................................................................................................... 81 Tabla 41: Promedio_nivel 2 ................................................................................................................... 82 Tabla 42: Promedio_nivel 3 ................................................................................................................... 83 Tabla 43: Promedio_nivel 4 ................................................................................................................... 83 Tabla 44: Criterios niveladores .............................................................................................................. 86 Tabla 45: Conceptualización de una nivelación automática ................................................................. 87 Tabla 46: Aplicabilidad 12 criterios niveladores .................................................................................... 92 Tabla 47: Aplicabilidad modelo final SPSS ........................................................................................... 93 Tabla 48: Aplicabilidad criterio 2a.......................................................................................................... 95

Page 11: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

3

Tabla 49: Aplicabilidad criterio 3............................................................................................................ 95 Tabla 50: Aplicabilidad criterio 4a.......................................................................................................... 95 Tabla 51: Criterios niveladores experimento de aprendizaje automático ............................................. 97 Tabla 52: Resultados regresión lineal ................................................................................................. 101 Tabla 53: Resultados decision tree ..................................................................................................... 102

Índice de figuras

Figura 1: Interfaz web SCAP (versión beta)_versión original en inglés ................................................ 33 Figura 2: Búsqueda específica_ejemplo1 ............................................................................................. 34 Figura 3: Búsqueda específica_ejemplo1_output ................................................................................. 35 Figura 4: Búsqueda específica_ejemplo2 ............................................................................................. 36 Figura 5: Búsqueda específica_ejemplo2_output ................................................................................. 36 Figura 6: Búsqueda específica_ejemplo3 ............................................................................................. 37 Figura 7: Búsqueda específica_ejemplo3_output ................................................................................. 38 Figura 8: Traducción de listas de palabras clave_glosario extenso...................................................... 56 Figura 9: Traducción de listas de palabras clave_glosario breve ......................................................... 56 Figura 10: Términos aprobados en test_%DIFF_DP ............................................................................ 61 Figura 11: Resultados2 test_%DIFF_DP (gráfico) ................................................................................ 62 Figura 12: Resultados encuesta_comparación NC/V/ADJ (gráfico) ..................................................... 73 Figura 13: Resultados encuesta_resumen evolución Ba2 > máster (gráfico) ...................................... 75 Figura 14: Input regresión logística ordinal SPSS................................................................................. 90 Figura 15: Output regresión logística ordinal SPSS .............................................................................. 94 Figura 16: Datos no preparados experimento de aprendizaje automático ........................................... 97 Figura 17: Fase preparatoria experimento de aprendizaje automático_1 ............................................ 98 Figura 18: Fase preparatoria experimento de aprendizaje automático_2 ............................................ 99 Figura 19: Ilustración de las predicciones en set de datos de entrenamiento (regresión lineal) ........ 100 Figura 20: Análisis efectividad modelo de aprendizaje automático (regresión lineal) ........................ 101

Page 12: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

4

1 INTRODUCCIÓN

La investigación sobre la adquisición y el aprendizaje de vocabulario (para la diferencia entre

ambos términos véase el apartado 2.3) ocupa una posición cada vez más céntrica en las teorías

sobre la adquisición y el aprendizaje de una segunda lengua (L2). Así, por ejemplo, Schmitt

(2010) destaca que un vocabulario amplio es una condición sine qua non para desenvolverse en

una lengua. Desde luego, se puede considerar el concepto de la adquisición y el aprendizaje de

vocabulario en L2 desde diferentes perspectivas. Una inmersión lingüística en el extranjero, por

ejemplo, sería un posible contexto para estudiarlo. Sin embargo, en la presente tesina partimos

de la perspectiva de la lingüística de corpus, “una rama de la lingüística que basa sus

investigaciones en datos obtenidos a partir de corpus, esto es, muestras reales de uso de la

lengua” (Centro Virtual Cervantes, s.d. a). Además, el término no se refiere a “una disciplina

lingüística, como lo pueden ser la morfología, la sintaxis o la pragmática”, sino que define “un

enfoque metodológico que es posible adoptar desde disciplinas diversas” (Centro Virtual

Cervantes, s.d. a), lo cual nos permite, pues, partir de la lingüística de corpus para investigar la

adquisición y el aprendizaje de vocabulario en L2.

Ahora bien, el concepto de la adquisición y el aprendizaje de vocabulario en sí no representa

un conjunto monolítico, sino que entran en juego varios criterios que determinan el proceso de

adquisición y aprendizaje. En la presente tesina, nos centramos en tres de esos criterios,

concretamente el grado de especificidad del vocabulario, la competencia activa-pasiva y el

grado de dificultad del vocabulario. El primer criterio tiene que ver con las palabras clave

(keywords), un concepto que comentamos más adelante en el apartado 2.6.1. La competencia

activa-pasiva define, en rigor, la diferencia entre saber entender un elemento léxico

(competencia pasiva) y saber entender así como producir (competencia activa) un elemento

léxico (véase el apartado 2.3.3 para unas explicaciones más detalladas). Por último, con el grado

de dificultad nos referimos sobre todo a la asignación de niveles, como se hace, por ejemplo,

en diccionarios del estudiante o en clasificaciones según los criterios del Marco Común

Europeo de Referencia (MCER).

En concreto, en la presente tesina pretendemos explorar dos metodologías de lingüística de

corpus, enfocándonos en las tres dimensiones de la adquisición y el aprendizaje de vocabulario

mencionadas arriba. Sin embargo, antes de comentar brevemente esas exploraciones

metodológicas, queremos enfatizar que en cuanto a la recuperación del vocabulario nos

Page 13: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

5

centramos exclusivamente en los elementos léxicos de una sola palabra. De hecho, la razón por

la cual no se toman en consideración los lexemas multipalabras es puramente metodológica,

dado que las fórmulas que usamos en la tesina (todavía) no son aplicables a lexemas

multipalabras. Nos damos cuenta de que, como consecuencia, va perdida la parte del

vocabulario que consiste en elementos léxicos de más de una palabra, lo cual representa una

limitación del presente estudio. Aun así, opinamos que nuestra investigación sigue siendo

relevante, porque pretendemos abordar nuevas perspectivas de lingüística de corpus.

La primera exploración metodológica (Exploración metodológica 1) se centra en el grado de

especificidad del vocabulario. Adoptamos el punto de vista de un intérprete/estudiante de

interpretación no nativo que quiere prepararse para interpretar en un contexto especializado.

Entre otras actividades preparatorias, le gustaría estudiar una lista con el vocabulario típico del

contexto especializado. En este sentido, pretendemos investigar si la lingüística de corpus puede

servir como medio para alcanzar este fin. De hecho, hemos compilado un corpus incluyendo 74

discursos en castellano pronunciados todos en el marco de la junta general de accionistas de

empresas españolas, que sirve como contexto especializado. Para el procesamiento del corpus

utilizamos Spanish Corpus Annotation Project (SCAP), una herramienta informática

desarrollada en el Departamento de Traducción, Interpretación y Comunicación de la

Universidad de Gante (véase e.o. Goethals et al., 2017).

A continuación, la segunda exploración trata de la competencia activa-pasiva (Exploración

metodológica 2.1) en combinación con el grado de dificultad del vocabulario (Exploración

metodológica 2.2). Aquí, partimos de la perspectiva de un profesor de español como lengua

extranjera (ELE) que, antes de dar una clase de vocabulario sobre un determinado tema, quiere

saber qué términos los estudiantes dominan activamente, qué términos dominan pasivamente y

qué términos no conocen. Basándose en esta información, quiere adaptar los contenidos de la

clase a las necesidades de los estudiantes. Investigamos cómo puede ayudar la lingüística de

corpus en este contexto, partiendo de nuevo del corpus acerca de la junta general de accionistas

procesado mediante la herramienta SCAP.

Por último, también añadimos un apartado (Exploración metodológica 2.3) sobre un

experimento basado en los datos reunidos en la segunda exploración metodológica. En breve,

se trata del desarrollo de un modelo predictivo que va más allá de las descripciones y las

Page 14: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

6

correlaciones: un modelo predictivo basado en el aprendizaje automático que asigna

automáticamente un nivel de dificultad a elementos léxicos de una sola palabra.

En resumen, primero llevamos a cabo una investigación bibliográfica, que se comentará

detalladamente en el capítulo 2 y que a la vez constituirá el marco teórico del presente trabajo.

A continuación, presentamos la herramienta informática SCAP (capítulo 3), antes de

profundizar en el diseño del estudio (capítulo 4). En el capítulo 5 ahondamos en las dos

exploraciones metodológicas de lingüística de corpus, que forman el núcleo de la tesina. Por

último, los capítulos 6 y 7 se dedican a las conclusiones que se pueden sacar del presente trabajo

y a la discusión de los resultados, respectivamente.

Page 15: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

7

2 INVESTIGACIÓN BIBLIOGRÁFICA

2.1 Introducción

Empezaremos esta tesina sobre dos exploraciones metodológicas de lingüística de corpus

orientadas a la adquisición y el aprendizaje de vocabulario en una segunda lengua (L2) por una

reflexión más general sobre la adquisición y el aprendizaje en L2, seguida de un apartado sobre

la adquisición y el aprendizaje de vocabulario en particular. A continuación, pasamos a la parte

más específica, profundizando en el concepto de CALL (Computer-Assisted Language

Learning), en el aprendizaje basado en datos (ABD) y en unas técnicas de lingüística de corpus.

Así, pretendemos presentar un panorama extenso y completo, que a la vez sirve como el marco

teórico de la tesina.

2.2 Adquisición y aprendizaje de una segunda lengua

Coincidimos con Ellis (2014) cuando expone que con “segunda lengua” se refiere a cualquier

idioma que no sea(n) la(s) lengua(s) materna(s). Sin embargo, para ser completo cabe

mencionar que en Bélgica el español suele ser la cuarta o incluso la quinta lengua, después del

neerlandés, el francés, el inglés y eventualmente el alemán. Asimismo, hacemos una distinción

entre los términos “adquisición de L2”, que refiere al hecho de adquirir una lengua de manera

subconsciente, y “aprendizaje de L2”, que abarca más bien los esfuerzos deliberados a la hora

de estudiar una lengua. De hecho, el proceso de adquisición se realiza en un contexto

comunicativo auténtico, donde los hablantes no se preocupan por la forma de sus expresiones,

sino por los mensajes que intentan transmitir y entender (Krashen, 1981). El proceso de

aprendizaje, en cambio, se sitúa en un contexto más artificial, como por ejemplo el ámbito

escolar, donde la corrección de los errores y la enseñanza de reglas explícitas desempeñan un

papel central (Krashen, 1981).

Page 16: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

8

2.3 Adquisición y aprendizaje de vocabulario

2.3.1 Introducción

Opinamos que también en cuanto al vocabulario es pertinente distinguir entre los términos

“adquisición” y “aprendizaje”, si bien nos parece oportuno concretizar las definiciones

anteriormente mencionadas (Krashen, 1981), adecuándolas a esta dimensión específica de la

adquisición y el aprendizaje de L2. En efecto, sostenemos que la adquisición de vocabulario

abarca los conocimientos nuevos sobre un elemento léxico adquiridos mediante actividades de

lectura extensiva y de comunicación auténtica, mientras que el aprendizaje comprende los

conocimientos nuevos sobre un elemento léxico aprendidos mediante actividades didácticas

diseñadas y realizadas con el objetivo de aprender nuevo vocabulario. Así, por ejemplo, el

hecho de leer un libro en L2 o hablar con un nativo – en la vida real o por algún dispositivo

electrónico – pertenece a las actividades de adquisición. En cambio, los ejercicios de rellenar

huecos o enlazar algún elemento léxico con la definición correspondiente, por ejemplo, forman

parte de las actividades de aprendizaje.

En otros términos, la adquisición de vocabulario se realiza de manera implícita, ya que el

objetivo de las actividades correspondientes no es necesariamente el aprendizaje de nuevas

palabras (Ellis, 1994), sino que supone sobre todo la realización de la actividad comunicativa

auténtica. Así, en el caso de los dos ejemplos que acabamos de mencionar, el fin sería la

comprensión de la historia y la realización de los objetivos de la conversación, respectivamente.

El aprendizaje de vocabulario, al contrario, se realiza más bien de manera explícita, dado que

en las actividades correspondientes se presta especial atención a los elementos léxicos, a

menudo con el claro objetivo de memorizarlos. A modo de ilustración, añadimos un resumen

esquemático en la Tabla 1.

Categoría ¿Cómo? Tipo de actividades

Adquisición de

vocabulario implícitamente

lectura extensiva; escuchar a o realizar comunicación auténtica;

etc.

Aprendizaje de

vocabulario explícitamente

ejercicios de vocabulario (rellenar huecos, enlazar el término

con su definición, etc.); la búsqueda de concordancias de una

palabra en un corpus para averiguar su significado y uso; etc.

Tabla 1: Adquisición y aprendizaje de vocabulario

Page 17: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

9

Sin embargo, conviene no conceptualizar la adquisición y el aprendizaje de vocabulario como

dos categorías cerradas, sino como un continuo con extremos unívocos y una zona de

solapamiento evidente donde se encuentran, por ejemplo, las actividades de lectura que

consisten en una selección específica de frases sacadas de una fuente auténtica, tales como un

libro o un corpus. Asimismo, las actividades de lectura o de comunicación oral realizadas con

la ayuda de un glosario se podrían colocar en la misma zona de solapamiento.

Dado que en el presente estudio utilizamos una herramienta informática (SCAP) que en primer

lugar ha sido desarrollada para realizar búsquedas específicas sobre elementos léxicos

específicos, sostenemos que la tesina se centra principalmente en el aprendizaje de vocabulario.

Aun así, no significa que sea imposible utilizar el output de la herramienta SCAP para redactar

tareas que incluyen una dimensión de adquisición de vocabulario. Así, por ejemplo, sería

posible basarse en una serie de búsquedas realizadas mediante SCAP para diseñar actividades

de lectura (véase también el apartado 3.4).

A continuación, en el caso de ser necesario determinar si esos casos ambivalentes de la zona de

solapamiento tienden a la adquisición o al aprendizaje de vocabulario, consideramos la

actividad en cuestión desde el punto de vista del aprendiz. De hecho, si la actividad está

diseñada de tal manera que el aprendiz la realice a fin de entender lo que está leyendo o

escuchando o a fin de expresar lo que quiere expresar, opinamos que tiende a la adquisición de

vocabulario, incluso si el objetivo final de los diseñadores es que el aprendiz aprenda nuevo

vocabulario. En cambio, si la actividad es diseñada así como realizada con el objetivo de

aprender nuevo vocabulario, opinamos que tiende al aprendizaje de vocabulario.

Por último, Schmitt (2010) afirma que se necesita un vocabulario amplio para desenvolverse en

una lengua, una apreciación que, hoy en día, es generalmente aceptada en las teorías sobre la

adquisición y el aprendizaje de L2. Sin embargo, la cuestión de cuál es la manera más eficaz

para familiarizarse con nuevo vocabulario es objeto de debates muy intensos. Aun así, la

mayoría de los lingüistas parece sostener que mediante una combinación de la adquisición y el

aprendizaje de vocabulario se consigue el mejor resultado (Chacón-Beltrán et al., 2010). Por

una parte, se puede tratar de conseguir ese equilibrio realizando separadamente actividades de

adquisición y de aprendizaje. No obstante, por otra parte, también es posible combinar las dos

dimensiones en la misma actividad. Efectivamente, volviendo sobre la conceptualización de la

Page 18: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

10

adquisición y el aprendizaje como un continuo, concluimos que la intersección en el medio

incluye exactamente este tipo de actividades, al combinar las fortalezas de ambos extremos.

2.3.2 Instrucción enfocada en la palabra

En el contexto que acabamos de esbozar, conviene destacar la instrucción enfocada en la

palabra (del inglés word-focused instruction, Laufer [2010]), que está relacionada con la

instrucción enfocada en la forma (del inglés form-focused instruction). De hecho, Laufer

propone ese tipo específico de instrucción tras haber corroborado empíricamente (véanse

Laufer 2003; 2005a; 2005b) que la mera exposición a mucho input no es suficiente para

familiarizarse con vocabulario nuevo en L2. En concreto, Laufer parte de los dos tipos de la

instrucción enfocada en la forma, más en particular Focus on Form (FonF) y Focus on Forms

(FonFs), para elaborar su instrucción enfocada en la palabra. Aplicando nuestra interpretación

de la adquisición y el aprendizaje de vocabulario, se podrían describir las tareas de FonF como

una forma de adquisición de vocabulario, basada en una tarea lingüística comunicativa

auténtica, a la que se superpone una dimensión de aprendizaje, mediante actividades para

prestar especial atención a una serie de elementos lingüísticos (para unos ejemplos véase la

Tabla 3). Las tareas de FonFs, en cambio, serían unívocamente tareas de aprendizaje, ya que se

refieren a formas de enseñar y practicar elementos léxicos mediante tareas lingüísticas no

comunicativas y/o no auténticas (para unos ejemplos véase la Tabla 3).

En la Tabla 2 presentamos, de acuerdo con Laufer (2010), cómo se puede adquirir y aprender

vocabulario mediante tareas de FonF o FonFs. Como ya hemos mencionado, la Tabla 3 recoge

algunos ejemplos para cada categoría. “Incidental” significa que no se les comunica a los

aprendices que el objetivo de la tarea es la adquisición o el aprendizaje de vocabulario;

“intencional” significa que sí se lo comunica, lo cual suele provocar la reacción de intentar

memorizar los elementos léxicos en cuestión. En este sentido, cabe observar que no se suele

incluir una dimensión intencional en las tareas de FonF, dado que no es esencial memorizar

palabras para realizar una actividad lingüística auténtica (Laufer, 2010). Además, resulta que la

diferencia entre las tareas de FonFs incidentales e intencionales es bastante sutil. En efecto, las

actividades en sí son muy similares, lo cual nos lleva a la conclusión de que la diferencia más

grande radica en el hecho de que las tareas intencionales hagan más hincapié en la

memorización de los elementos léxicos, vinculando, por ejemplo, un test posterior a la tarea.

Page 19: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

11

Focus on Form (FonF) Focus on Forms (FonFs)

Incidental + +

Intencional - +

Tabla 2: Instrucción enfocada en la palabra

Focus on Form (FonF) Focus on Forms (FonFs)

Incidental

leer un texto y buscar las palabras

desconocidas en un diccionario a fin de

entender el texto; leer un texto con la

ayuda de un glosario; pedir que se

expliquen palabras desconocidas en

comunicación auténtica; etc.

realizar ejercicios de vocabulario tras leer un

texto; redactar frases con palabras

desconocidas cuyo significado está descrito

en las explicaciones; indicar el significado y

sinónimos de las palabras meta en ejercicios

de selección múltiple; etc.

Intencional /

memorizar una lista de palabras que incluye

su significado, su traducción y algunas

frases de ejemplo; leer un texto y buscar las

palabras desconocidas a fin de

memorizarlas; etc.

Tabla 3: Instrucción enfocada en la palabra_ejemplos

2.3.3 Vocabulario activo y pasivo

Ahondando en la cuestión de lo que significa exactamente conocer una palabra, Henriksen

(1999) y Zhong (2012) consideran el conocimiento de vocabulario como una construcción

multidimensional, de la cual nos interesa sobre todo la dimensión receptiva-productiva. Sin

embargo, no todos los investigadores definen el vocabulario productivo (también llamado

vocabulario activo) y receptivo (también denominado pasivo) de la misma manera (Read,

2000), lo cual ha creado problemas a la hora de comparar estudios entre sí (Zhong, 2012). De

hecho, una posible interpretación determina que la competencia activa incluye el hecho de saber

proporcionar un término equivalente en L2 de una palabra en L1, y que la competencia pasiva

representa el hecho de saber proporcionar una traducción adecuada en L1 de una palabra en L2

(Waring 1997; Laufer et al., 2004). Otra interpretación, en cambio, define la competencia activa

como la capacidad de recordar la forma y el significado de una palabra en L2, y considera la

competencia pasiva como el hecho de saber reconocer la forma de una palabra en L2, además

de saber definirla o dar un sinónimo (Webb, 2008).

Page 20: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

12

En la presente tesina definimos los dos conceptos siguiendo a Nation (2001), quien ha elaborado

un esquema que permite evaluar en profundidad la competencia activa y pasiva (véase la Tabla

4). La originalidad de Nation está en aplicar la distinción entre la competencia activa y pasiva

a las tres dimensiones lingüísticas “forma”, “significado” y “uso”. El resultado es un marco

conceptual que invita a una reflexión sutil y matizada sobre lo que significa “conocer una

palabra”.

Page 21: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

13

Dimensión Subdimensión Competencia Pregunta

Forma

Hablada

Pasiva ¿El aprendiz sabe reconocer la forma hablada de

la palabra?

Activa ¿El aprendiz sabe pronunciar la palabra

correctamente?

Escrita Pasiva

¿El aprendiz sabe reconocer la forma escrita de la

palabra?

Activa ¿El aprendiz sabe deletrear y escribir la palabra?

Partes de palabra

Pasiva ¿El aprendiz sabe reconocer partes conocidas de

la palabra?

Activa ¿El aprendiz sabe producir formas flexionadas y

derivadas apropiadas de la palabra?

Significado

Forma y significado

Pasiva ¿El aprendiz sabe recordar el significado

apropiado para esta forma de palabra?

Activa ¿El aprendiz sabe producir la forma de palabra

apropiada para expresar este significado?

Concepto y referentes

Pasiva ¿El aprendiz sabe entender una serie de usos de la

palabra y su concepto central?

Activa ¿El aprendiz sabe usar la palabra para referir a una

serie de cosas?

Asociaciones

Pasiva ¿El aprendiz sabe producir asociaciones comunes

para esta palabra?

Activa ¿El aprendiz sabe recordar esta palabra cuando se

la presenta con ideas relacionadas?

Uso

Funciones gramaticales

Pasiva ¿El aprendiz sabe reconocer usos correctos de la

palabra en contexto?

Activa ¿El aprendiz sabe usar esta palabra en los patrones

gramaticales correctos?

Colocaciones

Pasiva ¿El aprendiz sabe reconocer colocaciones

apropiadas?

Activa ¿El aprendiz sabe producir la palabra en

colocaciones apropiadas?

Limitaciones de uso

(registro, frecuencia, ...)

Pasiva ¿El aprendiz sabe si la palabra es común, formal,

infrecuente, etc.?

Activa ¿El aprendiz sabe usar la palabra

apropiadamente?

Tabla 4: Vocabulario activo y pasivo

Page 22: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

14

Por último, conviene añadir que volveremos sobre este esquema de Nation (2001) cuando

evaluaremos en el apartado 3.4.3 para cuáles de las dimensiones y subdimensiones mencionadas

SCAP podría ser de ayuda.

2.4 Computer-Assisted Language Learning

Primeramente, cabe explicitar lo que entendemos exactamente por el concepto de CALL,

teniendo en cuenta que existen varias interpretaciones que oscilan entre amplias y más bien

estrictas. En nuestra opinión, es recomendable optar por una interpretación bastante amplia, ya

que nos permite anticiparnos a nuevos avances tecnológicos en el futuro e incluir sin ningún

problema cualquier concepto, teoría y/o método nuevo en el área de investigación acerca de

CALL. Por esta razón, definiríamos el concepto como, por un lado, el conjunto de aportaciones

tecnológicas a la adquisición y el aprendizaje así como a la enseñanza de una (segunda) lengua

y, por otro, el conjunto de estudios que, analizando esas aportaciones, pretenden ampliar los

conocimientos teóricos acerca del tema, además de ir desarrollando y mejorando las

herramientas tecnológicas mismas.

En segundo lugar, observamos que existen distintos términos para el concepto que refieren

esencialmente a lo mismo, aunque cabe mencionar que a veces se enfocan en una dimensión

específica del concepto. Así, por ejemplo, TELL (Technology-Enhanced Language Learning)

se centra en “tecnología”, un término más genérico que computer, además de poner de relieve

que se aumenta la calidad del aprendizaje (enhanced). En cambio, NBLT (Network-Based

Language Learning) se refiere específicamente al uso pedagógico de ordenadores que están

conectados mediante una red local o global y que permiten, por consiguiente, la comunicación

uno a uno, uno a muchos o muchos a muchos (Kern et al., 2008). Sin embargo, en la presente

tesina coincidimos con Levy y Hubbard (2005), quienes abogan por usar el término “CALL”,

señalando que es un término universalmente aceptado que más se utiliza en los nombres y

contenidos de estudios y revistas científicas. Además, observan que el hecho de inventar un

nuevo término cada vez que avanzan las nuevas tecnologías causa mucha confusión, lo cual no

es el caso con CALL, siendo un término bien establecido que ya se lleva usando desde que

surgió el concepto de incluir una dimensión tecnológica a la hora de aprender una lengua.

Por último, se ha de señalar que la adquisición y el aprendizaje de vocabulario siempre ha

desempeñado un papel muy popular en el ámbito de CALL (Pérez Basanta, 2010), por lo cual

Page 23: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

15

no es de extrañar que se hayan elaborado clasificaciones que tratan de categorizar los programas

de CALL orientados a este tema. De hecho, partiendo de las clasificaciones de Ma y Kelly

(2006) y de Levy y Stockwell (2008) y aplicando a ellas nuestra interpretación de la adquisición

y el aprendizaje de vocabulario, llegamos al siguiente esquema:

Categoría Subcategoría Detalles

Adquisición

de vocabulario

actividades puramente

auténticas

Incluye, entre otras tareas, la lectura de páginas en

Internet y la comunicación a través de algún dispositivo

electrónico.

programas compuestos

de textos escritos con

glosarios electrónicos

Incluye los programas que ofrecen textos escritos

incluyendo enlaces a un diccionario o un glosario

electrónico.

Aprendizaje

de vocabulario

paquetes multimedia

con un componente de

aprendizaje de

vocabulario

Incluye los productos informáticos (sobre todo

programas comerciales) que se venden para utilizar en,

por ejemplo, el ambiente escolar. No obstante, las

aplicaciones de lenguas en el móvil también pertenecen

a esta categoría.

programas dedicados al

aprendizaje de

vocabulario

Incluye los programas (a menudo desarrollados en base

a fundamentos científicos) que tratan de integrar una

determinada teoría o dimensión del aprendizaje de

vocabulario en su funcionamiento.

Tabla 5: Programas de CALL orientados a la adquisición y el aprendizaje de vocabulario

Sostenemos que la presente tesina pertenece al segundo subgrupo de la segunda categoría

principal, en concreto programas dedicados al aprendizaje de vocabulario, ya que SCAP es un

programa de CALL que ha sido especialmente desarrollado para la extracción y la consulta de

vocabulario (especializado) de un corpus (véase el capítulo 3). Dicho de otro modo, se parte del

vocabulario especializado como dimensión específica y se trata de ayudarle al usuario a la hora

de familiarizarse con el vocabulario típico del corpus introducido.

Page 24: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

16

2.5 Aprendizaje basado en datos (ABD)

2.5.1 Efectividad y contribuciones de ABD

ABD (del inglés data-driven learning [DDL], un término acuñado por Johns [1991]) es una

aplicación específica de CALL que se refiere a un enfoque inductivo en el cual los aprendices

actúan como verdaderos investigadores de lenguas, observando y explorando muestras de texto

de un corpus (por lo general concordancias) con el propósito de descubrir ciertos patrones de

uso, de significado, etc. (Montero Perez et al., 2014). Dicho de otro modo, ABD ofrece

considerable autonomía al aprendiz cuando quiere enterarse, por ejemplo, del significado y del

uso de una serie de palabras desconocidas o poco conocidas mediante búsquedas específicas.

En este sentido, la participación activa del aprendiz en el enfoque de ABD puede tener un efecto

positivo en la adquisición y el aprendizaje de L2 (véanse Kennedy y Miceli, 2001; Cheng et al.,

2003; Chambers y O’Sullivan, 2004; Lee y Swales, 2006). Además, Allan (2010) llega a la

conclusión de que la consulta de un corpus mediante un programa de concordancias resulta en

un conocimiento más profundo de las palabras meta en comparación con la consulta de un

diccionario, aunque se debe añadir que solo se observa este resultado en estudiantes de un nivel

B2 y C1 del Marco Común Europeo de Referencia (MCER) y no en los de un nivel B1.

Aun así, todavía no existe ningún consenso sobre la eficacia de ABD como una técnica de

aprendizaje o de instrucción. Así, por ejemplo, a pesar de afirmar que hay indicios para el

optimismo, Boulton (2010b) señala que los 27 estudios empíricos que analizó faltan de

proporcionar pruebas irrefutables sobre la efectividad de ABD. Asimismo, Gilquin y Granger

(2010) sostienen que los conocimientos empíricos sobre la eficacia de ABD son bastante

limitados, y que hacen falta más investigaciones de índole empírica para corroborar o refutar

su efectividad.

Sin embargo, sí se está de acuerdo en que el ABD brinda un gran potencial para contribuir a lo

que ya se sabe de la adquisición y el aprendizaje de L2, tanto con respecto a la dimensión teórica

como a la pedagógica (Asención-Delaney et al., 2015). Por último, por lo que se refiere a la

actitud de los aprendices ante ABD, resulta que, en general, responden de una manera positiva

(Chambers, 2010).

Page 25: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

17

2.5.2 Clasificación de los métodos de investigación

Boulton (2008) distingue entre tres categorías principales de investigaciones de ABD: la

primera incluye los estudios que analizan la actitud de los aprendices ante el hecho de trabajar

con materiales sacados de uno o varios corpus; el segundo grupo comprende las investigaciones

que se centran en la evaluación de las prácticas (pratiques) utilizadas; y la tercera categoría

abarca los estudios que pretenden arrojar luz sobre la efectividad de ABD.

Aunque SCAP es en primer lugar una herramienta de CALL orientada a la lingüística de corpus,

el programa también tiene una fuerte conexión con el concepto de ABD (véase el apartado 3.4),

por lo cual la presente tesina también puede considerarse en parte como una investigación de

ABD. De hecho, como nuestro estudio se centra principalmente en dos exploraciones

metodológicas mediante SCAP, opinamos que pertenece a la segunda categoría de Boulton

(2008). Sin embargo, se debe añadir que hemos ampliado ligeramente el alcance del término

“prácticas” en comparación con la interpretación original. Efectivamente, Boulton (2008) se

refiere sobre todo a una evaluación de los programas de ABD con el propósito de averiguar si

son suficientemente accesibles para los no especialistas, mientras que nosotros también

consideramos el funcionamiento de la herramienta misma y el output generado como parte de

estas “prácticas”. En consecuencia, llegamos a la siguiente clasificación:

Categoría Subcategoría

Evaluación de la actitud de los usuarios ante ABD /

Evaluación de las prácticas utilizadas en los

programas de ABD

Prácticas = accesibilidad del programa de ABD

para el usuario

Prácticas = funcionamiento y output del

programa de ABD mismo

Evaluación de la efectividad de ABD /

Tabla 6: Categorías de investigaciones de ABD

En este contexto, merece la pena presentar una concisa taxonomía de las metodologías

utilizadas en estudios anteriores. Sin embargo, dado que la presente tesina se centra

específicamente en la adquisición y el aprendizaje de vocabulario, solo incluimos las

metodologías de investigaciones que pertenecen al ámbito correspondiente. En cuanto a la

primera subcategoría, los métodos de investigación consisten principalmente en la observación

y el análisis de la manera de trabajar de los participantes, es decir, que se averigua qué hacen

Page 26: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

18

los aprendices al trabajar con el programa de ABD y si lo hacen bien, además de comprobar

qué decisiones específicas toman y por qué. Como ya se ha mencionado, en base a esta

información los investigadores quieren llegar a una conclusión acerca del grado de accesibilidad

del programa en cuestión para los usuarios no especialistas.

A continuación, como somos nosotros quienes hemos creado la segunda subcategoría, también

hemos tenido que llevar a cabo nosotros mismos una investigación acerca de las metodologías

utilizadas en este tipo de estudios, de la cual presentamos las observaciones más importantes

en lo que sigue. No obstante, volvemos a excluir las investigaciones que no tienen que ver con

la adquisición y el aprendizaje de vocabulario. Así, un primer grupo de estudios pretende

investigar cómo se pueden mejorar los programas informáticos dedicados a la adquisición y el

aprendizaje de vocabulario, enlazándolos con conocimientos teóricos de índole más general,

entre ellos teorías psicolingüísticas (véase Pérez Basanta, 2010). Asimismo, se llevan a cabo

investigaciones centradas en cómo se pueden redactar listas de vocabulario que tienen que

cumplir con determinados criterios, basándose en datos de corpus y aplicando fórmulas

estadísticas (véanse Matsuoka, 2012; Watson Todd, 2017). A continuación, otro tipo de

metodología se ve en investigaciones como García Salido y Alonso Ramos (2018), quienes

pretenden asignar niveles a una serie de colocaciones en español, partiendo de listas de

frecuencia de corpus y una nivelación manual según el MCER. Por último, existen varios

estudios que se centran principalmente en la creación, la refinación, la aplicación y/o la

evaluación de técnicas de lingüística de corpus, como son el keyness y el grado de dispersión

(véanse Lyne, 1985; Gries, 2008; Gabrielatos y Marchi, 2011; Gries, 2013).

En realidad, la relación de los últimos dos tipos de metodología con los programas de ABD está

sobre todo en que pueden ayudar a analizar y clasificar grandes cantidades de datos, facilitando,

por ejemplo, la asignación automática de un nivel de dificultad o de especificidad a elementos

léxicos. En nuestro estudio combinamos varias de las dimensiones metodológicas mencionadas

arriba, lo cual comentaremos en el diseño del estudio (capítulo 4).

Además, llama la atención que la gran mayoría de los estudios de ABD se centra en el inglés

como L2 (Römer, 2011), lo cual se ilustra muy bien en Boulton (2008), donde 33 de los 39

estudios analizados tratan de la lengua inglesa como L2, así como en Boulton (2010b), donde

solo 2 de los 27 estudios revisados se enfocan en otro idioma que el inglés. Si bien es cierto que

entre los corpus que están disponibles públicamente hay muchos más en inglés que en otras

Page 27: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

19

lenguas (Römer, 2011), eso no le podría impedir al investigador estudiar otros idiomas como

L2. En efecto, en el mundo digitalizado de hoy uno tiene acceso a una gran cantidad de textos

en línea redactados en muchas lenguas diferentes. Si son de libre uso, el investigador puede

fácilmente descargar los textos que necesite para compilar su corpus, tal y como hemos hecho

nosotros para este trabajo (véase el apartado 5.1). Aun así, es cierto que trabajando de esa

manera quizá sea difícil llegar a una compilación de textos que corresponda a un total de unos

cuantos millones de palabras. Sin embargo, si bien es verdad que los corpus de mediano y gran

tamaño ofrecen muchas ventajas (Gaskell y Cobb, 2004), el tamaño del corpus no influye

necesariamente en el valor potencial del estudio en cuestión (véanse Roe [2000]; O’Sullivan y

Chambers [2006], entre otros).

Por último, el grado de especificidad del corpus también es un aspecto clave en el área de ABD.

Efectivamente, urge distinguir entre los corpus generales, como por ejemplo el Corpus de

Referencia del Español Actual (CREA), el British National Corpus (BNC) y el Corpus of

Contemporary American English (COCA), y los corpus especializados con textos acerca de

unos pocos o incluso un solo campo temático, ya que tiene implicaciones significativas para el

output y, por consiguiente, para la adquisición y el aprendizaje de L2 posterior. A pesar de ello,

resulta que no siempre se tiene en cuenta el grado de especificidad del corpus de estudio en la

investigación de ABD. En efecto, estudiando detenidamente cuatro artículos que presentan una

síntesis de un gran número de estudios de ABD anteriores, hemos podido concluir que solo en

uno de ellos, en concreto Chambers (2007), se comenta brevemente el tipo de corpus de los

estudios analizados. En los demás tres (Boulton [2008]; Boulton [2010b]; Asención Delaney et

al. [2015]) no se menciona el tipo de datos utilizados en los estudios considerados, y menos su

especificidad.

En realidad, en el ámbito específico de la adquisición y el aprendizaje de vocabulario mediante

un programa de ABD, el grado de especificidad del corpus desempeña un papel aún más

decisivo. En este contexto, Chambers (2010) subraya las fortalezas de los corpus especializados

de tamaño pequeño, afirmando que permiten al aprendiz consultar múltiples concordancias

relevantes. Además, los corpus especializados facilitan considerablemente la redacción de

glosarios y la extracción del vocabulario especializado, lo cual resulta muy útil para aprendices

que quieren familiarizarse rápidamente con un discurso especializado, e incluso para profesores

de lengua que quieren tratar un tema específico en clase (Bowker y Pearson, 2002). Asimismo,

los corpus especializados se caracterizan por tener una gran concentración de vocabulario,

Page 28: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

20

implicando que son particularmente útiles para la adquisición y el aprendizaje de vocabulario

(Sinclair, 2005).

2.6 Técnicas de lingüística de corpus

2.6.1 Keyness

En opinión de Scott (1996; 1997), una palabra clave (keyword) se caracteriza por tener una

frecuencia inusualmente alta en un corpus de estudio en comparación con la frecuencia que

presenta en un corpus de referencia, por lo cual se podría definir el keyness como un indicador

de la importancia de una palabra clave en un corpus determinado (Biber et al., 2007).

Tradicionalmente, la métrica más común para determinar el keyness ha sido la significación

estadística, es decir, pruebas como log-verosimilitud o de chi cuadrado. Sin embargo,

Gabrielatos y Marchi (2011) señalan que la significación estadística no es la medida más

adecuada para calcularlo, porque no permite distinguir entre el efecto del tamaño del corpus y

la magnitud de la diferencia. Efectivamente, el problema con la prueba de chi cuadrado es que

únicamente averigua si la diferencia entre el corpus de estudio y el corpus de referencia es

significativa o no, y que no indica a qué se debe exactamente la posible significación estadística.

Así, por ejemplo, puede que una diferencia significativa se deba a que se ha analizado una gran

cantidad de datos, aunque en realidad la diferencia es bastante limitada.

Por esta razón, Gabrielatos y Marchi (2011) sugieren dividir el método en dos partes separadas.

Por un lado, miden la magnitud de la diferencia, una medida que averigua si una diferencia o

una relación de frecuencia es débil o fuerte, lo cual les lleva a proponer la siguiente fórmula,

que denominan %DIFF:

%DIFF = (𝑁𝑜𝑟𝑚𝐹𝑟𝑒𝑞 𝑒𝑛 𝑆𝐶−𝑁𝑜𝑟𝑚𝐹𝑟𝑒𝑞 𝑒𝑛 𝑅𝐶) 𝑥 100

𝑁𝑜𝑟𝑚𝐹𝑟𝑒𝑞 𝑒𝑛 𝑅𝐶

NormFreq = frecuencia normalizada

SC = corpus de estudio (study corpus)

RC = corpus de referencia (reference corpus)

Sin embargo, por otro lado, también añaden que solo se han de considerar los valores DIFF%

estadísticamente significativos en comparación con el corpus de referencia. Como consecuencia

Page 29: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

21

de este método dual, se llega a un resultado final que facilita considerablemente la

interpretación de las diferencias entre el corpus de estudio y el corpus de referencia. En nuestra

tesina, un corpus de literatura juvenil de aproximadamente 7,5 millones de palabras que se ha

compilado dentro del proyecto de SCAP sirve como corpus de referencia.

A modo de ilustración, aplicamos la fórmula a un ejemplo concreto, más en particular el

sustantivo inversión. Sin embargo, hay que destacar que para determinar la frecuencia

normalizada se usa el número de palabras de contenido (content words) como punto de

referencia, omitiendo palabras funcionales como artículos, preposiciones, etc. El valor

cuantitativo final se debe leer como “a la frecuencia de 23 que tiene el término inversión en el

corpus de referencia, hay que sumar el 46.128,36503% de 23”. Así, obtenemos el valor de

10.632,52396, es decir, la frecuencia normalizada de inversión en el corpus de estudio (74

discursos pronunciados en una junta general de accionistas, véase el apartado 5.1).

Corpus de estudio Corpus de referencia

Total de palabras 235.295 7.528.422

Palabras de contenido 131.049 4.050.528

Número de casos “inversión” 344 23

Frecuencia normalizada 344/131.049 x 4.050.528

= 10.632,52396 23

%DIFF = (10.632,52396 − 23) 𝑥 100

23 = 46.128,36503

Por último, presentamos una serie de ejemplos en la Tabla 7. Por categoría gramatical también

se incluye un ejemplo con un valor negativo de %DIFF, a fin de ilustrar qué términos no serían

típicos del todo de nuestro corpus.

Page 30: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

22

POS LEMA FREC %DIFF %DIFF_Sign

NC mundo 184 13 no

NC equilibrio 20 75 < 0,05

NC pérdida 19 103 < 0,01

NC inversión 344 46.128 < 0,001

NC vez 263 -55 < 0,001

V convertir 87 14 no

V seguir 375 11 < 0,05

V acumular 14 147 < 0,01

V alcanzar 304 495 < 0,001

V tener 678 -54 < 0,001

ADJ propio 124 19 no

ADJ inmerso 11 116 < 0,05

ADJ exterior 12 150 < 0,01

ADJ corporativo 205 105.504 < 0,001

ADJ seguro 80 -40 < 0,001

Tabla 7: %DIFF_ejemplos

2.6.2 Dispersión

Otro aspecto clave es el concepto de la dispersión, una medida que indica cómo un elemento

léxico está distribuido por las partes del corpus. Gries (2008) observa que tradicionalmente se

ha prestado poca atención a la dispersión en la literatura y los estudios sobre la lingüística de

corpus, señalando que la estadística prevalente en el ámbito es la frecuencia total en el corpus.

Aun así, el hecho de solo considerar la frecuencia de ocurrencia puede resultar engañoso e

incluso problemático, ya que, por ejemplo, una frecuencia de ocurrencia muy alta de una

determinada palabra se puede deber a una frecuencia altísima en un número limitado de textos,

que en realidad no representan el corpus entero. En este contexto, ya se han propuesto varias

medidas de dispersión, entre ellas D de Juilland et al. (1971), S de Rosengren (1971) y D2 de

Carroll (1970), pero Gries (2008) argumenta que muchas de ellas conllevan problemas. Por esta

razón, sugiere otra medida de dispersión, en concreto DP, una medida sencilla que siempre

genera un resultado entre cero y uno y que, además, evita muchos de los problemas de las otras

medidas de dispersión. A continuación, presentamos, de acuerdo con Gries (2008), cómo se

calcula DP:

Page 31: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

23

1) Determinar los tamaños s1-n de las n partes del corpus, que son normalizados con

respecto al tamaño total del corpus y que, por tanto, corresponden a porcentajes

esperados que tienen en cuenta si las partes son de tamaño diferente.

2) Determinar las frecuencias v1-n con las cuales a ocurre en las n partes del corpus, que

son normalizadas con respecto al tamaño total del corpus y que corresponden a un

porcentaje observado.

3) Computar, en pares, todas las n diferencias absolutas de los porcentajes esperados y

observados, sumarlas y dividir el resultado por dos.

Como ya se ha mencionado, el resultado final (DP) es un número entre cero y uno, con valores

cercanos a cero indicando que a está repartido por las n partes del corpus como cabría esperar

dado el tamaño de las n partes, y con valores cercanos a uno indicando que a está repartido por

las n partes del corpus exactamente de la manera opuesta de lo que cabría esperar dado el

tamaño de las n partes. Dicho de otro modo, por una parte, la medida DP permite identificar los

términos que pertenecen al núcleo del género, es decir, los términos que, en el caso de haber

subgéneros, ocurren en todos – o por lo menos en la mayor parte de – esos subgéneros con una

frecuencia normalizada similar. Por otra parte, se pueden filtrar las palabras que por su

frecuencia total pueden considerarse típicas del género, pero que parecen ocurrir sobre todo en

una(s) instancia(s) del género en particular, por lo cual podrían considerarse más bien típicas

para un subgénero.

A continuación, ilustramos en la Tabla 8 la funcionalidad de DP. En efecto, endeudamiento,

consolidar y neto representan un valor relativamente bajo, lo cual significa que están repartidos

uniformemente por el corpus entero. Aerolínea, accionar y petroquímico, en cambio, tienen un

valor mucho más alto de DP, lo cual nos permite concluir que esos términos son más bien

típicos de una de las cinco partes del corpus (cinco sectores económicos).

Page 32: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

24

POS LEMA FREC DP

NC endeudamiento 37 0,22

NC aerolínea 72 0,93

V consolidar 101 0,09

V accionar 11 0,72

ADJ neto 185 0,18

ADJ petroquímico 10 0,81

Tabla 8: DP_ejemplos

Por último, presentamos paso por paso cómo se calcula el valor DP de un ejemplo concreto,

más en particular el sustantivo endeudamiento:

Parte Número de palabras Número de ocurrencias “endeudamiento”

Comunicación 61.302 9

Construcción 44.146 15

Energía 54.965 7

Finanzas 58.548 6

Transporte 16.334 0

Total 235.295 37

Parte 1) Porcentaje esperado 2) Porcentaje observado 3) Diferencia absoluta

Comunicación 0,26 0,24 0,02

Construcción 0,19 0,41 0,22

Energía 0,23 0,19 0,04

Finanzas 0,25 0,16 0,09

Transporte 0,07 0 0,07

Después, se suman las diferencias absolutas, lo cual corresponde a una suma de 0,44. Por

último, a fin de llegar a un resultado final entre 0 y 1, todavía se ha de dividir la suma de 0,44

por 2, lo que equivale a un valor DP de 0,22.

Page 33: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

25

3 SCAP

3.1 Introducción

3.1.1 Información general

Como ya se ha mencionado en la introducción, para el procesamiento de nuestro corpus de

estudio usamos Spanish Corpus Annotation Project (SCAP) una aplicación desarrollada en el

Departamento de Traducción, Interpretación y Comunicación de la Universidad de Gante

(véase e.o. Goethals et al., 2017). Basándonos en la página web del proyecto

(www.scap.ugent.be), que contiene una descripción detallada del objetivo, el funcionamiento y

las funcionalidades de SCAP y en Goethals et al. (2017), donde se presentan el origen y la

relevancia del proyecto, además de profundizar en el funcionamiento del etiquetador y el

lematizador, la calidad del output y las ventajas que ofrece, en los siguientes párrafos

elaboraremos un resumen extenso sobre SCAP incluyendo toda la información relevante para

la presente tesina, de manera que quede clara cada referencia al funcionamiento y a las

funcionalidades del programa en los capítulos que siguen.

Resumiendo en grandes líneas el funcionamiento de SCAP, se puede decir que, tras introducir

un corpus en ello, el programa etiqueta las palabras, las lematiza, les asigna un grado de

dificultad y de especificidad y computa su frecuencia de ocurrencia (para una descripción

minuciosa de cada uno de estos pasos véase el apartado 3.2). Asimismo, está disponible una

interfaz web, a través de la cual se puede acceder a las funcionalidades más avanzadas del

programa, que permiten realizar búsquedas muy específicas (para una descripción detallada de

esas búsquedas véase el apartado 3.3.1).

Sin embargo, cabe añadir que SCAP es una herramienta en fase de desarrollo, por lo cual de

momento todavía existen dos versiones del programa: una “versión beta” que ya está disponible

en línea, y una “versión reciente” que se lanzará en otoño de 2018 y que incluye, entre otras

nuevas funcionalidades, una interfaz web actualizada.

Page 34: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

26

3.1.2 Grupos meta

SCAP es una aplicación desarrollada específicamente para promover “the use of corpus-based

applications among students, researchers, and language professionals who work with Spanish”

(Goethals et al., s.d.). En concreto, a los estudiantes de español como lengua extranjera (ELE)

el output de SCAP les permitirá familiarizarse rápidamente con el vocabulario típico acerca de

un tema de su propio interés, dado que podrán introducir en la aplicación un corpus o una serie

de textos ellos mismos. Asimismo, la interfaz web (véase el apartado 3.3.1 para una descripción

detallada) de la versión beta de SCAP ya les ofrece la posibilidad de realizar búsquedas

específicas en varios corpus reunidos dentro del proyecto. Estas búsquedas permiten, entre otras

cosas, visualizar las palabras en contexto o encontrar, por ejemplo, todos los adjetivos que se

combinan con un determinado sustantivo.

A los profesores ELE la herramienta SCAP les podría facilitar considerablemente la

preparación de sus clases (de vocabulario). En efecto, cuando el profesor introduce en la

aplicación una serie de textos que tratan del tema de la clase, le sale para cada término la

categoría morfológica a la cual pertenece, así como un nivel de especificidad y de dificultad, lo

cual puede ser de gran ayuda a la hora de diseñar ejercicios y actividades relevantes, en primer

lugar para seleccionar los elementos léxicos que podrían ser objeto de estudio. Además, gracias

a la interfaz web, el profesor ELE puede, entre otras cosas, consultar el contexto en que aparecen

las palabras, en base a lo cual puede diseñar ejercicios que dejan claros los diferentes usos de

un determinado término. Asimismo, las funcionalidades de la interfaz web también le permiten

organizar una clase de ABD, en la cual deja a los estudiantes mismos realizar las búsquedas,

invitándoles, por ejemplo, a buscar el significado y el uso de una serie de palabras desconocidas.

De hecho, como hemos visto en la investigación bibliográfica, la participación activa del

aprendiz típica del enfoque de ABD puede tener un efecto positivo en la adquisición y el

aprendizaje de L2 (véanse Kennedy y Miceli, 2001; Cheng et al., 2003; Chambers y O’Sullivan,

2004; Lee y Swales, 2006).

Por último, SCAP también les puede servir a los investigadores y profesionales lingüísticos que

trabajan con la lengua española. Así, por ejemplo, la herramienta les ofrece la libertad de aplicar

técnicas de lingüística de corpus a un corpus de estudio, cuyos resultados se presentan de forma

clara y accesible en el output.

Page 35: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

27

3.2 Funcionamiento

3.2.1 Tokenización (tokenisation), etiquetado gramatical y lematización

El primer paso en el procesamiento de los datos es la tokenización, durante la cual, en términos

simples, se separan las palabras de los signos de puntuación (cada elemento separado se llama

un token). Para este proceso se usa SCAP-TT, un conjunto de parámetros elaborado por

Goethals et al. (2017) que parte de Standard-TT, el conjunto de parámetros básico de la

herramienta TreeTagger (TT), un etiquetador desarrollado por Schmid (1994; 1995).

Después, se inicia el etiquetado gramatical, lo cual también es realizado por SCAP-TT. En este

proceso, a los tokens se les asigna una PoS (Part of Speech), es decir, una clase de palabra,

como son los sustantivos (con la etiqueta NC), los adverbios (ADV) y los adjetivos (ADJ). En

total, SCAP-TT distingue entre 110 diferentes etiquetas gramaticales (para la lista completa

véase el Apéndice III). Entre los elementos que (aún) no se incluyen en el etiquetado gramatical

se encuentran, por ejemplo, la información sobre el tiempo y la persona de los verbos.

Asimismo, se lleva a cabo una lematización, al identificar el lema correspondiente de las formas

flexionadas. Así, por ejemplo, SCAP vincula las formas “financiero”, “financiera”, financieros”

y “financieras” al lema “financiero”. Cabe enfatizar que la lematización representa una fase

fundamental en el procesamiento de los datos, dado que se parte del lema en todas las

funcionalidades del programa.

A modo de ilustración, he aquí una frase ejemplar (sacada de JA_ACC_01 [véase el Apéndice

I]) con la tokenización, el etiquetado gramatical y la lematización correspondientes:

En este momento y con la prudencia debida, me atrevo a decir que la perspectiva para el grupo

es optimista, tanto en nuestros negocios principales de Energía e Infraestructuras como en las

otras actividades que, aunque de menor dimensión relativa, también contribuyen de manera

importante a los resultados del grupo.

Page 36: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

28

Leyenda:

Abreviatura Explicación Abreviatura Explicación

ADJ adjetivo NC sustantivo

ADJV adjetivo verbal PDEL de + el

ADV adverbio PPX clítico/pronombre personal

ARTDEF artículo definido PREP preposición

CC conjunción coordinante QU cuantificador

CM coma VLINF verbo léxico (infinitivo)

CQUE que (conjunción) VLFIN verbo léxico (conjugado)

CSUB conjunción subordinante VSFIN verbo ser (conjugado)

DM pronombre demostrativo XP nombre propio

FS punto

Tokenización, etiquetado gramatical y lematización:

(leer el cuadro de arriba hacia abajo)

Page 37: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

29

Token Etiqueta Lema Token Etiqueta Lema

En PREP en Energía XP Energía

este DM este e CC y

momento NC momento Infraestructuras XP Infraestructuras

y CC y como CSUB como

con PREP con en PREP en

la ARTDEF la las ARTDEF la

prudencia NC prudencia otras QU otro

debida ADJV debido actividades NC actividad

, CM , que CQUE que

me PPX yo , CM ,

atrevo VLFIN atrever aunque CSUB aunque

a PREP a de PREP de

decir VLINF decir menor ADJ menor

que CQUE que dimensión NC dimensión

la ARTDEF la relativa ADJ relativo

perspectiva NC perspectiva , CM ,

para PREP para también ADV también

el ARTDEF el contribuyen VLFIN contribuir

grupo NC grupo de PREP de

es VSFIN ser manera NC manera

optimista ADJ optimista importante ADJ importante

, CM , a PREP a

tanto ADV tanto los ARTDEF el

en PREP en resultados NC resultado

nuestros PPO nuestro del PDEL de

negocios NC negocio grupo NC grupo

principales ADJ principal . FS .

de PREP de

Tabla 9: Tokenización, etiquetado gramatical y lematización

Page 38: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

30

3.2.2 Asignación de grado de dificultad

Basándose en los contenidos de los diccionarios ELE Thematische Woordenschat y

PortaVoces, SCAP asigna, dos veces, un nivel de dificultad a los lemas. En la Tabla 10 se

presenta la nivelación según Thematische Woordenschat (TWS), en la Tabla 11 según

PortaVoces (PV).

Grado de dificultad Detalles

básico contiene las palabras anotadas como “nivel 1” en TWS

intermedio contiene las palabras anotadas como “nivel 2” en TWS

nuevo contiene las palabras que no figuran en TWS pero sí en el corpus

Tabla 10: Niveles Thematische Woordenschat

Grado de dificultad Detalles

básico contiene las palabras anotadas como “básico” en PV

avanzado contiene las palabras anotadas como “avanzado” en PV

nuevo contiene las palabras que no figuran en PV pero sí en el corpus

Tabla 11: Niveles PortaVoces

Existen importantes diferencias entre los dos diccionarios, que se deberían tener en cuenta a la

hora de interpretar el output de SCAP. Así, por ejemplo, las categorías de Thematische

Woordenschat y PortaVoces no se solapan enteramente, en primer lugar porque éste es más

extenso (8505 elementos léxicos frente a 6036). En consecuencia, el nivel básico de PortaVoces

incluye un número importante de palabras que están en un nivel superior o ni siquiera están

incluidos en Thematische Woordenschat. Asimismo, el índice de Thematische Woordenschat

recoge ítems de una sola palabra así como lexemas multipalabras (multiwords) y colocaciones.

En cambio, cada ítem en el índice de PortaVoces consiste en una sola palabra, porque los

autores optan por solo indexar la palabra clave de los elementos léxicos multipalabras. Además,

en PortaVoces varias palabras no se incluyen en el índice pero sí figuran en las frases ejemplares

del diccionario. Como SCAP se basa en los índices de los libros para asignar un nivel de

dificultad, las observaciones mencionadas arriba también influyen en el output de la

herramienta. Sin embargo, sostenemos que los diccionarios no dejan de ser fuentes valiosas y

por lo menos pragmáticas para una nivelación rudimentaria del corpus, entre otras razones

porque ambas son obras de referencia en el ámbito ELE en Bélgica.

Page 39: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

31

A continuación, la Tabla 12 recoge los datos exactos de los índices de ambos diccionarios. La

columna PV_no (663+1445) y la fila TWS_no (968+3609) incluyen las palabras que no

aparecen en el diccionario en cuestión pero sí en el otro. Como acabamos de comentar, el hecho

de que PV_no sume más de 2000 ítems se explica en gran parte por las diferencias en el sistema

de indexar. Así, como ya hemos expuesto, el índice de PortaVoces no incluye lexemas

multipalabras (p.ej. “a mediados de”; “infarto de corazón”; “resonancia magnética”). Además,

vemos que en la categoría PV_básico el número de términos que solapa con TWS_intermedio

(1217) es más o menos igual al número que solapa con TWS_básico (1311), lo cual sugiere que,

en rigor, PortaVoces tiene un grado de dificultad más alto. Sin embargo, como ya hemos

mencionado, las diferencias se deben en primer lugar a que PortaVoces es más extenso (8505

elementos léxicos versus 6036 en Thematische Woordenschat).

PV_no PV_básico PV_avanzado Total_TWS

TWS_no 0 968 3609 /

TWS_básico 663 1311 370 2344

TWS_intermedio 1445 1217 1030 3692

Total_PV / 3496 5009 6036

8505

Tabla 12: Número de elementos léxicos en índices Thematische Woordenschat y PortaVoces

Es evidente que esta nivelación parte de un criterio pragmático, que es, si las palabras figuran

o no en Thematische Woordenschat y PortaVoces. Por esta razón, los creadores de SCAP están

considerando utilizar otros puntos de referencia, como por ejemplo el Plan curricular del

Instituto Cervantes, que “desarrolla y fija los Niveles de referencia para el español según las

recomendaciones que, en su día, propusiera el Consejo de Europa en su Marco Europeo”

(Centro Virtual Cervantes, s.d. b). Además, una nivelación (semi)automática, como se investiga

en el presente trabajo (véase la Exploración metodológica 2), también podría considerarse.

3.2.3 Frecuencia de ocurrencia y percentil

Asimismo, SCAP computa la frecuencia de ocurrencia de cada lema, además del percentil de

frecuencia. Con respecto al percentil, SCAP otorga una puntuación a cada lema. La razón por

la cual ponemos las palabras con una sola ocurrencia en una categoría aparte es que en los

corpus de tamaño medio este grupo puede representar hasta el 40 o 50% del corpus. De hecho,

Page 40: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

32

si entraran directamente en el cálculo de los percentiles, las palabras que solo ocurren una vez

en el corpus podrían ocupar el nivel 1, 2 e incluso parte del nivel 3.

Puntuación Detalles

0 1 ocurrencia en el corpus

1 entre el 0% y el 20% de las palabras con más de una ocurrencia

2 entre el 20% y el 40% de las palabras con más de una ocurrencia

3 entre el 40% y el 60% de las palabras con más de una ocurrencia

4 entre el 60% y el 80% de las palabras con más de una ocurrencia

5 entre el 80% y el 100% de las palabras con más de una ocurrencia

Tabla 13: Puntuaciones de percentil de frecuencia en SCAP

3.2.4 Asignación de grado de especificidad

Por último, la herramienta también es capaz de determinar el grado de especificidad de los

lemas. La versión beta de SCAP parte de un mecanismo que compara los percentiles en que

figura la palabra en el corpus de estudio y en un corpus de referencia, en base a lo cual se da

una nota: “A” para las palabras específicas y frecuentes; “B” para las palabras específicas pero

no frecuentes; “C” para las palabras frecuentes pero no específicas; y “D” para las palabras no

frecuentes ni específicas. Sin embargo, este método tiene el inconveniente de que se basa en

decisiones relativamente arbitrarias sobre a partir de qué nivel una palabra se considera como

específica, por lo cual la versión reciente de la herramienta parte de la medida %DIFF

(Gabrielatos y Marchi, 2011; para más información véase el apartado 2.6.1). Esta fórmula da

como resultado un valor cuantitativo que refleja la proporción entre las frecuencias de una

palabra en el corpus de estudio y un corpus de referencia

3.3 Funcionalidades

3.3.1 Interfaz web

Como ya se ha mencionado arriba, SCAP permite realizar búsquedas precisas a través de la

interfaz web, que ofrece las funcionalidades recogidas en la Tabla 14 (véase la Figura 1 para

la versión original en inglés). No obstante, como el programa todavía está en fase de desarrollo,

puede que en el futuro se incluyan más funcionalidades de este tipo en la herramienta.

Page 41: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

33

Tipo de búsqueda Detalles

averiguar frecuencias de

ocurrencia

descargar un resumen de todos los lemas

averiguar la frecuencia de ocurrencia de algún lema en el corpus y

eventuales subcorpus

buscar lemas en contexto

buscar todas las ocurrencias en contexto de uno o varios lemas

buscar una combinación de algún lema con un segundo lema

buscar frases que incluyen diferentes lemas de una lista

buscar combinaciones y

construcciones para lemas

buscar combinaciones de algún lema con una etiqueta específica; por

ejemplo: encontrar todos los adjetivos que se combinan con un

determinado sustantivo

encontrar la primera ocurrencia de una etiqueta a la izquierda o la

derecha de las palabras de búsqueda; por ejemplo: encontrar el primer

verbo a la derecha de un determinado sustantivo

encontrar ngrams

Tabla 14: Interfaz web SCAP (versión beta)

Figura 1: Interfaz web SCAP (versión beta)_versión original en inglés

A continuación, comentamos tres de las búsquedas específicas, a fin de demostrar su utilidad

práctica.

Situación 1: Al leer un artículo de periódico encuentras la expresión “salida a bolsa”, un

elemento léxico desconocido para ti. Sabes deducir el significado del contexto pero te preguntas

si se trata de una expresión fija que no permite otra preposición (¿salida en bolsa?) ni un artículo

determinado antes de bolsa (¿salida a la bolsa?). Para resolver esta duda, realizas la búsqueda

Page 42: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

34

buscar lemas en contexto – buscar una combinación de algún lema con un segundo lema, ya

que permite introducir la distancia máxima después del primer lema (aquí 3 palabras; véase la

Figura 2). Como resultado, obtienes un documento que visualiza todos los casos

correspondientes a los criterios de la búsqueda en su contexto original (véase la Figura 3) y que

permite deducir fácilmente que “salida a bolsa” efectivamente es una expresión fija en español.

Figura 2: Búsqueda específica_ejemplo1

Page 43: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

35

Figura 3: Búsqueda específica_ejemplo1_output

Situación 2: En el resumen de las frecuencias de ocurrencia notas que “rentabilidad” es un

término muy frecuente en el corpus, pero te gustaría saber con qué adjetivos se puede combinar.

Aquí, la búsqueda idónea sería buscar combinaciones y construcciones para lemas – encontrar

la primera ocurrencia de una etiqueta a la izquierda o la derecha de las palabras de búsqueda.

Como se puede ver en la Figura 4, permite introducir la distancia máxima a la izquierda y la

derecha del lema. Como resultado final, SCAP genera un archivo que visualiza los totales por

adjetivo encontrado (véase la Figura 5), además de presentar los contextos originales en una

segunda hoja.

Page 44: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

36

Figura 4: Búsqueda específica_ejemplo2

Figura 5: Búsqueda específica_ejemplo2_output

Page 45: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

37

Situación 3: Te gustaría encontrar el (los) equivalente(s) español(es) de la colocación “dividend

uitkeren” en neerlandés. Como el COD suele estar detrás del verbo en español, buscamos el

primer verbo a la izquierda del lema “dividendo”. Para disminuir la probabilidad de que también

se incluyan verbos que no están vinculados con “dividendo”, limitamos la búsqueda a una

distancia máxima de tres. SCAP vuelve a crear un archivo que incluye los totales por verbo

encontrado (véase la Figura 7), así como una hoja con los contextos originales. De los

resultados se desprende que “repartir dividendo” sería la expresión equivalente en español.

Figura 6: Búsqueda específica_ejemplo3

Page 46: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

38

Figura 7: Búsqueda específica_ejemplo3_output

3.3.2 Funcionalidades de investigación

También desde una perspectiva de investigación SCAP ofrece una serie de funcionalidades,

concretamente para los estudios de lingüística de corpus que se centran en la lengua española.

En concreto, la herramienta ayuda al investigador a realizar algunos pasos como el etiquetado,

la lematización o el cálculo de medidas cuantitativas esenciales. Son técnicas relativamente

bien conocidas que, sin embargo, siguen planteando problemas prácticos para muchos

investigadores, jóvenes o incluso expertos. Además, se puede utilizar el programa para estudiar

la aplicación de una o varias fórmulas estadísticas a un corpus de estudio, tal y como hemos

hecho nosotros con las medidas %DIFF y DP. En el output el programa visualiza los resultados

en hojas de cálculo (por ejemplo en Microsoft Excel), gracias a lo cual el investigador tiene

acceso a los valores subyacentes del procesamiento de datos. Sin embargo, repetimos que SCAP

es una herramienta que todavía está en fase de desarrollo, por lo cual es posible que en el futuro

se añadan más funcionalidades orientadas a la investigación de lingüística de corpus.

Page 47: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

39

3.4 Fundamentos teóricos de SCAP

3.4.1 Adquisición y aprendizaje de vocabulario

Volviendo sobre los contenidos elaborados en la investigación bibliográfica, averiguamos en

qué dimensiones puede ayudar SCAP. Empezamos por comentar la utilidad de la herramienta

en cuanto al continuo de la adquisición y el aprendizaje de vocabulario, para lo cual volvemos

a presentar la Tabla 1.

Categoría ¿Cómo? Tipo de actividades

Adquisición de

vocabulario implícitamente

lectura extensiva; escuchar a o realizar comunicación auténtica;

etc.

Aprendizaje de

vocabulario explícitamente

ejercicios de vocabulario (rellenar huecos, enlazar el término

con su definición, etc.); la búsqueda de concordancias de una

palabra en un corpus para averiguar su significado y uso; etc.

Tabla 1: Adquisición y aprendizaje de vocabulario

Primeramente, SCAP se puede usar para realizar actividades de aprendizaje de vocabulario,

como por ejemplo la búsqueda de concordancias. Además, como acabamos de explicar en el

apartado 3.3.1, la interfaz web también ofrece la oportunidad de realizar búsquedas más

avanzadas, que le permiten al aprendiz explorar en profundidad el uso y el significado de una

determinada palabra en su contexto original. Estas actividades se pueden considerar como

ejercicios de vocabulario sin más o, en caso de que no vayan acompañadas de ninguna

instrucción concreta por parte de un profesor, como verdaderas actividades de ABD.

No obstante, SCAP también podría ser de ayuda en el diseño de otro tipo de ejercicios, más en

particular en actividades que poseen tanto elementos de adquisición como de aprendizaje,

combinando así las fortalezas de ambos extremos del continuo. Así, por ejemplo, se pueden

diseñar actividades de lectura basándose en una serie de contextos originales sacados del corpus

tras haber realizado búsquedas específicas mediante el programa.

Page 48: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

40

3.4.2 Instrucción enfocada en la palabra (word-focused instruction)

Focus on Form (FonF) Focus on Forms (FonFs)

Incidental

leer un texto y buscar las palabras

desconocidas en un diccionario a fin de

entender el texto; leer un texto con la

ayuda de un glosario; pedir que se

expliquen palabras desconocidas en

comunicación auténtica; etc.

realizar ejercicios de vocabulario tras leer un

texto; redactar frases con palabras

desconocidas cuyo significado está descrito

en las explicaciones; indicar el significado y

sinónimos de las palabras meta en ejercicios

de selección múltiple; etc.

Intencional /

memorizar una lista de palabras que incluye

su significado, su traducción y algunas

frases de ejemplo; leer un texto y buscar las

palabras desconocidas a fin de

memorizarlas; etc.

Tabla 3: Instrucción enfocada en la palabras_ejemplos

Como hemos explicado en la investigación bibliográfica, la instrucción enfocada en la palabra

es una técnica que ha sido corroborada empíricamente (véanse Laufer 2003; 2005a; 2005b). Se

centra principalmente en la idea de que un profesor da actividades a un grupo de estudiantes

para que adquieran y aprendan nuevos elementos léxicos. De hecho, esas actividades pueden

ser tareas de FonF, tareas de FonFs incidentales o tareas de FonFs intencionales. Relacionando

la instrucción enfocada en la palabra con SCAP, vemos que la herramienta puede, por un lado,

ayudar a diseñar tales tareas y, por otro, funcionar como medio para realizarlas. Para ilustrar

esta doble utilidad, presentamos un ejemplo sencillo y concreto que vamos elaborando según

avanzamos en el tipo de tarea (FonF > FonFs incidental > FonFs intencional).

Focus on Form (FonF): Supongamos que como ejercicio preparatorio de una clase de

vocabulario el profesor ELE ya quiere familiarizarles a los estudiantes con cincuenta palabras

típicas de un tema que se va a tratar en clase, por ejemplo “una visita al médico de cabecera”.

Sin embargo, no quiere darles una lista de términos para estudiar de memoria, sino que prefiere

que encuentren el vocabulario en su contexto original. En este caso puede compilar un corpus

sobre el tema en cuestión descargando una serie de textos en línea e introducir el corpus en

SCAP, después de lo cual – en la versión reciente del programa – puede consultar una lista de

palabras clave, generada mediante las fórmulas %DIFF y DP (véase el apartado 5.2 para la

Page 49: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

41

investigación que hemos llevado a cabo a este propósito). En base a esta lista el profesor ELE

puede seleccionar cincuenta palabras típicas y luego, mediante una serie de búsquedas sencillas

en la interfaz web, sacar los párrafos relevantes que contienen una o varias de esas cincuenta

palabras. Después, puede integrar ese input auténtico en una tarea de lectura preparatoria, a la

cual añade una serie de preguntas sobre el contenido y el vocabulario, estimulando a los

estudiantes a prestar atención a determinados elementos léxicos (aquí estaría el foco en la

palabra, pues). Así, el profesor se asegura de que los estudiantes ya están familiarizados con el

vocabulario típico del tema, mientras que para los estudiantes mismos solo supone la realización

de una tarea lingüística comunicativa auténtica, es decir, la comprensión de un texto en L2.

Además, la versión reciente de SCAP también ofrece la posibilidad de que el programa mismo

seleccione el texto en el corpus que contiene el número más alto de target words, que en este

caso serían los cincuenta términos específicos.

Focus on Forms (FonFs) incidental: A continuación, en la clase de vocabulario misma el

profesor ELE puede dar una serie de actividades de FonFs incidentales, implicando que los

estudiantes ya empiezan a prestar especial atención a los elementos léxicos fuera de su contexto

original. Así, por ejemplo, puede pedirles que realicen varias búsquedas específicas mediante

la interfaz web de SCAP para ampliar sus conocimientos sobre, entre otras cosas, el uso y el

significado de una serie de términos típicos. Naturalmente, el profesor ELE puede combinar

ese tipo de actividades con otras tareas, como por ejemplo un ejercicio de selección múltiple

para indicar el significado/los significados correcto(s) de los términos o la redacción de un breve

texto sobre el tema.

Focus on Forms (FonFs) intencional: Como actividad concluyente de esta clase de vocabulario

acerca de “una visita al médico de cabecera”, surge el ejemplo prototípico de una tarea de FonFs

intencional: un test. Efectivamente, el profesor puede elaborar un glosario y organizar un test

sobre ello en la clase siguiente, a fin de que los estudiantes presten especial atención a los

elementos léxicos con el claro objetivo de memorizarlos. Para la creación del glosario el

profesor ELE puede volver a consultar la lista de palabras clave basada en las medidas %DIFF

y DP.

Sin embargo, nosotros sostenemos que, en el caso de SCAP, se puede añadir una segunda

dimensión a la instrucción enfocada en la palabra, concretamente la de un aprendiz autodidacta

en un enfoque de ABD. Obviamente, en este contexto el programa funciona únicamente como

Page 50: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

42

medio para realizar actividades lingüísticas, y ya no como herramienta para diseñar ejercicios.

En concreto, el aprendiz no solo puede introducir su propio corpus en la herramienta, sino que

la interfaz web también le permite ir explorando ese corpus de la manera que quiera. No

obstante, hay que destacar dos observaciones en esta dimensión: primero, se pierde

parcialmente la parte de “instrucción”, ya que es el aprendiz quien decide qué actividades

realiza. Además, para poder sacar el máximo provecho de esta dimensión es imprescindible que

el aprendiz posea conocimientos avanzados sobre la lingüística de corpus.

3.4.3 Vocabulario activo y pasivo

Por último, volvemos a presentar el esquema sobre la competencia activa-pasiva elaborado por

Nation (2001) y comentamos las dimensiones en las cuales SCAP puede ayudar (en la versión

beta de la aplicación), basándonos para cada dimensión en la pregunta en la última columna.

1) Pregunta en negrita: se puede utilizar SCAP sin necesitar ninguna intervención por

parte de un profesor ELE = ABD

2) Pregunta en itálica: se puede utilizar SCAP pero hace falta una intervención por parte

de un profesor ELE para diseñar actividades correspondientes

3) Pregunta en texto normal: SCAP (todavía) no puede ayudar

Page 51: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

43

Dimensión Subdimensión Competencia Pregunta

Forma

Hablada

Pasiva ¿El aprendiz sabe reconocer la forma hablada de

la palabra?

Activa ¿El aprendiz sabe pronunciar la palabra

correctamente?

Escrita

Pasiva ¿El aprendiz sabe reconocer la forma escrita de

la palabra?

Activa ¿El aprendiz sabe deletrear y escribir la

palabra?

Partes de palabra

Pasiva ¿El aprendiz sabe reconocer partes conocidas

de la palabra?

Activa ¿El aprendiz sabe producir formas flexionadas y

derivadas apropiadas de la palabra?

Significado

Forma y significado

Pasiva ¿El aprendiz sabe recordar el significado

apropiado para esta forma de palabra?

Activa ¿El aprendiz sabe producir la forma de palabra

apropiada para expresar este significado?

Concepto y referentes

Pasiva ¿El aprendiz sabe entender una serie de usos de

la palabra y su concepto central?

Activa ¿El aprendiz sabe usar la palabra para referir a

una serie de cosas?

Asociaciones

Pasiva ¿El aprendiz sabe producir asociaciones

comunes para esta palabra?

Activa ¿El aprendiz sabe recordar esta palabra cuando

se la presenta con ideas relacionadas?

Uso

Funciones gramaticales

Pasiva ¿El aprendiz sabe reconocer usos correctos de

la palabra en contexto?

Activa ¿El aprendiz sabe usar esta palabra en los

patrones gramaticales correctos?

Colocaciones

Pasiva ¿El aprendiz sabe reconocer colocaciones

apropiadas?

Activa ¿El aprendiz sabe producir la palabra en

colocaciones apropiadas?

Limitaciones de uso

(registro, frecuencia, ...)

Pasiva ¿El aprendiz sabe si la palabra es común, formal,

infrecuente, etc.?

Activa ¿El aprendiz sabe usar la palabra apropiadamente?

Tabla 4: Vocabulario activo y pasivo

Page 52: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

44

Primeramente, no ha de extrañar que las dimensiones en las cuales SCAP no puede ayudar estén

relacionadas con el lenguaje hablado, ya que el programa únicamente procesa textos escritos.

A continuación, llama la atención que en las demás dimensiones SCAP sí puede ser de ayuda,

aunque cabe añadir que para la gran mayoría de las dimensiones activas se necesita la ayuda de

un profesor ELE para el diseño de actividades adecuadas. Aun así, en la versión reciente del

programa sí existe la posibilidad de dejarle a la herramienta misma diseñar automáticamente

ejercicios de rellenar huecos, lo cual serían actividades orientadas a la competencia pasiva. Sin

embargo, aquí nos limitamos a comentar la pregunta “¿El aprendiz sabe deletrear y escribir

la palabra?”, ya que en todo caso se puede aplicar esta dimensión activa a la versión beta de

SCAP. De hecho, en el supuesto de que el aprendiz lea un texto de su corpus y quiera realizar

búsquedas específicas para enterarse en profundidad de la forma, el significado y el uso de un

determinado término, él mismo tendrá que introducir el lema en la interfaz web, lo cual

representa una actividad activa.

A continuación, para ilustrar una dimensión que requiere una intervención de un profesor ELE

comentamos la pregunta “¿El aprendiz sabe usar esta palabra en los patrones gramaticales

correctos?”. Aquí, el profesor ELE puede basarse en los contextos originales que salen en el

output de SCAP (p.ej. concordancias) para diseñar actividades en las cuales los estudiantes

aprenden a usar los patrones gramaticales correctos.

Para ampliar los conocimientos pasivos mediante SCAP, en cambio, el aprendiz no necesita

necesariamente la ayuda de un profesor ELE, aunque cabe volver a destacar que debería tener

alguna experiencia con la lingüística de corpus para sacar provecho del enfoque de ABD. Así,

por ejemplo, para la pregunta “¿El aprendiz sabe reconocer colocaciones apropiadas?” el

aprendiz podría buscar qué verbo(s) se combina(n) con un determinado sustantivo mediante la

interfaz web de SCAP (véase también el apartado 3.3.1 para el ejemplo concreto de

“dividendo”).

3.5 Conclusión

Sostenemos que la originalidad de SCAP está en que reúne varias técnicas existentes

(tokenización, lematización, identificación de palabras clave, etc.) para llegar a un “producto

final” coherente y polivalente. Además, otra ventaja es que la herramienta está orientada

específicamente al español, lo cual es más bien una excepción en un ámbito donde predomina

Page 53: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

45

el inglés. Resumiendo, SCAP brinda posibilidades en el marco de la lingüística de corpus en la

lengua española. En efecto, el programa no solo puede ayudar a diseñar ejercicios de

vocabulario ELE, sino que también ofrece la oportunidad de realizar actividades mediante la

interfaz web, con o sin la ayuda de un profesor ELE. Además, se puede utilizar el programa

para llevar a cabo investigaciones de lingüística de corpus, como también hacemos nosotros en

los capítulos que siguen.

Aun así, como ya hemos mencionado, SCAP es una herramienta en fase de desarrollo, con

muchos aspectos que quedan por mejorar y perfeccionar. Así, por ejemplo, se añadirán más

funcionalidades a la interfaz web, haciéndola, entre otras cosas, más accesible para quienes

todavía no tienen mucha experiencia con la lingüística de corpus. Asimismo, como en la

presente tesina pretendemos explorar varias metodologías de lingüística de corpus,

averiguamos si los resultados de esas exploraciones nos permiten incluir dos dimensiones

adicionales en SCAP, concretamente la extracción del vocabulario especializado en forma de

listas de palabras clave y una nivelación automática del corpus.

Page 54: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

46

4 DISEÑO DEL ESTUDIO

4.1 Introducción

Como ya hemos expuesto en la introducción, la parte investigativa de la presente tesina consiste

en dos exploraciones metodológicas separadas, en las cuales partimos de la lingüística de corpus

para investigar tres dimensiones específicas (grado de especificidad; competencia

activa-pasiva; grado de dificultad) de la adquisición y el aprendizaje de vocabulario en L2.

4.2 Diseño y motivación

La primera parte de la investigación se centra en el grado de especificidad del vocabulario, para

lo cual adoptamos el punto de vista de un intérprete/estudiante de interpretación no nativo que

quiere prepararse para interpretar en un contexto especializado. En este sentido, la investigación

bibliográfica nos muestra que ya existen varias técnicas de lingüística de corpus que pretenden

medir el grado de especificidad del vocabulario. Aun así, comprobamos que aún no se ha

intentado combinar varias de esas técnicas y aplicarlas a un corpus concreto para así desarrollar

un método que permita determinar con precisión el grado de especialización del vocabulario.

En este contexto, pretendemos estudiar si %DIFF (Gabrielatos y Marchi, 2011; para determinar

el keyness), y DP (Gries, 2008; para calcular la dispersión) son medidas efectivas para filtrar el

vocabulario especializado de un corpus. De hecho, hemos compilado un corpus incluyendo 74

transcripciones de discursos pronunciados en el mismo contexto especializado, concretamente

el de la junta general de accionistas de empresas españolas. Para el procesamiento del corpus

usamos la herramienta SCAP, que acabamos de presentar en el capítulo 3. Por último, el

objetivo más general de esta parte de la investigación sería desarrollar un método para la

extracción del vocabulario especializado de un corpus que se pueda aplicar también a otros

contextos especializados.

La segunda parte de la investigación se enfoca en la diferencia entre la competencia activa y

pasiva (Exploración metodológica 2.1), además de explorar la asignación automática de un

nivel de dificultad al vocabulario (Exploración metodológica 2.2). De la investigación

bibliográfica se desprende que existen varias interpretaciones de la competencia activa y pasiva,

Page 55: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

47

de las cuales nos interesa sobre todo la clasificación de Nation (2001), que invita a una reflexión

sutil y matizada sobre lo que significa “conocer una palabra”. Además, cabe destacar el método

de asignar un nivel a un elemento léxico en base a listas de frecuencia de corpus, comprobando

su validez mediante una comparación con los niveles propuestos en el MCER (García Salido y

Alonso Ramos, 2018).

En este sentido, llevamos a cabo una encuesta acerca de la competencia activa y pasiva que

presenta una lista de palabras generada mediante SCAP a un grupo de estudiantes ELE del

segundo bachelor y del máster. Primero, presentamos e interpretamos los resultados de la

encuesta, analizando si hay una evolución en la competencia activa y pasiva entre los dos

grupos. De hecho, desarrollamos una clasificación incluyendo cuatro niveles de dificultad,

basándonos en el grado de dominio activo y pasivo indicado por los participantes (self-reported

knowledge). A continuación, llevamos a cabo una regresión logística ordinal en el programa

SPSS para investigar si se pueden enlazar esos niveles de dificultad con una serie de datos “más

accesibles” que los datos obtenidos mediante la encuesta, entre ellos, la frecuencia de

ocurrencia en dos corpus de referencia y la existencia de un cognado en la lengua materna (L1),

es decir, el neerlandés.

Asimismo, queremos informar en forma de epílogo (Exploración 2.3) sobre un experimento

prometedor basado en los datos reunidos en las exploraciones 2.1 y 2.2. En concreto,

pretendemos desarrollar un modelo predictivo basado en el aprendizaje automático que asigne

automáticamente un nivel de dificultad a elementos léxicos de una sola palabra.

Por último, también hemos demostrado en la investigación bibliográfica que existen por lo

menos dos aspectos metodológicos problemáticos que se repiten en la mayoría de los estudios

de ABD y de lingüística de corpus, concretamente la posición predominante del inglés como

L2 y el interés limitado por los corpus especializados. Particularmente el último elemento nos

llama la atención, dado que los corpus especializados de tamaño mediano o pequeño ofrecen la

gran ventaja de permitir al aprendiz consultar múltiples concordancias relevantes (Chambers,

2010). En todo caso, en la presente tesina pretendemos ofrecer una respuesta a esos dos

desafíos, centrándonos en el español como L2 y compilando un corpus especializado como

corpus de estudio.

Page 56: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

48

4.3 Preguntas de investigación

Pretendemos presentar una respuesta a cuatro preguntas de investigación centrales, repartidas

por las dos exploraciones metodológicas separadas como sigue:

1 / ¿%DIFF (para el keyness) y DP (para la dispersión) son medidas efectivas para filtrar las

palabras clave más relevantes de un corpus especializado?

2

2.1 ¿Se nota una evolución entre estudiantes ELE del segundo bachelor y del máster en el

dominio activo y pasivo en cuanto a términos con cierto grado de especificidad?

2.2 ¿Aparte de la frecuencia léxica, qué criterios niveladores son aptos para incluir en un modelo

que predice el nivel de dificultad de elementos léxicos de una sola palabra?

2.3 ¿Podemos predecir con relativa precisión el nivel de dificultad de elementos léxicos de una

sola palabra mediante un modelo de aprendizaje automático?

Tabla 15: Preguntas de investigación

En líneas generales, para contestar a la primera pregunta de investigación, comparamos los

contenidos de una lista de palabras clave generada automáticamente con el juicio de cuatro

profesores expertos. Por lo que respecta a la segunda pregunta, sugerimos una clasificación

incluyendo cuatro niveles de dificultad que permite evaluar fácilmente la evolución entre los

dos grupos. Para dar una respuesta a la tercera pregunta de investigación, nos servimos de la

técnica de la regresión logística ordinal, que nos permite investigar qué criterios niveladores se

pueden integrar en un modelo de nivelación predictivo. A fin de contestar a la última pregunta

de investigación, llevamos a cabo un experimento de aprendizaje automático basado en los

datos reunidos en las exploraciones metodológicas 2.1 y 2.2.

Page 57: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

49

5 EXPLORACIONES METODOLÓGICAS

5.1 Compilación del corpus

5.1.1 Contexto

El corpus reunido en la presente tesina se centra en el ámbito específico de la junta general

(ordinaria) de accionistas, más en particular en los discursos que se pronuncian en este contexto

especializado. Sin embargo, antes de comentar el proceso de la compilación del corpus,

esbozamos brevemente lo que entendemos por el concepto “junta general ordinaria de

accionistas”, basándonos para ello en la Ley de Sociedades de Capital (Agencia Estatal Boletín

Oficial de Estado, 2017). La junta general se celebra una vez al año, dentro de los seis primeros

meses de cada ejercicio, aunque también existe la posibilidad de convocar juntas adicionales,

las llamadas juntas generales extraordinarias. La junta general ordinaria es un órgano de

gobierno que se asocia principalmente con las sociedades capitalistas y que se caracteriza por

su estructura fija, sobre todo en las sociedades anónimas cotizadas en bolsa. En efecto, la

reunión suele organizarse de la siguiente manera (BBVA, s.d.):

1) Convocatoria

2) Establecimiento de la mesa

3) Lista de asistentes

4) Constitución de la junta

5) Desarrollo de la junta

6) Ejercicio del derecho de información de los accionistas

7) Votación

8) Adopción de acuerdos

En este sentido, cabe destacar el punto seis de la lista, ya que representa uno de los principales

objetivos de la junta general desde el punto de vista de los accionistas mismos. Efectivamente,

es una ocasión idónea para informarse de la gestión de la empresa, haciendo preguntas o

pidiendo aclaraciones. Desde el punto de vista de los directores, en cambio, los principales

objetivos de la reunión suelen ser la aprobación de las cuentas anuales, la decisión del destino

de los beneficios (repartir como dividendo y/o guardar como reserva) y la aprobación de

Page 58: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

50

eventuales cambios estatutarios, una serie de actos que se incluyen tradicionalmente en el punto

ocho de la lista.

5.1.2 Recopilación de los textos

Con este campo temático como punto de partida hemos llevado a cabo una búsqueda en línea,

con la intención de encontrar la mayor cantidad de transcripciones correspondientes posible,

aun limitándonos al período 2015-2017. Además, el hecho de que haya un marco legal (véase

la Ley de Sociedades de Capital) nos ha llevado a la decisión de limitar el estudio a empresas

españolas.

En la revisión posterior de los datos provisionales hemos clasificado los textos por sector

económico, de lo cual solo se mantienen los 5 sectores con el mayor número de textos,

concretamente comunicación, construcción, energía, finanzas y transporte. Como

consecuencia, llegamos a un corpus definitivo de 74 transcripciones, todas redactadas en el

español peninsular, que corresponden a un total de 235.295 palabras. A continuación, la Tabla

16 recoge la información más relevante sobre la composición del corpus (véase el Apéndice I

para la documentación completa).

Subcorpus Número de palabras Porcentaje Empresas (número de textos)

Comunicación 61.302 26,05 Atresmedia (6); Mediaset España (6); Prisa

(6); Telefónica (2)

Construcción 44.146 18,76 Acciona (3); Grupo ACS (6); Técnicas

Reunidas (4)

Energía 54.965 23,36 Gamesa (4); Gas Natural Fenosa (2); Red

Eléctrica de España (5); Saeta Yield (3)

Finanzas 58.548 24,88 Bankia (2); Bolsas y Mercados Españoles

(12); Mapfre (4); Santander (2)

Transporte 16.334 6,94 Construcciones y Auxiliar de Ferrocarriles

(1); International Airlines Group (6)

Total 235.295 100 17 (74)

Tabla 16: Composición del corpus

Page 59: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

51

5.1.3 Introducción del corpus en SCAP

Para los detalles de este paso, véase el apartado 3.2.

5.2 Exploración metodológica 1: definir palabras clave

5.2.1 Introducción

La primera perspectiva metodológica consiste en la generación (mediante SCAP) y el análisis

posterior de una lista incluyendo las palabras supuestamente clave del corpus. Primeramente,

cabe señalar que solo estudiamos tres categorías morfológicas, que son los sustantivos (NC),

los verbos (V) y los adjetivos (ADJ), al ser las clases de palabra más comunes que a la vez

tienen un alto valor semántico. Además, repetimos que en esta parte de la investigación

adoptamos el punto de vista de un intérprete/estudiante de interpretación no nativo que quiere

prepararse para interpretar en el contexto especializado de la junta general de accionistas. Por

último, una de las preguntas más pertinentes a la hora de crear listas de palabras clave es en

base a qué criterios se realiza la selección de palabras. En ente sentido, proponemos un método

que va mucho más allá del criterio de la frecuencia léxica, puesto que incluimos también el

percentil de frecuencia y las medidas %DIFF y DP en la metodología. Además, para evaluar la

efectividad de nuestro método, comparamos la lista de palabras clave “final” con el juicio de

cuatro profesores expertos.

5.2.2 Aplicación de %DIFF

El primer paso comprende la aplicación de la medida %DIFF, que volvemos a presentar aquí

abajo, al corpus entero.

%DIFF = (𝑁𝑜𝑟𝑚𝐹𝑟𝑒𝑞 𝑒𝑛 𝑆𝐶−𝑁𝑜𝑟𝑚𝐹𝑟𝑒𝑞 𝑒𝑛 𝑅𝐶) 𝑥 100

𝑁𝑜𝑟𝑚𝐹𝑟𝑒𝑞 𝑒𝑛 𝑅𝐶

NormFreq = frecuencia normalizada

SC = corpus de estudio (study corpus)

RC = corpus de referencia (reference corpus)

Page 60: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

52

Como resultado, obtenemos para cada palabra un valor que indica su grado de especificidad en

nuestro corpus en comparación con el corpus de referencia, un corpus de literatura juvenil de

aproximadamente 7,5 millones de palabras. El valor cuantitativo se debe interpretar como “a la

frecuencia que tiene el elemento en el corpus de referencia, hay que sumar el x%”. Así, por

ejemplo, un elemento que en el corpus de estudio tiene una frecuencia normalizada de 60 y en

el corpus de referencia de 20, tendría un valor %DIFF de 300. Esto se lee como “a la frecuencia

de 20 hay que sumar el 300% de 20, que son 60, y obtenemos 80”.

5.2.3 Aplicación de DP

A continuación, aplicamos la medida DP (Gries, 2008), una fórmula sencilla que mide el grado

de dispersión de cada palabra. Como resultado final, la medida siempre da un número entre

cero y uno, con valores cercanos a cero indicando que la palabra es típica del corpus entero, y

con valores cercanos a uno indicando que la palabra solo ocurre en una parte del corpus. Como

ya se ha mencionado, los cinco sectores económicos (comunicación, construcción, energía,

finanzas y transporte) representan los subgéneros de nuestro corpus de estudio.

5.2.4 Crear listas de palabras clave

En el paso siguiente creamos una lista de las palabras supuestamente clave, aun limitándonos a

las 100 palabras más específicas. Naturalmente, también se puede reducir este número a 50

palabras clave o elaborar una lista más extensa incluyendo 250 términos, por ejemplo. Para

llegar a la lista de 100 palabras, primero excluimos los términos no adecuados según los

siguientes criterios:

Medida Criterio Detalles

percentil ≥ 4 Al manejar este umbral (pertenece a 60-100 de los percentiles del corpus),

solo mantenemos los términos frecuentes.

%DIFF_Sign p = 0,01 Eliminamos cada término cuyo valor %DIFF no es estadísticamente

significativo (p = 0,01) en comparación con el corpus de referencia.

DP ≤ 0,5 Queremos excluir cada palabra que no es típica del corpus entero.

Tabla 17: Criterios lista de palabras clave

Después, ordenamos la lista provisional de mayor a menor valor %DIFF, para poder seleccionar

los términos más específicos. En este sentido, cabe destacar que el proceso de selección se

Page 61: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

53

realiza independientemente de las categorías morfológicas. Por último, para evitar que

disminuya la riqueza semántica de la lista, llevamos a cabo una intervención manual: si

aparecen múltiples términos con la misma raíz léxica, solo mantenemos el candidato más

“idóneo”. Así, por ejemplo, dado que accionista figuraba como NC y como ADJ en la lista,

hemos decidido eliminar la forma adjetival, ya que el sustantivo tiene una frecuencia más alta

en el corpus. De esta manera, obtenemos una lista incluyendo 100 candidatos relevantes para

un primer acercamiento al léxico propio de este género (véase la Tabla 18). Excluyendo la fase

en la cual eliminamos manualmente las mismas raíces léxicas, la creación de esta lista de

palabras clave es un proceso completamente automático, que no requiere ninguna intervención

por parte de un ser humano (salvo la fijación de los umbrales, naturalmente). De hecho, SCAP

podría ampliarse al introducir un diccionario que agrupe las palabras en familias de palabras y

que luego permita hacer la selección de forma automática.

Page 62: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

54

# POS LEMA # POS LEMA # POS LEMA

1 NC dividendo 35 NC filial 68 NC balance

2 NC ratio 36 NC implantación 69 NC coste

3 ADJ sostenible 37 NC crecimiento 70 NC activo

4 ADJ regulatorio 38 NC integración 71 ADJ organizativo

5 NC diversificación 39 NC incremento 72 ADJ diferencial

6 NC endeudamiento 40 ADJ climático 73 NC comisión

7 ADJ normativo 41 NC solvencia 74 NC bono

8 NC liquidez 42 NC contratación 75 ADJ cualitativo

9 NC capitalización 43 NC financiación 76 ADJ impositivo

10 ADJ macroeconómico 44 NC reducción 77 NC gestión

11 NC digitalización 45 NC accionista 78 ADJ global

12 NC sinergia 46 V maximizar 79 NC ampliación

13 NC adjudicación 47 NC reestructuración 80 NC cumplimiento

14 NC volatilidad 48 NC competitividad 81 ADJ precedente

15 NC revalorización 49 NC liderazgo 82 NC reglamento

16 NC vicepresidente 50 NC inversión 83 NC semestre

17 V optimizar 51 NC remuneración 84 ADJ anual

18 NC discapacidad 52 NC consolidación 85 NC contribución

19 NC internacionalización 53 ADJ atribuible 86 NC posicionamiento

20 NC auditoría 54 NC record 87 NC productividad

21 NC devaluación 55 NC cotización 88 ADJ bursátil

22 NC apalancamiento 56 NC mejora 89 ADJ emergente

23 ADJ sectorial 57 NC segmento 90 NC tasa

24 NC ralentización 58 NC déficit 91 NC consecución

25 NC disrupción 59 NC retribución 92 NC desarrollo

26 NC reelección 60 V priorizar 93 NC asignación

27 ADJ coordinador 61 NC ratificación 94 NC trimestre

28 ADJ crediticio 62 NC vencimiento 95 NC euro

29 ADJ mayorista 63 ADJ institucional 96 NC adquisición

30 ADJ geopolítico 64 NC desempeño 97 NC distribución

31 ADJ porcentual 65 ADJ consejero 98 NC innovación

32 ADJ neto 66 NC proveedor 99 ADJ ejecutivo

33 NC rentabilidad 67 NC eficiencia 100 NC junta

34 ADJ corporativo

Tabla 18: Lista de 100 palabras clave

Page 63: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

55

5.2.5 Añadir traducciones a las listas

Antes de seguir, conviene destacar una funcionalidad particular en la versión reciente de SCAP,

más en particular la funcionalidad de traducción. Aunque la metodología actual está orientada

sobre todo al “lenguaje general” y menos a un acercamiento terminológico, la creación de la

lista de 100 palabras clave nos parece una ocasión idónea para demostrar la posible utilidad de

la funcionalidad en cuestión. En concreto, al introducir una lista de palabras, la herramienta

SCAP genera dos archivos: un glosario extenso (que se puede abrir en Microsoft Excel, por

ejemplo) y un glosario breve (que se puede abrir en Microsoft Word, por ejemplo).

El glosario extenso contiene todas las traducciones que la herramienta ha encontrado a través

de Mijnwoordenboek (diccionario de traducción en línea), Vertalen.nu (diccionario de

traducción en línea), DeepL (sistema de traducción automática en línea), Google Translate

(sistema de traducción automática en línea), y ocasionalmente también de Interglot (diccionario

de traducción en línea) e InterActive Terminology for Europe (IATE por sus siglas; la base de

datos terminológica multilingüe de la Unión Europea). Además, para los sustantivos también

se incluye el género. Los resultados van separados en dos columnas:

1) “Traducciones seleccionadas”: aquí se enumeran las traducciones que ocurren en más

de una herramienta

2) “Otras”: aquí se enumeran las demás traducciones encontradas

De hecho, esta funcionalidad nos permite convertir fácilmente una lista de palabras clave en un

glosario de traducción, aunque repetimos que la metodología todavía está orientada al “lenguaje

general”, por lo cual se debe utilizar las traducciones propuestas con cautela. A modo de

ilustración, presentamos una parte del glosario traductivo de nuestra lista de 100 palabras clave

en la Figura 8 (véase el Apéndice VII para el glosario completo):

Page 64: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

56

Figura 8: Traducción de listas de palabras clave_glosario extenso

En el glosario breve solo se dan los resultados de la columna “Traducciones seleccionadas” del

glosario extenso. Cuando no hay, se presentan los resultados de la columna “Otras”, precedidos

de [¿]. He aquí la primera parte del glosario breve de nuestra lista de 100 palabras clave:

Figura 9: Traducción de listas de palabras clave_glosario breve

Page 65: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

57

5.2.6 Comparación con el juicio de profesores ELE

Desde luego, también queremos saber si un intérprete/estudiante de interpretación no nativo

podría utilizar la lista automática (véase la Tabla 18) como glosario en una situación real. Para

realizar este objetivo, creamos un test que permite comparar los contenidos de la lista con la

opinión de cuatro profesores ELE que están familiarizados con la interpretación y/o el contexto

de la junta general de accionistas.

De hecho, a la lista de 100 términos “idóneos” agregamos otros 100 términos “no idóneos”.

Primero, añadimos una serie de palabras frecuentes pero no específicas, que corresponden a los

siguientes criterios:

Medida Criterio Detalles

percentil ≥ 4 Al manejar este umbral (pertenece a 60-100 de los percentiles del

corpus), solo mantenemos los términos frecuentes.

%DIFF_Sign entre 0,01 y

0,05/no

Solo entran en consideración las palabras cuyo valor %DIFF tiene

una significación estadística menor que en la lista idónea (entre 0,01

y 0,05) y las palabras cuyo valor %DIFF no muestra ninguna

diferencia estadísticamente significativa. Así, solo mantenemos los

términos menos/no específicos.

Tabla 19: Criterios términos no idóneos_2

Después, ordenamos la lista provisional de mayor a menor frecuencia y seleccionamos los 50

primeros términos, recogidos en la Tabla 20.

Page 66: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

58

# POS LEMA # POS LEMA

1 V seguir 26 NC entrada

2 ADJ bueno 27 V recibir

3 NC mundo 28 NC papel

4 NC persona 29 NC respuesta

5 NC lugar 30 V apoyar

6 ADJ propio 31 V compartir

7 V conseguir 32 V señalar

8 NC manera 33 V ganar

9 NC caso 34 ADJ enorme

10 ADJ posible 35 V partir

11 ADJ fuerte 36 V confiar

12 V convertir 37 NC orden

13 NC duda 38 NC centro

14 V mostrar 39 NC detalle

15 NC final 40 NC dirección

16 NC historia 41 ADJ real

17 V lograr 42 ADJ profundo

18 ADJ capaz 43 NC peso

19 NC hecho 44 V sufrir

20 NC resto 45 NC estado

21 ADJ claro 46 NC motivo

22 ADJ bajo 47 NC circunstancia

23 ADJ difícil 48 V cubrir

24 NC atención 49 NC cuestión

25 V asegurar 50 V existir

Tabla 20: Lista de 50 términos no idóneos_1

A continuación, añadimos 50 términos específicos (aunque no del corpus entero) pero menos

frecuentes, para lo cual aplicamos los siguientes criterios:

Medida Criterio Detalles

percentil ≤ 3 Al manejar este umbral (< 60% del corpus), solo mantenemos los

términos menos frecuentes.

%DIFF_Sign p = 0,01 Eliminamos cada término cuyo valor %DIFF no es estadísticamente

significativo (p = 0,01) en comparación con el corpus de referencia.

DP > 0,66 Al manejar este umbral, solo mantenemos los términos que son típicos de

un subgénero, y no del corpus entero.

Tabla 21: Criterios términos no idóneos_2

Page 67: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

59

Después, ordenamos la lista provisional de mayor a menor valor %DIFF y seleccionamos los

50 primeros términos, presentados en la Tabla 22.

# POS LEMA # POS LEMA

1 NC referéndum 26 ADJ radioeléctrico

2 NC pyme 27 ADJ supervisor

3 NC recompra 28 NC abaratamiento

4 NC fortalecimiento 29 ADJ actuarial

5 NC biodiversidad 30 NC autoconsumo

6 NC certificación 31 ADJ bituminoso

7 ADJ multiplataforma 32 NC brasil

8 ADJ nominal 33 ADJ curricular

9 NC megavatio 34 NC desaladora

10 NC formulación 35 ADJ desfasador

11 ADJ generalista 36 NC exclusivista

12 NC kilovoltio 37 NC gasificación

13 NC multicanalidad 38 ADJ hidroeléctrico

14 NC petrolera 39 NC homologación

15 NC petroquímica 40 ADJ metanero

16 ADJ reasegurador 41 ADJ minorista

17 NC trillón 42 NC negociado

18 NC viabilidad 43 NC otorgamiento

19 ADJ comercializador 44 ADJ poblacional

20 ADJ consultivo 45 NC reforzamiento

21 NC formalización 46 NC repositorio

22 NC hidrocarburo 47 ADJ secuencial

23 ADJ hipotecario 48 ADJ biocombustible

24 NC inconformismo 49 NC cristalización

25 ADJ operacional 50 NC liberalización

Tabla 22: Lista de 50 términos no idóneos_2

Como resultado obtenemos, pues, una lista incluyendo 100 términos supuestamente idóneos y

100 supuestamente no idóneos, que presentamos a los profesores ELE acompañada de las

siguientes instrucciones:

Estamos trabajando en una de las fases preparatorias para generar automáticamente un

glosario traductivo para estudiantes de interpretación. El glosario debería prepararles para

Page 68: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

60

traducir fragmentos seleccionados de discursos pronunciados en una junta ordinaria de

accionistas (donde se presentan los resultados de la empresa durante el último ejercicio).

Hemos hecho un corpus de este tipo de discursos y extraído todos los elementos léxicos. No se

trata aún de buscar traducciones sino de seleccionar los mejores candidatos para ser

traducidos (evidentemente, no es pertinente hacer un glosario con todas las palabras que

aparecen en el corpus).

Hemos desarrollado un logaritmo que hace una propuesta para seleccionarlos, pero ahora

queremos comparar la propuesta del logaritmo con lo que haría un profesor. Os presentamos

una selección arbitraria de 200 ítems. Ahora bien, para la primera familiarización nos

queremos limitar a 100 ítems típicos del contexto de la junta general (los fragmentos que

traducirán los estudiantes se seleccionarán en función de selección previa de los conceptos).

La tarea consiste en rechazar los términos que no incluirías en el glosario, hasta que el total

sea de 100. La columna "POS" indica si la palabra es un sustantivo (= NC), un verbo (= V) o

un adjetivo (= ADJ).

De esta manera, pretendemos averiguar si la selección automática de 100 palabras corresponde

a la opinión de profesores ELE. Lo ideal sería, por supuesto, que rechazarían los 100 términos

no idóneos, porque significaría que las medidas y criterios utilizados son capaces de extraer el

vocabulario especializado de una manera que en su conjunto no contradice la intuición de

profesores expertos.

5.2.7 Resultados

5.2.7.1 Análisis de los resultados

En la Tabla 23 presentamos los resultados del test: la columna Rechazados_correctos incluye

el número de términos “no idóneos” (véanse la Tabla 20 y la Tabla 22) rechazados por el

participante, mientras que Rechazados_incorrectos visualiza el número de términos “idóneos”

(véase la Tabla 18) rechazados por el participante. En el caso de haber rechazado 100 términos

los valores en las columnas Aprobados_correctos y Aprobados_incorrectos deben equivaler a

los de las columnas Rechazados_correctos y Rechazados_incorrectos: si se rechaza una palabra

erróneamente (correctamente), significa que también se aprobará una palabra erróneamente

Page 69: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

61

(correctamente). Como el participante 2 solo ha rechazado 99 casos, se obtienen valores

ligeramente divergentes. A primera vista, los resultados parecen ser prometedores, con más de

75/100 casos aprobados correctamente de media (véase también la Figura 10).

Rechazados_

correctos

(/100)

Rechazados_

incorrectos

(/100)

Aprobados_

correctos

(/100)

Aprobados_

incorrectos

(/100)

Número de términos

rechazados

P1 81 19 81 19 100

P2 72 27 73 28 99

P3 71 29 71 29 100

P4 81 19 81 19 100

Promedio 76,25 23,5 76,5 23,75 99,75

Tabla 23: Resultados1 test_%DIFF_DP

Figura 10: Términos aprobados en test_%DIFF_DP

Analizando los resultados más en profundidad, estudiamos la medida en la cual el juicio de los

profesores expertos corresponde el uno al otro (véanse la Tabla 24 y la Figura 11): la fila 4/4

presenta el número de casos en que cada uno de los cuatro profesores tiene la misma opinión y

la fila 3/4 visualiza el número de casos en que tres de los cuatro piensan igual. La columna

Rechazados_correctos incluye el número de términos “no idóneos” rechazados;

Rechazados_incorrectos contiene el número de términos “idóneos” rechazados;

Aprobados_correctos incluye el número de términos “idóneos” aprobados (= no rechazados);

y Aprobados_incorrectos recoge el número de términos “no idóneos” aprobados (= no

rechazados). Cabe destacar que aquí los valores de las columnas Rechazados_correctos y

Rechazados_incorrectos no necesariamente deben corresponder a los de Aprobados_correctos

Page 70: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

62

y Aprobados_incorrectos: si cuatro de los cuatro profesores rechazan una palabra

correctamente (erróneamente) no significa necesariamente que cuatro de los cuatro también

aprueben una palabra correctamente (erróneamente), por ejemplo.

Rechazados_

correctos

(/100)

Rechazados_

incorrectos

(/100)

Aprobados_

correctos

(/100)

Aprobados_

incorrectos

(/100)

4/4 54 3 50 5

3/4 19 11 23 12

Por lo menos 3/4 73 14 73 17

Tabla 24: Resultados2 test_%DIFF_DP

Figura 11: Resultados2 test_%DIFF_DP (gráfico)

Comprobamos que 54 de los 100 términos no idóneos se identifican unánimemente como no

específicos del contexto de la junta general de accionistas (= 54/100 casos rechazados

correctamente), un número que sube a 73 al agregar los casos en que tres de los cuatro

profesores ELE indican que rechazarían el término. Además, el número de casos rechazados y

aprobados erróneamente es bastante limitado (respectivamente 14/100 y 17/100 casos en que

por lo menos tres de los cuatro participantes comparten la misma opinión).

De cara a la evaluación de la lista creada en el apartado 5.2.4, nos interesa sobre todo la columna

Aprobados_correctos. Resulta que la mitad de los términos idóneos se consideran

unánimemente como adecuados para incluir en un glosario de traducción para estudiantes de

interpretación (= 50/100 casos aprobados correctamente), un número que asciende a 73 (véase

Page 71: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

63

la Tabla 25 para la lista completa) cuando añadimos los casos en que tres de los cuatro

profesores indican que no rechazarían el término idóneo. Dicho de otro modo, basándonos en

el juicio de profesores expertos, casi el 75% de la lista de palabras clave generada mediante

%DIFF y DP es (en gran parte) adecuado para incluir en un glosario que recoge el vocabulario

específico del contexto especializado de la junta general.

Page 72: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

64

# POS LEMA .../4 # POS LEMA .../4

1 NC accionista 3/4 38 NC internacionalización 3/4

2 NC activo 4/4 39 NC inversión 4/4

3 NC adjudicación 4/4 40 NC junta 4/4

4 NC adquisición 3/4 41 NC liquidez 4/4

5 ADJ atribuible 3/4 42 ADJ macroeconómico 3/4

6 NC auditoría 4/4 43 V maximizar 4/4

7 NC balance 4/4 44 ADJ mayorista 4/4

8 NC bono 4/4 45 NC mejora 3/4

9 ADJ bursátil 4/4 46 ADJ neto 3/4

10 NC capitalización 4/4 47 ADJ normativo 3/4

11 NC comisión 3/4 48 V optimizar 4/4

12 NC competitividad 4/4 49 ADJ organizativo 3/4

13 ADJ consejero 4/4 50 ADJ porcentual 3/4

14 NC consolidación 3/4 51 NC posicionamiento 4/4

15 NC contratación 4/4 52 V priorizar 3/4

16 NC contribución 3/4 53 NC productividad 4/4

17 ADJ corporativo 4/4 54 NC proveedor 4/4

18 NC coste 4/4 55 NC ralentización 3/4

19 NC cotización 4/4 56 NC ratificación 4/4

20 NC crecimiento 3/4 57 NC ratio 4/4

21 ADJ crediticio 4/4 58 NC reducción 4/4

22 NC déficit 4/4 59 NC reestructuración 4/4

23 NC desempeño 3/4 60 ADJ regulatorio 4/4

24 NC devaluación 4/4 61 NC remuneración 4/4

25 ADJ diferencial 3/4 62 NC rentabilidad 4/4

26 NC disrupción 3/4 63 NC retribución 4/4

27 NC distribución 4/4 64 NC revalorización 4/4

28 NC diversificación 4/4 65 ADJ sectorial 3/4

29 NC dividendo 4/4 66 NC sinergia 3/4

30 NC eficiencia 3/4 67 NC solvencia 4/4

31 ADJ ejecutivo 4/4 68 ADJ sostenible 4/4

32 NC endeudamiento 4/4 69 NC tasa 4/4

33 NC filial 4/4 70 NC trimestre 3/4

34 NC financiación 4/4 71 NC vencimiento 4/4

35 NC gestión 4/4 72 NC vicepresidente 4/4

36 ADJ impositivo 4/4 73 NC volatilidad 4/4

37 NC incremento 4/4

Tabla 25: Lista de términos aprobados correctamente por al menos 3/4 de los participantes

Por último, es pertinente analizar más en detalle los casos evaluados de forma errónea por los

profesores ELE. Primero, consideramos en la Tabla 26 los términos no idóneos que se han

Page 73: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

65

aprobado (= que no se han rechazado). Llama la atención que solo 2 de los 17 elementos léxicos

(convertir; dirección) vienen de la lista incluyendo palabras frecuentes pero no específicas y

que, además, en ninguno de los dos casos los profesores todos comparten la misma opinión.

Los demás términos de la lista son, pues, palabras específicas (aunque no del corpus entero)

pero menos frecuentes, lo cual significa que una frecuencia de ocurrencia relativamente baja no

impide necesariamente que un determinado término pueda incluirse en una lista de palabras

clave, siempre y cuando el término tenga un valor %DIFF alto y estadísticamente significativo.

Además, nos lleva a concluir que palabras con un valor DP alto (> 0,66) a veces sí pueden

considerarse como típicas del género, y no necesariamente de un determinado subgénero. Sin

embargo, cabe señalar que el valor DP alto de, por ejemplo, minorista, nominal, pyme y

viabilidad también se podría explicar en parte por el tamaño de nuestro corpus (tamaño medio).

Si bien es cierto que en la fórmula DP las frecuencias son normalizadas, en los corpus de tamaño

pequeño o medio formados por varios subcorpus puede que palabras más bien generales con

una frecuencia relativamente baja ocurran por casualidad más en una parte del corpus que en

otra.

# POS LEMA .../4 Lista # POS LEMA .../4 Lista

1 NC certificación 4/4 2 10 ADJ nominal 4/4 2

2 ADJ consultivo 3/4 2 11 ADJ operacional 3/4 2

3 V convertir 3/4 1 12 NC otorgamiento 3/4 2

4 NC dirección 3/4 1 13 NC pyme 4/4 2

5 NC formalización 3/4 2 14 ADJ reasegurador 3/4 2

6 ADJ hipotecario 3/4 2 15 NC recompra 3/4 2

7 NC liberalización 3/4 2 16 ADJ supervisor 3/4 2

8 ADJ minorista 4/4 2 17 NC viabilidad 4/4 2

9 NC negociado 3/4 2

Tabla 26: Lista de términos aprobados erróneamente por al menos 3/4 de los participantes

Leyenda:

Lista 1 = Términos frecuentes pero no específicos

Lista 2 = Términos específicos (aunque no del corpus entero) pero menos frecuentes

La Tabla 27 recoge los términos idóneos que se han rechazado. Primeramente, cabe destacar

que solo 3 de los 14 ítems (climático; geopolítico; precedente) han sido rechazados

unánimemente. Asimismo, la mayoría de las palabras parece ser terminología que se puede

utilizar perfectamente en un contexto económico pero que es demasiado general para incluir en

un glosario sobre la junta general de accionistas (p.ej. anual; cualitativo; desarrollo; euro).

Page 74: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

66

Climático, digitalización y geopolítico, en cambio, no son palabras que le surjan a uno

espontáneamente al describir el contexto de la junta general de accionistas, sino que el clima,

la digitalización y la política son más bien factores que pueden influir indirectamente en las

actividades de una empresa. Apalancamiento (leveraging), por último, quizá sea un término

demasiado especializado en opinión de los profesores.

A fin de evitar que se incluyan términos demasiado generales y/o especializados en la lista, se

puede añadir un quinto criterio aparte de las medidas %DIFF y DP, la frecuencia de ocurrencia

y el percentil de frecuencia: el grado de dificultad. Al averiguar si figuran en los diccionarios

ELE Thematische Woordenschat y PortaVoces, comprobamos que varios términos de la Tabla

27 tienen un nivel “básico”:

Thematische Woordenschat: anual; climático; euro; precedente

PortaVoces: desarrollo; euro; global; precedente

Además, apalancamiento no figura en Thematische Woordenschat ni en PortaVoces, lo cual

puede sugerir un nivel de dificultad bastante alto. Teniendo en cuenta esta información, se

podría optar por excluir cada término que tiene un nivel “básico” en ambos diccionarios, por

ejemplo, o por lo menos acompañar cada elemento de la lista de una indicación de su grado de

dificultad.

# POS LEMA .../4 # POS LEMA .../4

1 ADJ anual 3/4 8 NC digitalización 3/4

2 NC apalancamiento 3/4 9 NC discapacidad 3/4

3 ADJ climático 4/4 10 NC euro 3/4

4 NC consecución 3/4 11 ADJ geopolítico 4/4

5 ADJ cualitativo 3/4 12 ADJ global 3/4

6 NC cumplimiento 3/4 13 ADJ precedente 4/4

7 NC desarrollo 3/4 14 NC record 3/4

Tabla 27: Lista de términos rechazados erróneamente por al menos 3/4 de los participantes

5.2.7.2 Interpretación de los resultados

El test ha demostrado que los contenidos de la lista de 100 palabras clave creada prácticamente

de forma automática son adecuados y relevantes. Comparando la lista con el juicio de cuatro

profesores expertos, resulta que incluirían 76,5 de los 100 términos de media en un glosario

Page 75: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

67

sobre el contexto especializado de la junta general de accionistas. Además, analizando los

resultados con más profundidad, comprobamos que 73 de los 100 términos han sido aprobados

correctamente por al menos tres de los cuatro profesores, mientras que solo 17 de los 100 han

sido rechazados erróneamente por al menos tres de los cuatro.

Sin embargo, la metodología aplicada sigue siendo susceptible de mejoras. Así, por ejemplo,

se puede incluir el criterio del grado de dificultad en el proceso de selección, basándose en los

niveles propuestos en diccionarios ELE como Thematische Woordenschat y PortaVoces o en

un modelo de nivelación automática, como pretendemos desarrollar en la Exploración

metodológica 2.3.

Además, cabe enfatizar que existen múltiples puntos de partida posibles para crear listas de

palabras clave. Así, nosotros hemos optado por centrarnos en primer lugar en los valores

%DIFF y DP, seleccionando los ítems independientemente de su categoría morfológica. Sin

embargo, también se podría partir de los sustantivos para elaborar listas de palabras clave, por

ejemplo. La idea subyacente aquí sería que los sustantivos constituyen el núcleo del vocabulario

en un corpus especializado, considerándolos como los elementos esenciales que definen los

conceptos principales del tema. De hecho, en base a una lista de los x sustantivos más

específicos se puede llevar a cabo un query mediante SCAP que visualiza todos los verbos y/o

adjetivos que se combinan con esos sustantivos (véase el apartado 3.3.1 para una descripción

detallada de este tipo de búsqueda mediante SCAP). Después, se pueden seleccionar los verbos

y/o adjetivos que más se combinan con los sustantivos e incluirlos también en la lista de

palabras clave. Así, se obtiene como resultado final una lista que se centra en los conceptos

principales del tema (representados por la lista con los sustantivos más específicos)

acompañados de las actividades y relaciones que evocan (representadas por los verbos

seleccionados), y/o de las características y asociaciones más comunes que presentan

(representadas por los adjetivos seleccionados).

Asimismo, dada la relativa alta calidad de nuestra lista de 100 palabras clave, llegamos a la

conclusión de que la lingüística de corpus es un medio adecuado para crear output relevante

que se centra principalmente en la dimensión del grado de especificidad del vocabulario.

Además, podemos relacionar el concepto de una lista de palabras clave con la instrucción

enfocada en la palabra (word-focused instruction; Laufer [2010]), una técnica de instrucción

cuya efectividad ha sido corroborada empíricamente (véanse Laufer 2003; 2005a; 2005b).

Page 76: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

68

Concretamente, se puede definir una lista de palabras clave como una actividad de FonFs

intencional, un tipo de tarea en que se presta especial atención a una serie de elementos léxicos

con el objetivo de memorizarlos. Por último, volviendo sobre el punto de partida de esta

exploración metodológica, concluimos que la lista de 100 palabras clave puede ser

efectivamente de ayuda a un intérprete/estudiante de interpretación no nativo que quiere

prepararse para interpretar en el contexto especializado de la junta general de accionistas.

5.3 Exploración metodológica 2.1: la encuesta

5.3.1 Organización de la encuesta

Como ya hemos expuesto anteriormente, la segunda exploración metodológica considera la

competencia activa-pasiva en combinación con el grado de dificultad del vocabulario. Para la

primera fase de esta perspectiva metodológica hemos elaborado una encuesta: presentamos una

lista de palabras a un grupo de 22 estudiantes del segundo bachelor inscritos en la carrera

Lingüística Aplicada en la Universidad de Gante, así como a un grupo de 21 estudiantes del

máster de la misma carrera. Cada uno de los estudiantes estudia el español como una de sus L2,

teniendo en cuenta que el currículo de la carrera comprende el neerlandés como L1 y dos

idiomas extranjeros como L2.

En esta parte de la investigación utilizamos el mismo corpus que en la parte anterior. Volvemos

a destacar que abordamos el tema desde la perspectiva de un profesor ELE que está preparando

una clase de vocabulario sobre un determinado tema y que quiere enterarse de qué términos los

estudiantes dominan activamente, qué términos dominan pasivamente y qué términos no

conocen.

Por lo que respecta al contenido de la lista de palabras, llevamos a cabo una selección específica

mediante SCAP que corresponde a los pasos presentados aquí abajo. Así, pretendemos llegar a

una lista provisional extensa que solo incluye las palabras con cierto grado de dificultad y

especificidad.

Page 77: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

69

1) Asignación de niveles basada en Thematische Woordenschat (básico; intermedio;

nuevo): solo entran en consideración las palabras nuevas

2) Especificidad: solo entran en consideración las palabras supuestamente específicas y

frecuentes tras un análisis superficial (que consiste en una comparación de los

percentiles en que figura la palabra en nuestro corpus y en un corpus de referencia)

mediante SCAP

3) Pctil (0/1/2/3/4/5): solo entran en consideración las palabras con una puntuación de

percentil ≥ 3 (≥ 40% de las palabras con más de una ocurrencia)

Tras estos tres pasos, obtuvimos una lista provisional incluyendo 505 NC, 213 V y 264 ADJ,

de la cual, en consulta con el tutor, ya pudimos excluir 104 NC, 92 V y 81 ADJ, puesto que

solapan con una encuesta similar ya llevada a cabo por el tutor. El paso final, por último,

consiste en una revisión cualitativa de la nueva lista provisional, eliminando esencialmente los

sustantivos deverbales evidentes (por ejemplo: aceleración; actuación; adaptación) y la

mayoría de las palabras de origen inglés (por ejemplo: online; ranking; rating). De hecho, la

razón por su exclusión radica en el hecho de que, en cuanto a los sustantivos deverbales, la

relación con el verbo sea tan clara que no tiene mucho sentido incluir tanto el verbo como el

sustantivo, ya que si uno conoce el verbo, es más que probable que también conoce el sustantivo

derivado. Por lo que se refiere a las palabras inglesas, las excluimos por el mero hecho de que

SCAP las etiquete por definición como “nuevo”, ya que no figuran palabras inglesas en el

diccionario ELE Thematische Woordenschat. Así, llegamos a una selección definitiva de 230

NC, 119 V y 182 ADJ que comprende las palabras “nuevas”, especializadas y frecuentes pero

que excluye los elementos demasiado evidentes.

A continuación, en la encuesta misma, se les pide a los participantes que definan su “grado de

conocimiento” de cada palabra: si la conocen activamente (2), si la conocen pasivamente (1) o

si no la conocen (0). En la Tabla 28 presentamos las explicaciones correspondientes, que van

incluidas en la parte introductoria de la encuesta.

2 ACT creo que utilizaría esta palabra si me hiciera falta

1 PAS entiendo la palabra pero no creo que lo utilizaría espontáneamente si me hiciera falta

0 NO no entiendo la palabra y consultaría un diccionario para entenderla o para traducirla

Tabla 28: Explicaciones “grado de conocimiento” encuesta

Page 78: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

70

Para reducir la longitud de la encuesta, hemos creado tres versiones, repartiendo las palabras

alfabéticamente por tres documentos separados. Efectivamente, así hemos podido garantizar

que haya por lo menos siete respuestas por palabra, sin que los participantes tuvieran que

rellenar un documento larguísimo. A modo de resumen, he aquí una tabla que presenta el

número de sustantivos (NC), verbos (V) y adjetivos (ADJ) incluidos, así como el número de

participantes por documento (para la versión completa de los documentos véanse el Apéndice

IX, X y XI).

Documento NC V ADJ Participantes segundo bachelor Participantes máster

1 77 40 61 8 7

2 76 40 61 7 7

3 77 39 60 7 7

Total 230 119 182 22 21

Tabla 29: Número de palabras y participantes encuesta

5.3.2 Procesamiento de los resultados

A continuación, calculamos los siguientes cuatro valores, que dan un resultado entre 0 y 1:

1) ACT = (número de veces que los participantes han indicado 2) / (número de

participantes)

2) PAS (1+2) = (número de veces que los participantes han indicado 1 + número de veces

que los participantes han indicado 2) / (número de participantes)

3) PAS (0+1) = (número de veces que los participantes han indicado 0 + número de veces

que los participantes han indicado 1) / (número de participantes)

4) NO = (número de veces que los participantes han indicado 0) / (número de participantes)

Para ilustrar este método, incluimos 4 ejemplos en la Tabla 30, sacados del documento 2 en el

segundo bachelor:

Page 79: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

71

LEMA P1 P2 P3 P4 P5 P6 P7 ACT PAS (1+2) PAS (0+1) NO

eficiencia 1 2 2 2 2 2 2 0,86 1,00 0,14 0,00

estándar 2 0 0 2 1 1 2 0,43 0,71 0,57 0,29

emprendedor 1 0 0 1 1 0 0 0,00 0,43 1,00 0,57

endeudamiento 0 0 0 1 0 0 0 0,00 0,14 1,00 0,86

Tabla 30: Valores encuesta_ejemplos

En base a esos valores, creamos 4 categorías que representan todas un grado de dominio, que a

la vez se puede considerar como un nivel de dificultad. Así, obtenemos una clasificación que

refleja el continuo del dominio activo (nivel 1) hasta el “no dominio” (nivel 4), con una zona

de conocimiento pasivo (niveles 2 y 3) entre los dos extremos. En otras palabras, es una

clasificación que ordena los términos de “fácil” a “difícil” en base a datos empíricos sobre el

grado de dominio de los participantes. En este sentido, cabe destacar que la categorización está

basada en self-reported knowledge, es decir, el grado de conocimiento indicado por los

estudiantes mismos.

Nivel ACT PAS NO Ejemplo

1 ≥ 0,66 / / eficiencia

2 < 0,66 PAS (1+2) > PAS (0+1) < 0,66 estándar

3 < 0,66 PAS (1+2) ≤ PAS (0+1) < 0,66 emprendedor

4 / / ≥ 0,66 endeudamiento

Tabla 31: Niveles encuesta_1

Opinamos que si por lo menos dos tercios de los participantes indican que conocen la palabra

activamente, pertenece al nivel 1. Asimismo, si por lo menos dos tercios de los participantes

señalan que no conocen la palabra, colocamos el término en la categoría de nivel 4. Sobre todas

las demás palabras opinamos que tienden al grupo general del dominio pasivo, que abarca los

niveles 2 y 3. De hecho, cada término cuyo valor de PAS (1+2) es superior al valor de PAS

(0+1) pertenece al nivel 2, mientras que el nivel 3 incluye cada término cuyo valor de PAS

(0+1) es igual o superior al valor de PAS (1+2).

Page 80: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

72

5.3.3 Resultados

5.3.3.1 Introducción

Repetimos que la encuesta contiene palabras que se han sacado de un corpus incluyendo

discursos pronunciados en juntas generales de accionistas y que, además, poseen cierto grado

de especificidad y de dificultad (véase el apartado 5.3.1).

5.3.3.2 Análisis de los resultados

Empezamos por destacar las observaciones más llamativas a la hora de comparar las tres

categorías morfológicas (NC; V; ADJ) entre sí (véanse la Tabla 32 y la Figura 12).

Comentamos, respectivamente, los resultados del segundo bachelor (Ba2), los resultados del

máster y la comparación entre ambos grupos (para las listas completas véanse el Apéndice XII

y XIII).

POS Grupo Nivel 1 Nivel 2 Nivel 3 Nivel 4

NC (230)

Ba2 75

32,61%

55

23,91%

58

25,22%

42

18,26%

máster 125

54,35%

47

20,43%

42

18,26%

16

6,96%

V (119)

Ba2 47

39,50%

28

23,53%

26

21,85%

18

15,13%

máster 79

66,39%

19

15,97%

15

12,61%

6

5,04%

ADJ (182)

Ba2 56

30,77%

49

26,92%

52

28,57%

25

13,74%

máster 100

54,95%

42

23,08%

34

18,68%

6

3,30%

Tabla 32: Resultados encuesta_comparación NC/V/ADJ

Page 81: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

73

Figura 12: Resultados encuesta_comparación NC/V/ADJ (gráfico)

Segundo bachelor (Ba2): Primeramente, cabe observar que las categorías del dominio pasivo

(nivel 2 y nivel 3) corresponden a un porcentaje cercano al 25% en cada una de las tres

categorías morfológicas, lo cual significa que las dos categorías pasivas juntas equivalen a más

o menos la mitad de los términos (NC: el 49,13%; V: el 45,38%; ADJ: el 55,49%). Además,

comparando las dos categorías extremas, es decir, los niveles 1 y 4, resulta que aquélla es la

más grande en toda categoría morfológica. Sin embargo, el dominio activo es lo más alto en el

caso de los verbos, con un porcentaje que casi alcanza el 40%. Por último, juntando las dos

últimas categorías, que incluyen las palabras que no se conocen bien, observamos que los

sustantivos representan el valor más alto (el 43,48%), seguido de los adjetivos (el 42,31%) y

los verbos (el 36,98%). Resumiendo, los verbos se conocen mejor de manera activa, mientras

que las categorías de competencia pasiva (nivel 2 y nivel 3) son similares para cada una de las

tres categorías morfológicas. Asimismo, los sustantivos parecen suponer el desafío más grande,

aunque la diferencia con los adjetivos es bastante limitada.

Máster: Lo primero que llama la atención es que la competencia activa (nivel 1) supera el 50%,

y en el caso de los verbos este porcentaje incluso asciende al 66,39%. A continuación,

observamos que la proporción de términos que no se conocen del todo (nivel 4) oscila entre el

3% y el 7%, mientras que el conjunto de las dos primeras categorías, que incluyen las palabras

que se conocen bastante hasta muy bien, suman el 74,78% para los sustantivos; el 78,03% para

los adjetivos; e incluso el 82,36% para los verbos. Sin embargo, lo anterior también implica que

el 25,22% de los sustantivos todavía pertenece a los niveles 3 y 4, frente al 17,65% y el 21,98%

Page 82: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

74

de los verbos y los adjetivos, respectivamente. En conclusión, los participantes conocen la

mayoría de los términos de manera activa, en particular si sumamos los porcentajes de nivel 1

y nivel 2. No obstante, comprobamos que el dominio de un 25% de los sustantivos es bastante

limitado, lo cual representa el valor más alto de las tres categorías morfológicas.

Ba2 versus máster: De los comentarios anteriores ya se puede deducir que en el máster los

sustantivos siguen siendo el reto más grande, si bien es cierto que la suma de nivel 3 y nivel 4

baja del 43,5% al 25%. Asimismo, comprobamos que, en cada una de las tres categorías

morfológicas, las categorías nivel 2, nivel 3 y nivel 4 experimentan una bajada sustancial en los

resultados del máster, mientras que en la primera categoría se produce un aumento. Para

averiguar si existe una diferencia significativa entre las categorías morfológicas en la evolución

del segundo bachelor al máster, llevamos a cabo una prueba de los rangos con signo de

Wilcoxon (Wilcoxon signed-rank test). Contrariamente al t-test para muestras pareadas (paired

samples t-test), esta prueba no supone la normalidad de las muestras y se puede aplicar sin

ningún problema a una variable ordinal (una variable que no representa un continuo, pero en la

cual sí se puede distinguir un orden, véase el apartado 5.4.2 para una explicación más detallada).

Como resultado, la prueba revela la misma tendencia: los sustantivos, los verbos y los adjetivos

todos muestran una diferencia estadísticamente significativa entre los dos grupos. En otras

palabras, no podemos concluir que haya una diferencia considerable entre las tres categorías

morfológicas entre sí en cuanto a la evolución en los niveles.

A continuación, juntamos las tres categorías morfológicas en la Tabla 33 (véase también la

Figura 13), que visualiza claramente las diferencias en los resultados del Ba2 y los del máster:

una bajada del 67% en nivel 4; una caída del 33% en nivel 3; un descenso del 18% en nivel 2;

y, por último, un aumento del 71% en cuanto a los términos que se conocen activamente. En

este sentido, la prueba de los rangos con signo de Wilcoxon revela que la evolución del Ba2 al

máster es estadísticamente significativa: los estudiantes del máster han adquirido efectivamente

un mayor dominio de los elementos léxicos.

Page 83: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

75

POS Grupo Nivel 1 Nivel 2 Nivel 3 Nivel 4

NC + V + ADJ

(531)

Ba2 178

33,52%

132

24,86%

136

25,61%

85

16,01%

diferencia +71% -18% -33% -67%

máster 304

57,25%

108

20,34%

91

17,14%

28

5,27%

Tabla 33: Resultados encuesta_resumen evolución Ba2 > máster

Figura 13: Resultados encuesta_resumen evolución Ba2 > máster (gráfico)

Sin embargo, estos datos no dicen nada sobre qué términos cambian de categoría y, sobre todo,

entre qué categorías se realiza ese cambio. Por esta razón, llevamos a cabo un análisis más

profundo de los datos (véase la Tabla 34).

Page 84: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

76

máster

Ba2 Nivel 1 Nivel 2 Nivel 3 Nivel 4 Total Ba2

Nivel 1 171

(71-47-53)

7

(4-0-3) 0 0

178

(75-47-56)

Nivel 2 87

(37-20-30)

37

(15-7-15)

8

(3-1-4) 0

132

(55-28-49)

Nivel 3 42

(16-10-16)

45

(19-7-19)

48

(22-9-17)

1

(1-0-0)

136

(58-26-52)

Nivel 4 4

(1-2-1)

19

(9-5-5)

35

(17-5-13)

27

(15-6-6)

85

(42-18-25)

Total máster 304

(125-79-100)

108

(47-19-42)

91

(42-15-34)

28

(16-6-6)

531

531

Tabla 34: Resultados encuesta_cambios en nivel Ba2 > máster

Leyenda:

Fondo blanco = statu quo en el nivel

Fondo en gris claro = aumento en el nivel

Fondo en gris oscuro = descenso en el nivel

Valores entre paréntesis = (#NC - #V - #ADJ)

Primeramente, observamos que dos tercios (87 sobre un total de 132) de los términos en nivel

2 pasan a nivel 1 cuando los participantes llegan al máster. Además, resulta que una vez que

una palabra alcanza el dominio activo (nivel 1), se mantiene a ese nivel, dado que solo 7 de los

178 términos (ficción, fundación, junta, resolución [NC]; innumerable, metálico, previsible

[ADJ]) no siguen en nivel 1, al bajar a nivel 2. A continuación, se nota que un número

considerable de términos en nivel 3 asciende a un nivel más alto en el máster: 45 términos (e.o.

liquidez, ratio [NC]; presidir, revalorizar [V]; directivo, estatutario [ADJ]) pasan a nivel 2 y

42 (e.o. cláusula, consejero [NC]; ceder, vincular [V]; ejecutivo, viable [ADJ]) a nivel 1, lo

cual corresponde a un total de 87 palabras sobre 136 (un 65%). Por último, también en nivel 4

se realizan cambios sustanciales: 35 términos (e.o. accionariado, reparto [NC]; arrojar, avalar

[V]; tarifario, volátil [ADJ]) llegan a nivel 3, 19 (e.o. endeudamiento, volatilidad [NC]; cotizar,

otorgar [V]; bursátil, vigente [ADJ]) a nivel 2 y otros 4 (austeridad [NC]; destacar, ocultar

[V]; imprescindible [ADJ]) a nivel 1, es decir, que un 70% asciende por lo menos un nivel.

Page 85: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

77

A continuación, desde un punto de vista didáctico es pertinente considerar los términos en las

dos últimas categorías que no muestran ninguna evolución (véase la Tabla 35), ya que parecen

suponer bastantes dificultades para los participantes de ambos grupos. Si bien es cierto que la

tabla incluye unas palabras bastante específicas (p.ej. pyme; saeta; superávit), también contiene

términos más generales. Efectivamente, basándonos en el diccionario ELE PortaVoces como

punto de referencia para destacar esas palabras más generales, resulta que 24 términos entran

en consideración: 2 de nivel básico (en itálica) y 22 de nivel avanzado (en negrita). En otras

palabras, esta información nos permite deducir en qué términos quizá se debería invertir más

tiempo en clases de vocabulario ELE (sobre temas económicos).

Categoría POS Términos

Nivel 3 = Nivel 3

(48)

NC

anunciante; autocartera; contratista; creces; cuantía; disrupción; dividendo;

eficacia; emprendedor; espectro; franquicia; ganancia; hidráulica;

interconexión; libra; reaseguro; recompra; regulador; reporte; toma;

trayectoria; vector

V adjudicar; aglutinar; descontar; diversificar; estrenar; implantar;

materializar; reiterar; rendir

ADJ

dominical; envidiable; fertilizante; generador; impositivo; íntegro;

interanual; multicanal; multiplataforma; plurianual; presupuestario;

procesal; reasegurador; retributivo; siniestro; societario; termosolar

Nivel 4 = Nivel 4

(27)

NC

adjudicatario; desapalancamiento; inflexión; lustro; nómina; palanca;

patrocinio; pyme; repunte; saeta; siniestralidad; subasta; subestación;

superávit; trienio

V acometer; aunar; recaudar; refrendar; roer; timar

ADJ exento; fotovoltaico; gerencial; ingente; matinal; vial

Tabla 35: Resultados encuesta_statu quo en nivel

A este cuadro se ha de añadir una observación: la presencia del verbo timar se debe a un error

en la fase del etiquetado gramatical, ya que el etiquetador ha considerado erróneamente la

palabra inglesa “time” como una forma del subjuntivo presente del verbo “timar”. Por esta

razón, lo borramos de la lista.

Por último, recogemos en la Tabla 36 los términos que presentan una regresión de nivel:

Page 86: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

78

Categoría POS Términos

Nivel 1 > Nivel 2 (7)

NC ficción; fundación; junta; resolución

V /

ADJ innumerable; metálico; previsible

Nivel 2 > Nivel 3 (8)

NC fósil; repaso; voluntariado

V retribuir

ADJ fósil; operador; radioeléctrico; televisivo

Nivel 3 > Nivel 4 (1)

NC acierto

V /

ADJ /

Tabla 36: Resultados encuesta_regresión de nivel

5.3.3.3 Interpretación de los resultados

Primeramente, quisiéramos enfatizar que se debe considerar el posible valor didáctico de los

resultados de la encuesta en una perspectiva suficientemente amplia. Efectivamente, el

vocabulario no es algo que se adquiera y aprenda exclusivamente en un ambiente escolar, sino

que también se llega a conocer nuevas palabras durante una estancia en el extranjero, mediante

contactos sociales internacionales, al leer textos en L2 fuera de clase, etc.

En cualquier caso, la encuesta nos ofrece una perspectiva concreta que permite evaluar en

profundidad la evolución en el grado de dominio de las palabras. Así, comparando el Ba2 con

el máster mediante la clasificación de cuatro niveles de dominio (dificultad), hemos encontrado

una evolución estadísticamente significativa hacia un conocimiento más profundo de los

elementos léxicos en el máster. Además, en ambos grupos los sustantivos parecen suponer un

reto ligeramente más grande que los verbos y los adjetivos en cuanto a llegar a un grado de

dominio de nivel 1 o nivel 2. Asimismo, vemos que el dominio activo es lo más alto en el caso

de los verbos. Por último, también hemos podido identificar las palabras que no muestran

ninguna evolución o incluso una regresión en el grado de dominio, lo cual representa

información relevante desde un punto de vista didáctico.

No obstante, el método de hacer encuestas conlleva varias limitaciones. Es un proceso laborioso

que solo permite estudiar un número limitado de elementos léxicos. En este sentido, tendríamos

que ser capaces de predecir el nivel de palabras en base a datos que son accesibles más

fácilmente, lo cual investigamos en las Exploraciones metodológicas 2.2 y 2.3.

Page 87: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

79

5.3.4 Nivelación en base a los valores medios

Como ya se ha mencionado, en esta segunda parte investigativa de la tesina partimos de la

perspectiva de un profesor ELE que quiere saber qué términos los estudiantes dominan

activamente, qué términos dominan pasivamente y qué términos no conocen del todo.

Supongamos que ese profesor da clase en el tercer bachelor (Ba3): en base a los datos que

tenemos a nuestra disposición (dos valores distintos por palabra de la encuesta, uno del Ba2 y

uno del máster) también podemos desarrollar una metodología que ofrece un “nivel

intermedio”, es decir, un nivel de dominio (dificultad) para el Ba3. Para realizar este objetivo,

calculamos los promedios de nuestros cuatro valores principales:

1) ACT = (número de veces que los participantes han indicado 2) / (número de

participantes)

2) PAS (1+2) = (número de veces que los participantes han indicado 1 + número de veces

que los participantes han indicado 2) / (número de participantes)

3) PAS (0+1) = (número de veces que los participantes han indicado 0 + número de veces

que los participantes han indicado 1) / (número de participantes)

4) NO = (número de veces que los participantes han indicado 0) / (número de participantes)

LEMA Grupo ACT PAS (1+2) PAS (0+1) NO

implícito

Ba2 0,71 1,00 0,29 0,00

máster 1,00 1,00 0,00 0,00

media 0,86 1,00 0,14 0,00

geopolítico

Ba2 0,00 0,86 1,00 0,14

máster 0,29 1,00 0,71 0,00

media 0,14 0,93 0,86 0,07

impositivo

Ba2 0,00 0,71 1,00 0,29

máster 0,14 0,71 0,86 0,29

media 0,07 0,71 0,93 0,29

gerencial

Ba2 0,00 0,00 1,00 1,00

máster 0,00 0,00 1,00 1,00

media 0,00 0,00 1,00 1,00

Tabla 37: Valores medios encuesta_ejemplos

Page 88: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

80

Después, volvemos a aplicar el mismo sistema de categorización:

Nivel ACT PAS NO Ejemplo

1 ≥ 0,66 / / implícito

2 < 0,66 PAS (1+2) > PAS (0+1) < 0,66 geopolítico

3 < 0,66 PAS (1+2) ≤ PAS (0+1) < 0,66 impositivo

4 / / ≥ 0,66 gerencial

Tabla 38: Niveles encuesta_2

Como pueden ser datos interesantes desde un punto de vista didáctico, comentamos brevemente

los resultados de la nivelación en base a los valores medios de la encuesta. Primero, incluimos

un resumen esquemático que compara esta última asignación de niveles con los resultados del

Ba2 y los del máster:

POS Grupo Nivel 1 Nivel 2 Nivel 3 Nivel 4

NC + V +

ADJ (531)

Ba2 178

33,52%

132

24,86%

136

25,61%

85

16,01%

promedio

(Ba3)

219

41,24%

157

29,57%

118

22,22%

37

6,97%

máster 304

57,25%

108

20,34%

91

17,14%

28

5,27%

Tabla 39: Niveles encuesta_Ba2/máster/promedio (Ba3)

Asimismo, presentamos los contenidos de las cuatro categorías en las tablas 40 hasta 43.

Page 89: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

81

Nivel 1 (219 términos):

POS LEMA POS LEMA POS LEMA POS LEMA

NC accesibilidad NC impacto V compensar ADJ consecutivo

NC ambición NC inestabilidad V concentrar ADJ considerable

NC analista NC inicio V concluir ADJ consiguiente

NC ánimo NC intensidad V crear ADJ consistente

NC aparición NC mecanismo V creer ADJ constructor

NC apoyo NC metodología V definir ADJ creativo

NC asistencia NC misión V derivar ADJ crucial

NC audiencia NC norma V descender ADJ cualitativo

NC auditor NC objeto V determinar ADJ cuantitativo

NC ausencia NC ocasión V distribuir ADJ definitivo

NC autoridad NC optimismo V elaborar ADJ demográfico

NC bajada NC organismo V eliminar ADJ diverso

NC biodiversidad NC período V equivaler ADJ dominante

NC búsqueda NC perspectiva V establecer ADJ drástico

NC categoría NC plan V evaluar ADJ educativo

NC certeza NC plataforma V evolucionar ADJ eficiente

NC circuito NC potencial V favorecer ADJ equivalente

NC clave NC presidencia V finalizar ADJ específico

NC competitividad NC prestigio V financiar ADJ espectacular

NC complejo NC primo V formular ADJ externo

NC componente NC productividad V implicar ADJ favorable

NC consultor NC profesionalidad V innovar ADJ funcional

NC contexto NC rapidez V intervenir ADJ geográfico

NC continente NC referencia V introducir ADJ global

NC continuidad NC referéndum V limitar ADJ hispano

NC creatividad NC reflejo V mencionar ADJ idéntico

NC credibilidad NC relevancia V ofrecer ADJ implícito

NC cuidado NC restante V optar ADJ imposible

NC debate NC significado V permanecer ADJ incierto

NC debilidad NC síntoma V preservar ADJ indirecto

NC década NC talento V progresar ADJ inevitable

NC derivado NC tarea V recurrir ADJ informativo

NC desequilibrio NC técnica V reinventar ADJ latinoamericano

NC dimensión NC telecomunicación V relacionar ADJ neutral

NC dinámica NC totalidad V revisar ADJ neutro

NC disponibilidad NC transacción V sacrificar ADJ ordinario

NC diversidad NC transparencia V satisfacer ADJ porcentual

NC dosis NC vehículo V seleccionar ADJ prestigioso

NC efectividad NC versión V simplificar ADJ previsible

NC eficiencia NC visibilidad V situar ADJ proporcional

NC entusiasmo NC visión V soler ADJ real

NC espacio NC vocal V subrayar ADJ regional

NC estabilidad V adaptar V sugerir ADJ relevante

NC estrategia V adoptar V superar ADJ respectivo

NC etapa V afectar ADJ abrupto ADJ significativo

NC experto V añadir ADJ amplio ADJ similar

NC fabricante V animar ADJ analógico ADJ solidario

NC facilidad V aparecer ADJ audiovisual ADJ tecnológico

NC factor V articular ADJ autonómico ADJ temático

NC fase V calificar ADJ bancario ADJ terminal

NC fenómeno V caracterizar ADJ básico ADJ variable

NC figura V centrar ADJ bienvenido ADJ virtual

NC flexibilidad V colaborar ADJ clave ADJ vital

NC formato V comercializar ADJ comercializador ADJ vulnerable

NC fundación V compartir ADJ complejo ADJ consecutivo

Tabla 40: Promedio_nivel 1

Page 90: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

82

Nivel 2 (157 términos):

POS LEMA POS LEMA POS LEMA POS LEMA

NC acorde NC pertenencia V mostrar ADJ generalista

NC adhesión NC petroquímica V presidir ADJ geopolítico

NC adversidad NC plantilla V proporcionar ADJ hipotecario

NC amplitud NC pluralidad V registrar ADJ iberio

NC aseguradora NC ratio V repartir ADJ ilusionante

NC bombeo NC recesión V retribuir ADJ indiscutible

NC carbono NC recorte V sumar ADJ indudable

NC cláusula NC renuncia V sumir ADJ inestimable

NC clientela NC repaso V supervisar ADJ informático

NC complicidad NC resolución V totalizar ADJ inicial

NC consejero NC segmento V triplicar ADJ innovador

NC contribuyente NC solidez V vincular ADJ innumerable

NC descenso NC sostenibilidad ADJ acústico ADJ institucional

NC desempeño NC terreno ADJ alcanzable ADJ líquido

NC dinamismo NC trillón ADJ apasionante ADJ macroeconómico

NC discapacidad NC turbina ADJ asegurador ADJ masivo

NC ejemplar NC vigor ADJ benéfico ADJ medioambiental

NC emisora NC virtud ADJ céntimo ADJ metálico

NC estándar NC vocación ADJ cinematográfico ADJ mixto

NC estatuto NC voluntariado ADJ circulante ADJ múltiple

NC ética V acumular ADJ consejero ADJ nominal

NC ficción V ceder ADJ consultivo ADJ operacional

NC filial V condicionar ADJ convencional ADJ operador

NC fósil V configurar ADJ coordinador ADJ pertinente

NC funcionalidad V constar ADJ corporativo ADJ petroquímico

NC funcionamiento V decrecer ADJ directivo ADJ potente

NC gratitud V desempeñar ADJ distintivo ADJ publicitario

NC instancia V devolver ADJ duradero ADJ radioeléctrico

NC integridad V elevar ADJ ejecutivo ADJ radiofónico

NC junta V empeorar ADJ ejemplar ADJ restante

NC lema V enriquecer ADJ emblemático ADJ resultante

NC licencia V equilibrar ADJ empresarial ADJ robusto

NC magnitud V estabilizar ADJ estándar ADJ submarino

NC mandato V estructurar ADJ estricto ADJ supervisor

NC margen V expandir ADJ estructural ADJ televisivo

NC modalidad V formalizar ADJ ético ADJ transformador

NC módulo V intensificar ADJ exhaustivo ADJ usuario

NC movilidad V manifestar ADJ exigente ADJ vacante

NC navegador V moderar ADJ existente ADJ viable

NC orgullo

Tabla 41: Promedio_nivel 2

Page 91: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

83

Nivel 3 (118 términos):

POS LEMA POS LEMA POS LEMA POS LEMA

NC accionariado NC liquidez V estrenar ADJ hidráulico

NC acierto NC multicanalidad V extraer ADJ impositivo

NC acreedor NC nombramiento V implantar ADJ imprescindible

NC aerogenerador NC permanencia V materializar ADJ inmerso

NC anunciante NC petrolera V ocultar ADJ íntegro

NC austeridad NC prudencia V otorgar ADJ interanual

NC autocartera NC reaseguro V pivotar ADJ mayoritario

NC bono NC recompra V recaer ADJ mediano

NC cese NC refinería V reiterar ADJ minoritario

NC contratista NC reglamento V remunerar ADJ multicanal

NC creces NC regulador V rendir ADJ multiplataforma

NC cuantía NC reparto V revalorizar ADJ plurianual

NC desembolso NC reporte V someter ADJ presupuestario

NC despliegue NC sencillez ADJ accionarial ADJ procesal

NC dígito NC senda ADJ acreedor ADJ prometedor

NC disrupción NC toma ADJ arduo ADJ reasegurador

NC dividendo NC torno ADJ atribuible ADJ refino

NC eficacia NC trayectoria ADJ bursátil ADJ repentino

NC emprendedor NC vector ADJ concesional ADJ retributivo

NC endeudamiento NC vencimiento ADJ destacable ADJ siniestro

NC espectro NC volatilidad ADJ diferenciador ADJ soberano

NC exigencia V adjudicar ADJ dominical ADJ societario

NC fiabilidad V aglutinar ADJ envidiable ADJ solvente

NC franquicia V augurar ADJ errático ADJ tarifario

NC ganancia V canalizar ADJ esperanzador ADJ termosolar

NC hidráulica V complacer ADJ estatutario ADJ trascendental

NC inquietud V cotizar ADJ fertilizante ADJ unitario

NC interconexión V descontar ADJ fósil ADJ vigente

NC iva V destacar ADJ generador ADJ volátil

NC libra V diversificar

Tabla 42: Promedio_nivel 3

Nivel 4 (37 términos):

POS LEMA POS LEMA POS LEMA POS LEMA

NC adjudicatario NC patrocinio NC subestación V refrendar

NC cimiento NC pyme NC superávit V roer

NC contingencia NC repunte NC trienio V timar

NC coraje NC rumbo V acometer ADJ exento

NC desapalancamiento NC saeta V arrojar ADJ fotovoltaico

NC inflexión NC seno V aunar ADJ gerencial

NC lealtad NC siniestralidad V avalar ADJ ingente

NC lustro NC solvencia V avecinar ADJ matinal

NC nómina NC subasta V recaudar ADJ vial

NC palanca

Tabla 43: Promedio_nivel 4

Page 92: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

84

5.4 Exploración metodológica 2.2: hacia una nivelación automática

5.4.1 Limitaciones de una encuesta

Si bien es cierto que hacer una encuesta nos permite definir con relativa precisión la diferencia

entre el nivel de competencia activa y pasiva, este método de investigación también presenta

varias limitaciones. Así, además de que obliga a limitar el número de elementos léxicos en la

investigación, la realización de una encuesta (o una prueba similar) es un proceso que cuesta

mucho tiempo y labor (manual). Dicho de otro modo, es imposible estudiar la competencia

activa-pasiva de cada palabra español mediante el método de la encuesta. Para dar una respuesta

a esas limitaciones, pretendemos investigar si se puede automatizar el proceso de asignar un

nivel de dificultad a una serie de términos.

5.4.2 Definición de la variable dependiente

El primer paso hacia una nivelación automática supone la definición precisa de la variable

dependiente, es decir, la característica que queremos investigar (predecir). En nuestro caso, esta

variable es la categorización con los cuatro niveles de dificultad. A continuación, hace falta

determinar la índole de la variable, que puede ser nominal, ordinal o de escala. El primer tipo

de variable se caracteriza por incluir categorías que no se pueden ordenar. Dos ejemplos típicos

de medidas nominales serían “nacionalidad” y “sexo”. Una medida de escala, en cambio,

representa datos numéricos que permiten ordenarse fácilmente, como son la temperatura, las

notas de un examen y, el ejemplo prototípico en el ámbito de la lingüística de corpus, la

frecuencia de ocurrencia en cifras absolutas. La medida ordinal, por último, se sitúa entre la

medida nominal y la de escala: no representa un continuo, aunque sí se puede distinguir un

orden en los datos. Unos ejemplos de este tipo de medida serían la clasificación en un concurso

deportivo, la escala de Likert o los valores del percentil de frecuencia en un corpus.

De lo anterior se desprende que la categorización de cuatro niveles es una medida ordinal. No

es un continuo, puesto que una evolución de la categoría 2 a la categoría 4 no significa una

duplicación, por ejemplo, pero los datos sí están ordenados: una evolución a un nivel más alto

siempre supone un mayor grado de dificultad.

Page 93: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

85

El paso siguiente consiste en identificar una serie de datos “más accesibles” que la organización

de una encuesta, para luego intentar enlazarlos con nuestra variable dependiente ordinal. El

ejemplo prototípico de esos datos más accesibles en la lingüística de corpus son listas de

frecuencia de corpus. Así, por ejemplo, en el estudio reciente de García Salido y Alonso Ramos

(2018) se pretende nivelar una serie de colocaciones en base a la frecuencia que presentan

dichas colocaciones en un corpus. Sin embargo, reconocen que “el método es susceptible de

mejoras que incorporen criterios adicionales al de la frecuencia léxica” (García Salido y Alonso

Ramos, 2018, p. 169). De hecho, a pesar de ser el criterio más evidente para la nivelación, la

frecuencia como único criterio nivelador lleva a un procesamiento estadístico bastante

rudimentario. Por esta razón, en la presente tesina pretendemos incluir más factores niveladores

en nuestro método, que son igualmente accesibles. Concretamente, además de la frecuencia

léxica en dos corpus de referencia (literatura juvenil; folletos turísticos), estudiamos si se

pueden incorporar cinco otros criterios, más en particular la frecuencia léxica en percentiles (2);

la existencia de un cognado en L1 (3); la nivelación basada en un diccionario ELE (4); el grado

de especificidad en cifras absolutas (5); y el grado de especificidad en percentiles (6). Gracias

a los datos que están disponibles dentro del proyecto de SCAP, hemos podido llegar a un total

de doce “criterios concretos” partiendo de los seis “criterios generales”.

Page 94: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

86

Criterio Tipo de variable

1 a frecuencia de ocurrencia en cifras absolutas (en corpus de literatura juvenil)

escala b frecuencia de ocurrencia en cifras absolutas (en corpus de folletos turísticos)

2

a

frecuencia de ocurrencia en percentiles (en corpus de literatura juvenil) con 7

puntuaciones:

-1 (no ocurre en el corpus); 0 (1 ocurrencia); 1 (0-20 de los percentiles); 2

(20-40 de los percentiles); 3 (40-60 de los percentiles); 4 (60-80 de los

percentiles); 5 (80-100 de los percentiles) ordinal

b

frecuencia de ocurrencia en percentiles (en corpus de folletos turísticos) con 7

puntuaciones:

-1 (no ocurre en el corpus); 0 (1 ocurrencia); 1 (0-20 de los percentiles); 2

(20-40 de los percentiles); 3 (40-60 de los percentiles); 4 (60-80 de los

percentiles); 5 (80-100 de los percentiles)

3 / existencia de un cognado en L1 (palabras con una alta similaridad formal):

0 = no existe; 1 = sí existe nominal

4

a nivelación basada en el diccionario ELE PortaVoces:

nivel 1 = básico; nivel 2 = avanzado; nivel 3 = nuevo

ordinal b nivelación basada en el diccionario ELE PortaVoces:

0 = en PortaVoces (nivel 1 + 2); 1 = no en PortaVoces (nivel 3)

c nivelación basada en el diccionario ELE PortaVoces:

0 = “fácil” (nivel 1); 1 = “difícil” (nivel 2 + 3)

5

a grado de especificidad según la fórmula %DIFF en cifras absolutas

(en corpus de literatura juvenil) escala

b grado de especificidad según la fórmula %DIFF en cifras absolutas

(en corpus de folletos turísticos)

6

a

grado de especificidad según la fórmula %DIFF en percentiles

(en corpus de literatura juvenil) con 11 puntuaciones:

-1 (menos frecuente que en corpus de referencia); 10 (0-10 de los

percentiles); 20 (10-20 de los percentiles); etc. ordinal

b

grado de especificidad según la fórmula %DIFF en percentiles

(en corpus de folletos turísticos) con 11 puntuaciones:

-1 (menos frecuente que en corpus de referencia); 10 (0-10 de los

percentiles); 20 (10-20 de los percentiles); etc.

Tabla 44: Criterios niveladores

Page 95: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

87

Estos doce criterios concretos son tratados, pues, como variables independientes, es decir, las

características que manejamos nosotros como investigadores para investigar las posibles

correlaciones que podrían existir con el valor de la variable dependiente, que es el juicio de

dificultad emitido por los estudiantes. Recordamos que el objetivo de este ejercicio es crear un

modelo que evite tener que repetir el costoso trabajo de organizar encuestas con estudiantes,

porque permitiría calcular valores parecidos a los de una encuesta pero basándose en datos que

tenemos a mano con un mínimo coste de procesamiento.

Para visualizar los diferentes pasos que quedan por hacer hemos creado la Tabla 45, con la

variable dependiente (el nivel de dificultad, que finalmente queremos predecir en un modelo de

aprendizaje automático [véase el apartado 5.5]) en gris claro y las variables independientes (los

doce criterios, cuyos datos tenemos a nuestra disposición) en gris oscuro.

# Lema Nivel Criterio 1a Criterio 1b Criterio 2a Criterio 2b Criterio 3 ...

1 implícito 1 <valor> <valor> <valor> <valor> <valor> ...

2 geopolítico 2 <valor> <valor> <valor> <valor> <valor> ...

3 impositivo 3 <valor> <valor> <valor> <valor> <valor> ...

... ... ... ... ... ... ... ... ...

531 gerencial 4 <valor> <valor> <valor> <valor> <valor> ...

532 <nuevo lema> ? <valor> <valor> <valor> <valor> <valor> ...

Tabla 45: Conceptualización de una nivelación automática

De hecho, queremos crear un modelo que prediga el nivel que tendría el <nuevo lema>

basándose en uno o varios de los valores pertenecientes a los doce criterios. Para realizar este

objetivo, primero llevamos a cabo un análisis manual de los criterios mediante el programa

SPSS, a fin de averiguar si son aplicables a un modelo predictivo. Después, teniendo en cuenta

los resultados de este análisis, intentamos desarrollar un modelo de aprendizaje automático que

asigne automáticamente un nivel de dificultad al <nuevo lema>.

Page 96: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

88

5.4.3 Regresión logística ordinal en SPSS

5.4.3.1 Introducción

A fin de verificar si los criterios que acabamos de mencionar efectivamente serían aplicables a

un método de nivelación, llevamos a cabo una regresión logística mediante el programa SPSS.

El hecho de que nuestra variable dependiente sea una medida ordinal nos ha llevado a optar por

una regresión (logística) ordinal, un subtipo específico de la regresión logística. En líneas

generales, una regresión ordinal crea un modelo estadístico que predice la probabilidad de que

un determinado caso suba a una categoría superior de la variable dependiente, basándose en

los valores de las variables independientes introducidas. Concretamente, para nuestra

investigación significa que la regresión ordinal va a predecir la probabilidad de que un

determinado lema suba a un nivel de dificultad más alto, basándose en los valores de uno o

varios de los doce criterios.

Por motivos pragmáticos, para calcular la regresión nos basamos en los 531 lemas nivelados en

base a los promedios de los resultados de la encuesta (véase el apartado 5.3.4). Así, queremos

evitar que haya demasiados términos en una sola categoría, como sería el caso con los valores

del máster, donde más de la mitad de las palabras se sitúan al nivel 1 (véase la Tabla 39).

Asimismo, el nivel 4 de la clasificación del Ba2 incluye palabras relativamente fáciles (e.o.

austeridad, sencillez [NC]; destacar, ocultar [V]; imprescindible, repentino [ADJ]) que

presentan todas una frecuencia de ocurrencia bastante alta en los dos corpus de referencia

(respectivamente, 97/226/2173/1628/1198/470). Dado que una frecuencia alta suele tener una

correlación negativa con el nivel de dificultad (García Salido y Alonso Ramos, 2018), tampoco

nos parece idóneo basarnos en los valores del Ba2.

Page 97: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

89

POS Grupo Nivel 1 Nivel 2 Nivel 3 Nivel 4

NC + V +

ADJ (531)

Ba2 178

33,52%

132

24,86%

136

25,61%

85

16,01%

promedio

(Ba3)

219

41,24%

157

29,57%

118

22,22%

37

6,97%

máster 304

57,25%

108

20,34%

91

17,14%

28

5,27%

Tabla 39 : Niveles encuesta_Ba2/máster/promedio (Ba3)

Por último, para visualizar el concepto de la regresión ordinal en SPSS incluimos la Figura 14

(véase la Tabla 44 para las explicaciones de los valores). Sin embargo, cabe enfatizar que el

modelo de la regresión ordinal en SPSS no predice el nivel exacto un determinado lema, sino

que predice la probabilidad de que suba a un nivel de dificultad más alto, es decir, la

probabilidad de que se trate de una palabra más difícil. Por consiguiente, nos permite hacer

afirmaciones de este tipo:

C2a (frecuencia de ocurrencia en percentiles [en corpus de literatura juvenil]): Si un

determinado lema tiene un valor de percentil bajo, la probabilidad de subir a un nivel de

dificultad más alto es x veces más alta/baja en comparación con un valor de percentil alto.

C3 (existencia de un cognado en L1 [palabras con una alta similaridad formal]): Si existe un

cognado en L1 de un determinado lema, la probabilidad de que suba a un nivel de dificultad

más alto es x veces más alta/baja que cuando no existe ningún cognado.

Page 98: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

90

Figura 14: Input regresión logística ordinal SPSS

5.4.3.2 Verificación de la aplicabilidad de los criterios

Sin entrar demasiado en detalle, comentamos si los doce criterios serían aplicables a un modelo

predictivo de nivelación, evaluando para ello si las probabilidades que predicen son

estadísticamente significativas sí o no. Primero, llevamos a cabo una regresión ordinal para

cada criterio aparte, ya que, además de calcular las probabilidades, una regresión ordinal en

SPSS también presenta información adicional sobre el modelo, que permite, entre otras cosas,

dar una respuesta a las siguientes preguntas (National Centre for Research Methods, 2011):

Page 99: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

91

1) ¿La(s) variable(s) independiente(s) del modelo ayuda(n) a predecir el valor de la

variable dependiente? = ¿El criterio ayuda a predecir el nivel de dificultad?

2) ¿Los datos introducidos concuerdan con el modelo? = ¿Los valores vinculados a los

531 lemas forman una buena base para desarrollar el modelo ordinal predictivo?

3) ¿Cuántos casos el modelo sabe predecir correctamente? = ¿Cuántos de los 531 lemas

el modelo predice correctamente?

4) ¿Las probabilidades predichas son iguales para cada aumento en las categorías de

la variable dependiente? = ¿Las probabilidades predichas son iguales para cada

aumento en el nivel de dificultad? (Aquí, la respuesta debería ser “sí”, si no significaría

que el modelo ordinal no es adecuado como modelo predictivo.)

Dependiendo de la índole de la prueba estadística correspondiente, una respuesta positiva a

estas preguntas (véase la Tabla 46) puede equivaler a un resultado sí o no estadísticamente

significativo:

Pregunta 1 (Model Fitting Information en SPSS): un “sí” equivale a un resultado

estadísticamente significativo (p ≤ 0,05)

Pregunta 2 (Goodness-of-Fit en SPSS): un “sí” equivale a un resultado no estadísticamente

significativo (p > 0,05)

Pregunta 4 (Test of Parallel Lines en SPSS): un “sí” equivale a un resultado no estadísticamente

significativo (p > 0,05)

Page 100: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

92

Criterio Pregunta 1:

¿Ayuda a predecir el nivel?

Pregunta 2: ¿Los datos son

adecuados?

Pregunta 3: ¿Cuántos casos predice

correctamente?

Pregunta 4: ¿Permite desarrollar un modelo ordinal?

1a frecuencia corpus

de referencia 1 sí no 9,8% sí

1b frecuencia corpus

de referencia 2 sí no 11,5% sí

2a pctil de

frecuencia corpus de referencia 1

sí sí 18% sí

2b pctil de

frecuencia corpus de referencia 2

sí sí 19% sí

3 existencia de

cognado sí sí 18,7% sí

4a nivelación

propuesta en PortaVoces

sí sí 21% sí

4b sí o no en PortaVoces

sí sí 10,3% sí

4c “fácil” versus

“difícil” no sí 0,07% sí

5a %DIFF en corpus de referencia 1

sí sí 7,1% no

5b %DIFF en corpus de referencia 2

sí sí 7,4% no

6a pctil de %DIFF en

corpus de referencia 1

sí sí 13,1% sí

6b pctil de %DIFF en

corpus de referencia 2

sí sí 13,9% sí

Tabla 46: Aplicabilidad 12 criterios niveladores

Aunque este tipo de datos siempre se debe interpretar con cautela, sí nos dan una primera idea

sobre la posible aplicabilidad de los criterios. Así, por ejemplo, de la tabla se desprende que los

criterios que corresponden a valores de percentil (2a y 2b para la frecuencia léxica; 6a y 6b para

el grado de especificidad) parecen encajar mejor en un modelo predictivo en comparación con

sus homólogos en cifras absolutas (1a y 1b; 5a y 5b). Este fenómeno se explica por el hecho de

Page 101: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

93

que los grandes picos causados por palabras muy frecuentes (recordamos que la frecuencia de

ocurrencia en cifras absolutas es una variable de escala) se suavicen en el caso de los percentiles

de frecuencia. Asimismo, el criterio de los cognados (3) y el criterio basado en PortaVoces con

tres niveles diferentes (4a) presentan resultados prometedores.

5.4.3.3 Modelo final

Sin embargo, para poder hablar de un verdadero modelo de regresión ordinal predictivo se ha

de incluir más de una variable independiente. Así, también aumentarán la calidad y la fiabilidad

del modelo. Tras haber llevado a cabo numerosas pruebas, llegamos a un modelo “final” que

incluye 3 variables independientes, concretamente los criterios 2a (percentil en corpus de

literatura juvenil), 3 (la existencia de un cognado) y 4a (la nivelación propuesta en PortaVoces).

En los párrafos que siguen, analizamos en profundidad este modelo final.

Primeramente, presentamos los resultados de las cuatro preguntas, donde cabe destacar que el

modelo predice casi el 40% de los datos correctamente, lo cual sugiere que el modelo tiene

potencial (National Centre for Research Methods, 2011):

Criterio

Pregunta 1:

¿Ayuda a predecir

el nivel?

Pregunta 2:

¿Los datos son

adecuados?

Pregunta 3:

¿Cuántos casos predice

correctamente?

Pregunta 4:

¿Permite desarrollar

un modelo ordinal?

2a (percentil en

corpus de

literatura juvenil)

+ 3 (existencia de

un cognado) + 4a

(nivelación

propuesta en

PortaVoces)

sí sí 39,7% sí

Tabla 47: Aplicabilidad modelo final SPSS

A continuación, ahondamos en las probabilidades (odds) de los tres criterios, visualizando

primero en la Figura 15 el output tal y como sale en SPSS. Después, en las tablas 48 hasta 50,

tratamos con todo detalle cada uno de los tres criterios, elaborando, además, un ejemplo

concreto por tabla. Cabe observar que la categoría de referencia (0a en la ilustración) es la

Page 102: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

94

categoría con la cual se comparan las demás categorías. SPSS elige por defecto la última

categoría de la variable como categoría de referencia. Una segunda observación importante es

que para calcular la probabilidad se ha de tomar el exponente del valor en la columna Estimate,

convirtiendo así el logit [= log odds] en el odds ratio. Contrariamente al logit, el odds ratio

permite precisar cuántas veces es más o menos probable que un determinado lema tenga un

nivel de dificultad más alto, lo cual facilita considerablemente la comprensión (National Centre

for Research Methods, 2011). Por último, solo interpretamos los valores de la sección Location,

los de Threshold son de menor importancia.

Figura 15: Output regresión logística ordinal SPSS

Ejemplo: Si la palabra tiene un percentil de 0-20 (valor 1) en el corpus de literatura juvenil, la

probabilidad de tenga un nivel de dificultad más alto es 6,09 veces más alta (un aumento del

509% en las probabilidades) en comparación con la situación en que tendría un valor percentil

de 80-100 (valor 5). Recordamos que la última categoría, es decir, la categoría con el valor más

alto, sirve por defecto como categoría de referencia. Así, por ejemplo, para convertir la

categoría incluyendo los elementos léxicos que no figuran en el corpus de literatura juvenil

(valor -1) en la categoría de referencia, se debería asignar el valor más alto a esa categoría.

Page 103: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

95

Valor Estimate Probabilidad Significación estadística (p = 0,05)

-1 1,356 3,88 (= e1,356)

288% sí

0 1,258 3,51

251% sí

1 1,807 6,09

509% sí

2 0,973 2,65

165% sí

3 0,733 2,08

108% sí

4 0,757 2,13

113% sí

5 categoría de referencia / /

Tabla 48: Aplicabilidad criterio 2a

Ejemplo: Si no existe un cognado en L1 de la palabra (valor 0), la probabilidad de que tenga un

nivel de dificultad más alto es 6,20 veces más alta (un aumento del 520%) que cuando sí existe

un cognado en L1 (valor 1):

Valor Estimate Probabilidad Significación estadística (p = 0,05)

0 1,824 6,20

520% sí

1 categoría de referencia / /

Tabla 49: Aplicabilidad criterio 3

Ejemplo: Si la palabra tiene el nivel “avanzado” en PortaVoces (valor 2), la probabilidad de

que tenga un nivel de dificultad más alto es más o menos 6 veces menos alta (= 0,17 veces más

probable; una bajada del 83%) que cuando no figura en PortaVoces (valor 3):

Valor Estimate Probabilidad Significación estadística (p = 0,05)

1 -0,377 0,69

-31% no

2 -1,798 0,17

-83% sí

3 categoría de referencia / /

Tabla 50: Aplicabilidad criterio 4a

Page 104: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

96

5.4.4 Conclusión intermedia

De lo anterior se desprende que la técnica de la regresión ordinal nos proporciona una fuente

valiosa de información, sugiriendo, por ejemplo, qué criterios podrían servir como criterios

niveladores. Además, como hemos ilustrado en el modelo predictivo final, mediante la

calculación de probabilidades un modelo de regresión determina con precisión la influencia que

ejerce una serie de variables en la variable dependiente. Sin embargo, el modelo ordinal no es

capaz de predecir exactamente a qué categoría pertenecería un nuevo lema, lo cual representa

una limitación importante al método. Para resolver este inconveniente, recurrimos al

aprendizaje automático: el experimento que hemos llevado a cabo a este propósito lo

comentamos en forma de epílogo en el apartado 5.5.

5.5 Exploración metodológica 2.3: modelo predictivo de aprendizaje automático

5.5.1 Introducción

En este apartado queremos informar sobre un experimento prometedor basado en los datos

reunidos en esta tesina. No obstante, cabe señalar que este epílogo no constituye el núcleo de

este trabajo, sino que sirve de complemento a los datos reunidos en las investigaciones llevadas

a cabo en las exploraciones metodológicas 2.1 y 2.2. En concreto, pretendemos desarrollar un

modelo predictivo basado en el aprendizaje automático que asigne automáticamente un nivel

de dificultad a elementos léxicos de una sola palabra.

Como acabamos de indicar en la conclusión intermedia, el motivo concreto para este

experimento está en el potencial que vemos en algunos de los criterios niveladores basados en

“datos fácilmente accesibles”. En efecto, las pruebas con la regresión ordinal en SPSS han

mostrado resultados prometedores, especialmente en el caso del modelo ordinal final que hemos

elaborado. Sin embargo, mediante el método de la regresión ordinal en SPSS no se puede

predecir exactamente a qué categoría de la variable dependiente pertenecería un nuevo caso. Es

decir, en el caso de nuestra variable dependiente, un modelo ordinal no es capaz de asignar un

nivel de dificultad (nivel 1, 2, 3 o 4) a nuevos lemas.

Page 105: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

97

5.5.2 Preparación del experimento

Con esta información en mente, iniciamos las fases preparatorias del experimento de

aprendizaje automático. Primeramente, cabe destacar que hemos eliminado 2 de los 12 criterios,

en concreto el criterio 4b (sí o no en PortaVoces) y 4c (“fácil” o “difícil”). En efecto, del análisis

en SPSS se desprende que el criterio 4a (nivelación propuesta en PortaVoces) posee un valor

predictivo mucho más alto como criterio nivelador. En la Figura 16, ilustramos cómo quedan

los datos no preparados (sacados del set de datos de prueba, véase más abajo). Asimismo,

volvemos a presentar los contenidos de los criterios niveladores en la Tabla 51.

Figura 16: Datos no preparados experimento de aprendizaje automático

Criterio Detalles

1a frecuencia de ocurrencia en cifras absolutas (en corpus de literatura juvenil)

1b frecuencia de ocurrencia en cifras absolutas (en corpus de folletos turísticos)

2a frecuencia de ocurrencia en percentiles (en corpus de literatura juvenil)

2b frecuencia de ocurrencia en percentiles (en corpus de folletos turísticos)

3 existencia de un cognado en L1

4a nivelación basada en el diccionario ELE PortaVoces

5a grado de especificidad según la fórmula %DIFF en cifras absolutas (en corpus de literatura juvenil)

5b grado de especificidad según la fórmula %DIFF en cifras absolutas (en corpus de folletos turísticos)

6a grado de especificidad según la fórmula %DIFF en percentiles (en corpus de literatura juvenil)

6b grado de especificidad según la fórmula %DIFF en percentiles (en corpus de folletos turísticos)

Tabla 51: Criterios niveladores experimento de aprendizaje automático

Page 106: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

98

Como en un modelo de aprendizaje automático los valores de los features (así se denominan

las variables) siempre han de expresarse en números y no en letras, eliminamos la columna

“Lema” y modificamos la columna “PoS” como sigue: creamos tres nuevas columnas (“NC”;

“V”; “ADJ”) y ponemos “1” en la columna a la cual pertenece el lema en cuestión y “0” en las

otras columnas. Cabe señalar que el hecho de eliminar la columna “Lema” no le impide al

modelo identificar los lemas como elementos separados, ya que se asigna una línea única a cada

lema en el modelo, lo cual ilustramos en la Figura 17:

Figura 17: Fase preparatoria experimento de aprendizaje automático_1

El segundo paso preparatorio consiste en reescalar los datos para que tengan un valor entre 0 y

1 (véase la Figura 18), una modificación necesaria para garantizar un mejor procesamiento de

los datos. Así, por ejemplo, vemos que los valores de percentil en las columnas “C6a” y “C6b”

se han dividido por (más o menos) 100 para obtener un valor entre 0 y 1. Sin embargo, es

inevitable que ocurran errores a la hora de reescalar los datos, dado que en esta fase del

experimento todavía aplicamos el método de prueba y error.

Page 107: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

99

Figura 18: Fase preparatoria experimento de aprendizaje automático_2

En la última fase de preparación dividimos los datos en dos sets separados (véanse el Apéndice

XIV y XV para la documentación completa): un set de datos de prueba (55 lemas

representativos de la base de datos entera) y un set de datos de entrenamiento (los demás lemas,

476 en total, de lo cual se han eliminado 3 por una falta de datos disponibles).

5.5.3 Método 1: la regresión lineal

A continuación, comienza el experimento mismo. Analizando los datos de prueba, el modelo

de aprendizaje automático intenta “aprender”, lo cual significa que averigua cómo se pueden

relacionar los valores de los “features independientes” (los criterios niveladores) con el “feature

dependiente” (el nivel correcto en la última columna). En términos generales, el modelo asigna

un valor de importancia (value) a cada feature independiente, basándose en su potencial

predictivo. Así, por ejemplo, si el modelo encuentra una correlación fuerte entre la existencia

de un cognado en L1 (C3) y el nivel de dificultad, va a conceder un valor de importancia alto a

ese criterio. De esta manera, el modelo va adquiriendo “conocimientos” según analiza el set de

datos de prueba.

Después, se aplican esos conocimientos al set de datos de entrenamiento. Concretamente, para

cada línea (cada lema) del set el modelo hace una predicción del nivel:

Page 108: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

100

Figura 19: Ilustración de las predicciones en set de datos de entrenamiento (regresión lineal)

En este sentido, cabe profundizar en la manera de predecir: contrariamente al análisis en SPSS,

no se lleva a cabo una regresión ordinal sino una regresión lineal. De hecho, como permite

determinar de manera precisa la relación entre los features, la regresión lineal es el método más

común en modelos de aprendizaje automático predictivos. La implicación más importante de

esta decisión es que la predicción no será un número redondo (1; 2; 3; 4) sino un valor exacto

entre, aproximadamente, 1 y 4. Por consiguiente, a fin de llegar a una predicción final para cada

lema de los datos de entrenamiento, redondeamos los valores de la siguiente manera:

Valor Nivel

≤ 1,5 1

> 1,5 y ≤ 2,5 2

> 2,5 y ≤ 3,5 3

> 3,5 4

Para analizar la efectividad del modelo de aprendizaje automático, investigamos la calidad de

las predicciones realizadas en el set de datos de entrenamiento, basándonos en el accuracy

(“exactitud”) y el mean absolute error (MAE). Así, pretendemos enterarnos del grado de

precisión de las predicciones del modelo en comparación con el nivel correcto, como

visualizamos en la Figura 20. Sin entrar demasiado en detalle, el accuracy muestra el porcentaje

Page 109: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

101

de casos predichos correctamente, mientras que el MAE calcula la desviación media de los

niveles predichos en comparación con el nivel correcto.

Figura 20: Análisis efectividad modelo de aprendizaje automático (regresión lineal)

A fin de encontrar el mejor modelo predictivo, hemos creado cuatro versiones diferentes, que

presentamos en la Tabla 52:

Modelo 1 Modelo 2 Modelo 3 Modelo 4

Criterios todos

frecuencia corpus de

referencia 1 (C1a);

frecuencia corpus de

referencia 2 (C1b);

existencia de un

cognado (C3);

nivelación propuesta

en PortaVoces (C4a)

frecuencia corpus de

referencia 1 (C1a);

frecuencia corpus de

referencia 2 (C1b);

existencia de un

cognado (C3)

pctil de frecuencia corpus

de referencia 1 (C2a);

existencia de un cognado

(C3)

Accuracy 34,5% 41,8% 43,6% 56,4%

MAE 0,863 0,727 0,709 0,527

Tabla 52: Resultados regresión lineal

Hemos empezado por desarrollar un modelo incluyendo todos los criterios niveladores (modelo

1), para llegar al final a un modelo que consiste en los dos mejores criterios según el método de

Page 110: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

102

la regresión lineal (modelo 4). También incluimos los resultados de dos modelos que se centran

en la frecuencia léxica (modelos 2 y 3), el criterio nivelador que se usa más frecuentemente

para predecir el nivel de dificultad (véase e.o. García Salido y Alonso Ramos, 2018). En todo

caso, consta que los resultados son prometedores, sobre todo en el caso de los modelos 3 y 4.

En efecto, el porcentaje de casos predichos correctamente alcanza el 43,6 y el 56,4%,

respectivamente. Además, la desviación media con el nivel correcto es bastante limitada: 0,709

y 0,527.

5.5.4 Método 2: el decision tree

Sin embargo, además de la regresión lineal, existe otra técnica para desarrollar un modelo de

aprendizaje automático predictivo: un decision tree. En este método se parte del criterio que

predice mejor el nivel de dificultad y se van añadiendo más criterios al modelo hasta que

decrezca el número de casos predichos correctamente. La diferencia más grande con la

regresión lineal está en que se relacionan directamente los valores de los features

independientes (es decir, los criterios niveladores) con una categoría del feature dependiente

(es decir, el nivel de dificultad), en lugar de predecir un valor exacto que no corresponde

necesariamente al valor redondo de los niveles de dificultad.

He aquí los resultados del decision tree:

1 criterio 2 criterios Todos los

criterios

Criterios pctil de frecuencia corpus de

referencia 1 (C2a)

pctil de frecuencia corpus de

referencia 1 (C2a);

nivelación propuesta en

PortaVoces (C4a)

todos

Accuracy 58,2% 61,8% 38,2%

MAE 0,509 0,491 0,836

Tabla 53: Resultados decision tree

De la tabla se desprende que el mejor criterio nivelador según la técnica del decision tree es el

percentil de frecuencia en el corpus sobre literatura juvenil (C2a). Al añadir el criterio de la

nivelación propuesta en PortaVoces (C4a), el accuracy se eleva al 61,8%. Sin embargo, hemos

Page 111: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

103

comprobado que al agregar un tercer criterio el accuracy disminuye, por lo cual el modelo

“final” solo consiste en dos criterios niveladores. Para ser completo, también hemos incluido

los resultados de la versión del decision tree incluyendo todos los criterios.

5.5.5 Conclusión

La conclusión principal que podemos sacar de este experimento es que un modelo de

aprendizaje automático que predice el nivel de dificultad del vocabulario tiene futuro, tanto

mediante la técnica de la regresión lineal como mediante el método del decision tree. Es una

constatación muy prometedora, ya que significa que solo necesitamos compilar manualmente

un conjunto limitado de “datos correctos” (por ejemplo mediante encuestas) para poder

desarrollar un modelo que asigne automáticamente y con (relativa) precisión un nivel de

dificultad a (todas las) palabras españolas.

Además, en este experimento también hemos demostrado el valor añadido de incorporar más

criterios niveladores que únicamente la frecuencia léxica en un modelo de nivelación

predictivo. Así, por ejemplo, el percentil de frecuencia, la existencia de un cognado en L1 y una

nivelación basada en un diccionario ELE ayudan a aumentar el grado de precisión de las

predicciones.

Sin embargo, cabe enfatizar que hacen falta más estudios que exploren en profundidad el

potencial de un modelo de nivelación predictivo basado en el aprendizaje automático. La

metodología propuesta en la Exploración 2 de esta tesina (encuesta; clasificación con niveles

de dificultad; definir criterios niveladores; desarrollar modelo(s) de aprendizaje automático)

puede servir de base para futuras investigaciones, pero también se pueden elaborar

metodologías alternativas. Así, por ejemplo, para la nivelación de los “datos correctos” también

se puede basarse en los niveles propuestos en el MCER, en vez de realizar encuestas con

estudiantes. No obstante, una posible limitación de esta aproximación sería que, contrariamente

a una asignación de niveles basada en encuestas, los niveles propuestos en el MCER no se basan

(enteramente) en datos empíricos.

Por último, surge la pregunta si se necesita un modelo predictivo aparte para cada “nivel de

educación”, o si se necesita un solo modelo general. Teniendo en cuenta que los niveles

correctos utilizados en este experimento se sitúan al nivel del tercer bachelor de una carrera de

Page 112: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

104

lenguas, uno puede preguntarse si los niveles predichos por el modelo de aprendizaje

automático solo son válidos al nivel del tercer bachelor, y no a niveles de educación inferiores

o superiores.

Page 113: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

105

6 CONCLUSIÓN

6.1 Introducción

En la presente tesina hemos investigado la adquisición y el aprendizaje de vocabulario en una

segunda lengua (L2) desde la perspectiva de la lingüística de corpus, “una rama de la lingüística

que basa sus investigaciones en datos obtenidos a partir de corpus, esto es, muestras reales de

uso de la lengua” (Centro Virtual Cervantes, s.d. a). En este sentido, hemos compilado un

corpus incluyendo 74 discursos en castellano pronunciados todos en el marco de la junta general

de accionistas de empresas españolas. Para el procesamiento del corpus hemos usado Spanish

Corpus Annotation Project (SCAP), una herramienta informática desarrollada en el

Departamento de Traducción, Interpretación y Comunicación de la Universidad de Gante

(véase e.o. Goethals et al., 2017). En concreto, hemos llevado a cabo dos exploraciones

metodológicas, centrándonos en tres dimensiones específicas de la adquisición y el aprendizaje

de vocabulario:

1) El grado de especificidad, que hemos estudiado en la Exploración metodológica 1

2) La competencia activa-pasiva, que hemos estudiado en la Exploración metodológica 2.1

3) El grado de dificultad, que hemos estudiado en las Exploraciones metodológicas 2.2 y

2.3

En lo que sigue, presentamos de manera concisa los resultados principales de cada exploración

metodológica. Asimismo, aplicamos las exploraciones al marco teórico del presente trabajo,

además de relacionarlas con las funcionalidades de SCAP, la herramienta informática que

hemos utilizado para procesar nuestro corpus y realizar las investigaciones.

6.2 Exploración metodológica 1

Pregunta de investigación: ¿%DIFF (para el keyness) y DP (para la dispersión) son medidas

efectivas para filtrar las palabras clave más relevantes de un corpus especializado?

Basándonos en las fórmulas %DIFF (Gabrielatos y Marchi, 2011) y DP (Gries, 2008), hemos

creado prácticamente de forma automática una lista de 100 palabras clave incluyendo el

Page 114: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

106

vocabulario supuestamente especializado de nuestro corpus de estudio. A fin de averiguar la

calidad de los contenidos, hemos organizado un test que comparaba la lista con el juicio de

cuatro profesores expertos. Hemos obtenido resultados satisfactorios, teniendo en cuenta que

los profesores incluirían 76,5 de los 100 términos de media en un glosario sobre el contexto

especializado de la junta general de accionistas. Además, hemos comprobado que 73 de los 100

términos han sido aprobados correctamente por al menos tres de los cuatro profesores, mientras

que solo 17 de los 100 han sido rechazados erróneamente por al menos tres de los cuatro.

Considerando SCAP como un programa de CALL, hemos demostrado en el capítulo 3 que un

profesor del español como lengua extranjera (ELE) puede basarse en listas de palabras clave

para diseñar con la ayuda de SCAP una variedad de actividades orientadas a la instrucción

enfocada en la palabra (word-focused instruction [Laufer, 2010]). Además, sostenemos que

listas de palabras clave también pueden resultar útiles en un enfoque de aprendizaje basado en

datos (ABD), e incluso en un contexto profesional. Así, por ejemplo, un aprendiz (autodidacta)

puede utilizar listas de palabras clave para familiarizarse rápidamente con el vocabulario típico

de un determinado contexto. En este sentido, dada su fuerte conexión con el concepto de ABD,

SCAP también puede servir como medio para realizar actividades lingüísticas correspondientes

en esta situación. En un contexto profesional, por último, la creación de listas de palabras clave

mediante SCAP puede ayudar a intérpretes no nativos que quieren prepararse para interpretar

en un contexto especializado, por ejemplo.

6.3 Exploración metodológica 2.1

Pregunta de investigación: ¿Se nota una evolución entre estudiantes ELE del segundo

bachelor y del máster en el dominio activo y pasivo en cuanto a términos con cierto grado

de especificidad?

Mediante una encuesta, hemos pedido a 43 participantes (22 estudiantes ELE del segundo

bachelor [Ba2] y 21 del máster) que definan su “grado de conocimiento” de 531 términos con

cierto grado de especificidad sacados de nuestro corpus de estudio: si conocen el término

activamente, si lo conocen pasivamente o si no lo conocen. Después, hemos creado una

clasificación de cuatro categorías que representan todas un grado de dominio (dificultad), lo

cual nos ha permitido evaluar en profundidad la evolución en la competencia activa y pasiva

entre el Ba2 y el máster. De hecho, hemos encontrado una evolución estadísticamente

Page 115: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

107

significativa hacia un conocimiento más profundo de los elementos léxicos en los estudiantes

del máster. Además, en ambos grupos los sustantivos parecen suponer un reto ligeramente más

grande que los verbos y los adjetivos en cuanto a llegar a un grado de dominio de nivel 1 o nivel

2 (los dos niveles más “fáciles”), mientras que el dominio activo es lo más alto en el caso de

los verbos. Por último, también hemos podido identificar las palabras que no muestran ninguna

evolución o incluso una regresión en el grado de dominio, lo cual representa información

valiosa desde un punto de vista didáctico.

Basándose en el esquema de Nation (2001) sobre la competencia activa-pasiva, se pueden

realizar (o diseñar, desde el punto de vista del profesor ELE) varias actividades concretas con

el propósito de alcanzar un mayor dominio de los elementos léxicos que aún no se conocen

activamente. En este contexto, cabe señalar que SCAP ofrece diferentes funcionalidades para

ayudar a realizar y/o diseñar este tipo de actividades, sobre todo en la versión reciente de la

herramienta.

6.4 Exploraciones metodológicas 2.2 y 2.3

Preguntas de investigación: ¿Aparte de la frecuencia léxica, qué criterios niveladores son

aptos para incluir en un modelo que predice el nivel de dificultad de elementos léxicos de

una sola palabra? (2.2); ¿Podemos predecir con relativa precisión el nivel de dificultad de

elementos léxicos de una sola palabra mediante un modelo de aprendizaje automático?

(2.3)

Mediante una regresión logística ordinal en SPSS, hemos comprobado que sobre todo el

percentil de frecuencia, la existencia de un cognado en L1 y la nivelación propuesta en un

diccionario ELE tienen potencial como criterio nivelador, lo cual se ha confirmado también en

los resultados del experimento basado en el aprendizaje automático. Dicho de otro modo, los

resultados de las Exploraciones 2.2 y 2.3 ya pueden ser una primera respuesta a la observación

de García Salido y Alonso Ramos (2018), que reconocen que su método de nivelación basado

en la frecuencia léxica “es susceptible de mejoras que incorporen criterios adicionales” (p. 169).

Además, consta que un modelo de nivelación predictivo basado en el aprendizaje automático

tiene futuro, dado que los grados de precisión (accuracy) que hemos obtenido alcanzan hasta el

61,8%.

Page 116: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

108

Relacionando las exploraciones con SCAP, sostenemos que el programa puede ampliarse al

incluir un componente de nivelación basado en un modelo de aprendizaje automático. Teniendo

en cuenta que, en principio, un modelo como hemos desarrollado nosotros debería ser capaz de

asignar un nivel de dificultad “correcto” a cualquier elemento léxico de una sola palabra, se

podría evitar los inconvenientes de trabajar con fuentes pragmáticas como diccionarios ELE,

cuyo índice solo incluye un número limitado de elementos léxicos. Sin embargo, cabe enfatizar

que quedan muchos experimentos e investigaciones por hacer para poder llegar a un modelo

aceptable y, sobre todo, fiable.

Page 117: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

109

7 DISCUSIÓN

7.1 Limitaciones del estudio

Como ya hemos señalado en la introducción, el hecho de que (en este momento) las técnicas de

lingüística de corpus utilizadas en esta tesina se puedan aplicar únicamente a elementos léxicos

de una sola palabra representa una primera limitación. Efectivamente, así ha ido perdida en las

exploraciones metodológicas la parte del vocabulario que consiste en elementos léxicos

multipalabras (multiwords).

En segundo lugar, la herramienta informática con la cual hemos trabajado, Spanish Corpus

Annotation Project (SCAP), todavía está en fase de desarrollo, lo cual ha conllevado algunos

desafíos prácticos. Así, por ejemplo, a lo largo del estudio los creadores de SCAP nos han dado

acceso a una versión actualizada de la herramienta (la versión reciente, que reemplazará la

versión beta y que estará disponible en línea en otoño de 2018). Por una parte, eso nos ha

permitido elaborar más en profundidad las exploraciones metodológicas, pero, por otra,

también nos ha obligado a revisar parte del diseño del estudio.

7.2 Observaciones y sugerencias

Primeramente, nos damos cuenta de que trabajar con programas de lingüística de corpus

orientados a la adquisición y el aprendizaje de vocabulario puede ser un gran desafío (para

profesores así como para aprendices), sobre todo en un nivel principiante. Por consiguiente,

opinamos que solo a partir de un nivel B2 del MCER se puede sacar el máximo provecho de

los contenidos elaborados en esta tesina. Sin embargo, también nos damos cuenta de que los

programas de CALL y ABD se hacen cada vez más accesibles, por lo cual en el futuro quizá

también aprendices de un nivel inferior al nivel B2 puedan servirse de la lingüística de corpus

durante su proceso de aprendizaje.

Antes de ahondar en nuestras sugerencias para futuros estudios, conviene aclarar a qué áreas de

investigación nuestro trabajo pretende contribuir. En primer lugar, la tesina es una investigación

de lingüística de corpus, puesto que en la parte investigativa exploramos en profundidad dos

nuevas perspectivas de lingüística de corpus, basándonos en un corpus especializado

Page 118: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

110

incluyendo discursos pronunciados en la junta general de accionistas. En segundo lugar, este

estudio también pertenece al ámbito más general de la adquisición y el aprendizaje de

vocabulario en L2, puesto que las exploraciones metodológicas de lingüística de corpus

estudian tres dimensiones específicas de este ámbito, más en particular el grado de especificidad

del vocabulario, la competencia activa-pasiva y el grado de dificultad del vocabulario.

Asimismo, dadas las funcionalidades y la índole de SCAP, la herramienta informática con la

cual hemos trabajado, esta tesina también contribuye a las áreas de investigación acerca de

CALL (Computer-Assisted Language Learning) y ABD (aprendizaje basado en datos). Como

ya hemos indicado en la investigación bibliográfica, como programa de CALL la herramienta

SCAP se puede definir como un programa dedicado al aprendizaje de vocabulario (aunque

también se puede utilizar SCAP para diseñar actividades de adquisición), ya que ha sido

especialmente desarrollada para la extracción y la consulta de vocabulario (especializado) de

un corpus. Considerando SCAP específicamente como un programa de ABD, por último, este

trabajo también representa una investigación que evalúa las “prácticas” (pratiques [Boulton,

2008]) utilizadas en un programa de ABD, estudiando, concretamente, el funcionamiento y el

output de la herramienta SCAP.

Concluimos este apartado por hacer algunas sugerencias para futuras investigaciones. Primero,

hacen falta más estudios que refinen la metodología propuesta para crear listas de palabras clave

mediante las fórmulas %DIFF (Gabrielatos y Marchi, 2011) y DP (Gries, 2008), además de

elaborar metodologías alternativas. Así, por ejemplo, se puede investigar la influencia que

ejerza la integración del criterio del nivel de dificultad en la calidad de las listas, o se puede

partir específicamente de una serie de sustantivos clave para elaborar los glosarios, en vez de

seleccionar los ítems independientemente de su categoría morfológica. Además, se necesitan

más investigaciones para continuar explorando el potencial de un modelo de aprendizaje

automático que predice el nivel de dificultad del vocabulario. Así, se han de compilar bases de

datos más extensas con “datos correctos” para ayudar al modelo a aprender. Para realizar este

objetivo, se puede seguir la metodología que hemos propuesto nosotros (encuesta; clasificación

con niveles de dificultad; definir criterios niveladores; desarrollar modelo(s) de aprendizaje

automático) o elaborar una metodología alternativa (reemplazando la encuesta por otra fuente

de “datos correctos” y/o revisando la clasificación de niveles, por ejemplo). Asimismo, otra

posible pista de investigación podría centrarse en la compilación de nuevos corpus de

referencia, adaptándolos a los criterios niveladores que se pretenden utilizar. En todo caso, en

Page 119: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

111

la presente tesina hemos demostrado que un modelo predictivo de aprendizaje automático tiene

futuro, así como la metodología propuesta para desarrollarlo.

Page 120: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

112

Referencias bibliográficas

Agencia Estatal Boletín Oficial de Estado. (2017). Real Decreto Legislativo 1/2010, de 2 de

julio, por el que se aprueba el texto refundido de la Ley de Sociedades de Capital.

[Legislación consolidada]. Fecha de consulta: 25 junio 2018, en

https://www.boe.es/buscar/act.php?id=BOE-A-2010-10544

Allan, R. (2010). Concordances versus dictionaries: evaluating approaches to word learning in

ESOL. En R. Chacón-Beltrán et al. (Eds.), Insights into non-native vocabulary teaching

and learning (pp. 112-125). Bristol, Tonawanda & North York: Multilingual Matters.

Asención-Delaney, Y., Collentine, J.G., Collentine, K., Colmenares, J. & Plonsky, L. (2015).

El potencial de la enseñanza del vocabulario basada en corpus: optimismo con

precaución. Journal of Spanish Language Teaching, 2(2), 140-151.

BBVA (s.d.). ¿Qué es una Junta General de Accionistas? [Documento en línea]. Fecha de

consulta: 9 julio 2018, en https://www.bbva.com/es/junta-general-accionistas/

Biber, D., Connor, U. & Upton, A. con Anthony, M. & Gladkov, K. (2007). Rhetorical appeals

in fundraising. En D. Biber et al., Discourse on the move: using corpus analysis to

describe discourse structure (pp. 121-151). Ámsterdam: John Benjamin.

Boulton, A. (2008). Esprit de corpus: promouvoir l’exploitation de corpus en apprentissage des

langues. Texte et Corpus, 3, 37-46.

Boulton, A. (2010a). Data-driven learning: taking the computer out of the equation. Language

Learning, 60(3), 534-572.

Boulton, A. (2010b). Learning outcomes from corpus consultation. En M. Moreno Jaén et al.

(Eds.), Exploring new paths in language pedagogy: lexis and corpus-based language

teaching (pp. 129-144). Londres & Oakville: Equinox.

Bowker, L. & Pearson, J. (2002). Working with specialized language: a practical guide to using

corpora. Londres & Nueva York: Routledge.

Carroll, J. B. (1970). An alternative to Juilland’s usage coefficient for lexical frequencies and a

proposal for a standard frequency index. Computer Studies in the Humanities and

Verbal Behaviour, 3(2), 61-65.

Centro Virtual Cervantes. (s.d. a). Lingüística de corpus. [Diccionario de términos clave de

ELE]. Fecha de consulta: 5 julio 2018, en

https://cvc.cervantes.es/ensenanza/biblioteca_ele/diccio_ele/diccionario/linguisticacor

pus.htm

Centro Virtual Cervantes. (s.d. b). Plan curricular del Instituto Cervantes: Niveles de referencia

para el español. [Descripción del producto]. Fecha de consulta: 14 abril 2018, en

https://cvc.cervantes.es/ENSENANZA/biblioteca_ele/plan_curricular/default.htm

Chacón-Beltran, R., Abello-Contesse, C. & del Mar Torreblanca-López, M. (2010). Vocabulary

teaching and learning: introduction and overview. En R Chacón-Beltrán et al. (Eds.),

Insights into non-native vocabulary teaching and learning (pp. 1-12). Bristol,

Tonawanda & North York: Multilingual Matters.

Chambers, A. & O’Sullivan Í. (2004). Corpus consultation and advanced learners’ writing skills

in French. ReCALL, 16(1), 158-172.

Chambers, A. (2007). Popularising corpus consultation by language learners and teachers. En

E. Hidalgo et al. (Eds.), Corpora in the Foreign Language Classroom (pp. 3-16).

Ámsterdam: Rodopi.

Chambers, A. (2010). What is data-driven learning? En A. O’Keeffe & M. McCarthy (Eds.),

The Routledge Handbook of Corpus Linguistics (pp. 345-358). Nueva York: Routledge.

Page 121: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

113

Cheng, W., Warren, M. & Xu, X. (2003). The language learner as language researcher: corpus

linguistics on the timetable. System, 31(2), 173-186.

Ellis, N.C. (1994). Vocabulary acquisition: the implicit ins and outs of explicit cognitive

mediation. En N.C. Ellis (Ed.), Implicit and Explicit Learning of Languages (pp.

211-282). Londres: Academic Press Limited.

Ellis, R. (2014). The study of second language acquisition. Oxford: Oxford University Press.

Gabrielatos, C. & Marchi, A. (2011). Keyness: matching metrics to definitions. Theoretical-

methodological challenges in corpus approaches to discourse studies - and some ways

of addressing them. 5 noviembre 2011, Portsmouth.

García Salido, M. & Alonso Ramos, M. (2018). Asignación de niveles de aprendizaje a las

colocaciones del Diccionario de Colocaciones del español. Revista Signos. Estudios de

Lingüística, 51(97), 153-174.

Gaskell, D. & Cobb, T. (2004). Can learners use concordance feedback for writing errors?

System, 32(3), 301–19.

Gilquin, G. & Granger, S. (2010). How can data-driven learning be used in language teaching?

En A. O’Keeffe & M. McCarthy (Eds.), The Routledge Handbook of Corpus Linguistics

(pp. 359-370). Nueva York: Routledge.

Goethals, P., Lefever, E. & Macken, L. (s.d.). SCAP-Welcome. [Página de bienvenida en línea].

Fecha de consulta: 13 abril 2018, en http://www.scap.ugent.be/

Goethals, P., Lefever, E., & Macken, L. (2017). SCAP_TT: Tagging and lemmatising Spanish

tourism discourse, and beyond. Ibérica, 33, 273-282.

Gries, S.T. (2008). Dispersions and adjusted frequencies in corpora. International Journal of

Corpus Linguistics, 13(4), 403-437.

Gries, S.T. (2013). 50-something years of work on collocations. What is or should be next …

International Journal of Corpus Linguistics, 18(1), 137-165.

Henriksen, B. (1999). Three dimensions of vocabulary development. Studies in Second

Language Acquisition, 21(2), 303-317.

Johns, T. (1991). Should you be persuaded: two examples of data-driven learning. En T. Johns

& P. King (Eds.), Classroom Concordancing (pp. 1-13). Birmingham: ELR.

Juilland, A.G., Brodin, D. R. & Davidovitch, C. (1970). Frequency dictionary of French words.

La Haya: Mouton de Gruyter.

Kennedy, C. & Miceli, T. (2001). An evaluation of intermediate students’ approaches to corpus

investigation. Language Learning and Technology, 5(3), 77-90.

Krashen, S. (1981). Second language acquisition and second language learning. Oxford:

Pergamon Press.

Laufer, B. (2003). Vocabulary acquisition in a second language: do learners really acquire most

vocabulary by reading? The Canadian Modern Language Review, 59, 565-585.

Laufer, B., Elder, C., Hill, K. & Congdon, P. (2004). Size and strength: do we need both to

measure vocabulary knowledge? Language Testing, 21(2), 202-226.

Laufer, B. (2005a). Instructed second language vocabulary learning: the fault in the ‘default

hypothesis’. En A. Housen y M. Pierrard (Eds.), Investigations in instructed second

language acquisition (pp. 311-329). Berlín y Nueva York: Mouton de Gruyter.

Laufer, B. (2005b). Focus on form in second language vocabulary acquisition. En S.H.

Foster-Cohen et al. (Eds.), EUROSLA Yearbook 5 (pp. 223-250). Ámsterdam: John

Benjamins.

Page 122: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

114

Laufer, B. (2010). Form-focused instruction in second language vocabulary learning. En R.

Chacón-Beltrán et al. (Eds.), Insights into non-native vocabulary teaching and learning

(pp. 15-27). Bristol, Tonawanda & North York: Multilingual Matters.

Lee, D. & Swales, J. (2006). A corpus-based EAP course for NNS doctoral students: moving

from available specialized corpora to self-compiled corpora. English for Specific

Purposes, 25, 56-75.

Levy, M. & Hubbard, P. (2005). Why call CALL “CALL”? Computer Assisted Language

Learning, 18(3), 143-149.

Levy, M. & Stockwell, G. (2008). CALL dimensions: options and issues in Computer-Assisted

Language Learning. Nueva York & Londres: Routledge.

Lyne, A. A. (1985). Dispersion. En A.A. Lyne (Ed.) The vocabulary of French business

correspondence (pp. 101-124). Ginebra & París: Slatkine-Champion.

Matsuoka, W. (2012. Searching for the right words: creating word lists to inform EFL learning.

En D. Hirsh (Ed.), Current perspectives in second language vocabulary research (pp.

151-177). Berna: Peter Lang.

McLaughlin, B. (1987). Theories of second language learning. Londres: Edward Arnold.

Montero Perez, M., Paulussen, H., Macken, L. & Desmet, P. (2014). From input to output: the

potential of parallel corpora for CALL. Language Resources and Evaluation, 48(1),

165-189.

Nation, I.S.P. (2001). Learning vocabulary in another language. Cambridge: Cambridge

University Press.

National Centre for Research Methods. (2011). Using Statistical Regression Methods in

Education Research. [Tutorial]. Fecha de consulta: 16 julio 2018, en

http://www.restore.ac.uk/srme/www/fac/soc/wie/research-

new/srme/modules/index.html

O’Sullivan, Í. & Chambers, A. (2006). Learners’ writing skills in French: corpus consultation

and learner evaluation. Journal of Second Language Writing, 15, 49-68.

Pérez Basanta, C. (2010). A second-generation CALL vocabulary-learning program ADELEX:

in search of a psychopedagogic model. En R. Chacón-Beltrán et al. (Eds.), Insights into

non-native vocabulary teaching and learning (pp. 175-185). Bristol, Tonawanda &

North York: Multilingual Matters.

Read, J. (2000). Assessing Vocabulary. Cambridge: Cambridge University Press.

Roe, P. (2000). The ASTCOVEA German Grammar in conText Project. En B. Dodd (Ed.),

Working with German corpora (pp. 199-216). Birmingham: University of Birmingham

Press.

Rosengren, I. (1971). The quantitative concept of language and its relation to the structure of

frequency dictionaries. Études de linguistique appliquée (Nouvelle Série), 1, 103-27.

Römer, U. (2011). Corpus research apllications in second language teaching. Annual Review of

Applied Linguistics, 31, 205-225.

Schmid, H. (1994). Probabilistic part-of-speech tagging using decision trees. Proceedings of

The International Conference on New Methods in Language Processing, 44-49.

Schmid, H. (1995). Improvements in part-of-speech tagging with an application to German.

Proceedings of The ACL SIGDAT-Workshop, 1-9.

Schmitt, N. (2010). Key issues in teaching and learning vocabulary. En R. Chacón-Beltrán et

al. (Eds.), Insights into non-native vocabulary teaching and learning (pp. 28-40).

Bristol, Tonawanda & North York: Multilingual Matters.

Scott, M. (1996). WordSmith Tools Manual. Oxford: Oxford University Press.

Page 123: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

115

Scott, M. (1997). PC analysis of key words - and key key words. System, 25(2), 233-245.

Sinclair, J. (2005). Corpus and texts – Basic principles. En M. Wynne (Ed.), Developing

linguistic corpora: a guide to good practice (pp. 1-16). Oxford & Oakville: Oxbow

Books.

Waring, R. (1997). A comparison of the receptive and productive vocabulary sizes of some

second language learners. Immaculata Notre Dame Seishin University Okayama, 1,

53-68.

Watson Todd, R. (2017). An opaque engineering word list: which words should a teacher focus

on? English for Specific Purposes, 45, 31-39.

Webb, S. (2008). Receptive and productive vocabulary sizes of L2 learners. Studies in Second

Language Acquisition, 30(1), 79-95.

Zhong, H. (2012. Multidimensional vocabulary knowledge: development from receptive to

productive use. En D. Hirsh (Ed.), Current perspectives in second language vocabulary

research (pp. 23-55). Berna: Peter Lang.

Page 124: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

116

Apéndice

Apéndice I: Metadatos_corpus

(el corpus se puede consultar en www.scap.ugent.be bajo el nombre de dacci)

Page 125: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

117

Apéndice II: Referencias bibliográficas (enlaces)_corpus

(el corpus se puede consultar en www.scap.ugent.be bajo el nombre de dacci)

Código Enlace

JA_ACC_01 https://www.acciona.com/media/1637513/discurso_presentacion.pdf

JA_ACC_02 https://www.acciona.com/media/2055329/discurso_presentacion.pdf

JA_ACC_03 https://www.acciona.com/media/2183613/discurso-presentacion.pdf

JA_ACS_01 http://www.grupoacs.com/ficheros_editor/File/03_accionistas_inversores/06_junta_general_accionistas/2015/Acuerdos%20y%20discursos/discurso_jga_2015_fpr.pdf

JA_ACS_02 http://www.grupoacs.com/ficheros_editor/File/03_accionistas_inversores/06_junta_general_accionistas/2015/Acuerdos%20y%20discursos/discurso_jga_2015_agf.pdf

JA_ACS_03 http://www.grupoacs.com/ficheros_editor/File/03_accionistas_inversores/06_junta_general_accionistas/2016/discurso_jga_2016_fpr.pdf

JA_ACS_04 http://www.grupoacs.com/ficheros_editor/File/03_accionistas_inversores/06_junta_general_accionistas/2016/discurso_jga_2016_agf.pdf

JA_ACS_05 http://www.grupoacs.com/ficheros_editor/File/03_accionistas_inversores/06_junta_general_accionistas/2017/Discurso_JGA_FPR_%202017.pdf

JA_ACS_06 http://www.grupoacs.com/ficheros_editor/File/03_accionistas_inversores/06_junta_general_accionistas/2017/Discurso_JGA%202017_AGF.pdf

JA_ATR_01 http://www.atresmediacorporacion.com/documents/2015/04/22/08B66F1B-6A0F-4942-B2AB-F598728C1F7B/01108.pdf

JA_ATR_02 http://www.atresmediacorporacion.com/documents/2015/04/22/95BA08FA-FACA-43EB-B5E7-9DDB5E38247A/01109.pdf

JA_ATR_03 http://www.atresmediacorporacion.com/documents/2016/04/22/3ED2E11B-E8C4-487C-A8E7-90D2B1175B25/01008.pdf

JA_ATR_04 http://www.atresmediacorporacion.com/documents/2016/04/22/E9BAF7A6-22E9-4698-A70C-C162AF1FB23E/01007.pdf

JA_ATR_05 http://www.atresmediacorporacion.com/documents/2017/04/20/9BB48F42-7724-483F-92B5-AB678C386266/4discursopresidentejgoa2017.pdf

JA_ATR_06 http://www.atresmediacorporacion.com/documents/2017/04/20/8022A560-926C-44B9-94CE-62230A9E2E47/5discursoconsejerodelegadojgoa2017.pdf

JA_BAN_01 https://www.bankia.com/recursos/doc/corporativo/20160315/notas-de-prensa/discurso-de-jose-ignacio-goirigolzarri-en-la-junta-general-de-accionistas-2016.pdf

JA_BAN_02 https://www.bankia.com/recursos/doc/corporativo/20170324/jga-2017/discurso-presidente-jga-2017.pdf

JA_BOL_01 https://www.bolsasymercados.es/docs/inf_legal/esp/gobierno/juntageneral/2015/Discurso%20Presidente%20C.Adms_2015.pdf

JA_BOL_02 https://www.bolsasymercados.es/docs/inf_legal/esp/gobierno/juntageneral/2015/Discurso%20Presidenta%20C.Audit_2015.pdf

JA_BOL_03 https://www.bolsasymercados.es/docs/inf_legal/esp/gobierno/juntageneral/2015/Discurso%20Presidente%20C.NyR_2015.pdf

JA_BOL_04 https://www.bolsasymercados.es/docs/inf_legal/esp/gobierno/juntageneral/2015/Discurso%20D.General_2015.pdf

JA_BOL_05 https://www.bolsasymercados.es/docs/inf_legal/esp/gobierno/juntageneral/2016/Doc.14_Discurso%20Presidente%20(Spanish%20only).pdf

JA_BOL_06 https://www.bolsasymercados.es/docs/inf_legal/esp/gobierno/juntageneral/2016/Doc.15_Discurso%20del%20Sra%20%20Prat_2016_(Spanish%20only).pdf

JA_BOL_07 https://www.bolsasymercados.es/docs/inf_legal/esp/gobierno/juntageneral/2016/Doc.16_Discurso%20del%20Sr%20%20Olivencia_2016%20(Spanish%20only).pdf

JA_BOL_08 https://www.bolsasymercados.es/docs/inf_legal/esp/gobierno/juntageneral/2016/Doc.17_Discurso%20Hernani%20(Spanish%20only).pdf

JA_BOL_09 https://www.bolsasymercados.es/docs/inf_legal/esp/gobierno/juntageneral/2017/Doc.9_ES_PJG.pdf

JA_BOL_10 https://www.bolsasymercados.es/docs/inf_legal/esp/gobierno/juntageneral/2017/Doc.10_ES_PJG.pdf

JA_BOL_11 https://www.bolsasymercados.es/docs/inf_legal/esp/gobierno/juntageneral/2017/Doc.11_ES_PJG.pdf

JA_BOL_12 https://www.bolsasymercados.es/docs/inf_legal/esp/gobierno/juntageneral/2017/Doc.12_ES_PJG.pdf

JA_CAF_01 http://www.caf.net/upload/prensa/notas/docs/Discurso-Presidente-Junta-General-Accionistas-2016-cas.pdf

JA_GAM_01 http://www.gamesacorp.com/recursos/doc/accionistas-inversores/gobierno-corporativo/junta-general-accionistas/documentacion-2015/discurso-presidente-2015.pdf

JA_GAM_02 http://www.gamesacorp.com/recursos/doc/accionistas-inversores/gobierno-corporativo/junta-general-accionistas/documentacion-2016/discurso-del-presidente.pdf

JA_GAM_03 http://www.gamesacorp.com/recursos/doc/accionistas-inversores/gobierno-corporativo/junta-general-accionistas/documentacion-2017/discurso-rosa-garcia-es.pdf

JA_GAM_04 http://www.gamesacorp.com/recursos/doc/accionistas-inversores/gobierno-corporativo/junta-general-accionistas/documentacion-2017/discurso-markus-tacke-2017-es.pdf

Page 126: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

118

JA_GNF_01 http://www.prensa.gasnaturalfenosa.com/wp-content/uploads/2015/05/Discurso-Salvador-Gabarro_Junta-2015_ES.pdf

JA_GNF_02 http://www.prensa.gasnaturalfenosa.com/wp-content/uploads/2016/05/Discurso-President.pdf

JA_IAG_01 (enlace no disponible)

JA_IAG_02 (enlace no disponible)

JA_IAG_03 (enlace no disponible)

JA_IAG_04 (enlace no disponible)

JA_IAG_05 (enlace no disponible)

JA_IAG_06 (enlace no disponible)

JA_MAP_01 https://noticias.mapfre.com/wp-content/uploads/2017/01/junta-general-accionistas-2016-infor.pdf

JA_MAP_02 https://noticias.mapfre.com/wp-content/uploads/2017/03/DISCURSO-A-HUERTAS-JUNTA-2017.pdf

JA_MAP_03 https://noticias.mapfre.com/wp-content/uploads/2017/03/DISCURSO-ANTONIO-NU%C3%91EZ-JUNTA-2017_ESP.pdf

JA_MAP_04 https://noticias.mapfre.com/wp-content/uploads/2017/03/DISCURSO-FERNANDO-MATA-JUNTA-2017_ESP.pdf

JA_MED_01 http://www.mediaset.es/inversores/es/discursoalejandroechevarriajga2015_MDSFIL20150415_0006.pdf

JA_MED_02 http://www.mediaset.es/inversores/es/discursopaolovasilejga2015_MDSFIL20150415_0007.pdf

JA_MED_03 http://www.mediaset.es/inversores/es/Alejandro-Echevarria_MDSFIL20160426_0007.pdf

JA_MED_04 http://www.mediaset.es/inversores/es/Discurso-Paolo-Vasile_MDSFIL20160418_0003.pdf

JA_MED_05 http://www.mediaset.es/inversores/es/DISCURSO-PRESIDENTE_MDSFIL20170428_0012.pdf

JA_MED_06 http://www.mediaset.es/inversores/es/Discurso-Paolo-Vasile-consejero-ESP_MDSFIL20170428_0013.pdf

JA_PRI_01.1 https://www.prisa.com/uploads/2016/01/discursos-junta.pdf

JA_PRI_01.2 https://www.prisa.com/uploads/2016/01/discursos-junta.pdf

JA_PRI_02.1 https://www.prisa.com/uploads/2016/05/descargas-discursos-es.pdf

JA_PRI_02.2 https://www.prisa.com/uploads/2016/05/descargas-discursos-es.pdf

JA_PRI_03.1 https://www.prisa.com/uploads/2017/06/discursos-jga-prisa-2017.pdf

JA_PRI_03.2 https://www.prisa.com/uploads/2017/06/discursos-jga-prisa-2017.pdf

JA_REE_01 http://www.ree.es/sites/default/files/03_GOBIERNO_CORPORATIVO/Documentos/Junta%20General%20de%20Accionistas/discurso_junta_2015_v2.pdf

JA_REE_02 http://www.ree.es/sites/default/files/03_GOBIERNO_CORPORATIVO/Documentos/Junta%20General%20de%20Accionistas/discurso_presidente_junta_2016.pdf

JA_REE_03 http://www.ree.es/sites/default/files/03_GOBIERNO_CORPORATIVO/Documentos/Junta%20General%20de%20Accionistas/discurso_ceo_junta_2016.pdf

JA_REE_04 http://www.ree.es/sites/default/files/03_GOBIERNO_CORPORATIVO/Documentos/Junta%20General%20de%20Accionistas/discurso_presidente_junta_2017.pdf

JA_REE_05 http://www.ree.es/sites/default/files/03_GOBIERNO_CORPORATIVO/Documentos/Junta%20General%20de%20Accionistas/discurso_ceo_junta_2017.pdf

JA_SAE_01 http://www.saetayield.com/uploads/files/hechosrelevantes/25-06-2015-discurso-del-presidente.pdf

JA_SAE_02 http://www.saetayield.com/wp-content/uploads/2016/06/2016-06-22_Discurso-del-Presidente.pdf

JA_SAE_03 http://www.saetayield.com/wp-content/uploads/2017/06/Discurso-Presidente-Junta-2017-Saeta-Yield.pdf

JA_SAN_01 http://www.santander.com/csgs/StaticBS?blobcol=urldata&blobheadername1=content-type&blobheadername2=Content-Disposition&blobheadername3=appID&blobheadervalue1=application%2Fpdf&blobheadervalue2=inline%3Bfilename%3D90%5C681%5CDiscurso+Ana+Bot%C3%ADn+JGA+2017.pdf&blobheadervalue3=santander.wc.CFWCSancomQP01&blobkey=id&blobtable=MungoBlobs&blobwhere=1278737785161&ssbinary=true

JA_SAN_02 http://www.santander.com/csgs/StaticBS?blobcol=urldata&blobheadername1=content-type&blobheadername2=Content-Disposition&blobheadername3=appID&blobheadervalue1=application%2Fpdf&blobheadervalue2=inline%3Bfilename%3D334%5C434%5CDiscurso+JAA+Esp+2017.pdf&blobheadervalue3=santander.wc.CFWCSancomQP01&blobkey=id&blobtable=MungoBlobs&blobwhere=1278737786536&ssbinary=true

JA_TEL_01 https://www.telefonica.com/documents/162467/77510562/DiscursoPresidente_2016.pdf/e4c8a8e6-5244-497d-87fd-2c78c767057f

JA_TEL_02 https://www.telefonica.com/documents/162467/139796258/Discurso_Presidente_2017.pdf/97d6349e-dc8a-8606-94e8-44608f391abf

JA_TRE_01 http://www.tecnicasreunidas.es/recursos/doc/accionistas-e-inversores/gobierno-corporativo/2016/discurso-presidente.pdf

Page 127: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

119

JA_TRE_02 http://www.tecnicasreunidas.es/recursos/doc/accionistas-e-inversores/gobierno-corporativo/2016/discurso-vicepresidente-2015.pdf

JA_TRE_03 http://www.tecnicasreunidas.es/recursos/doc/accionistas-e-inversores/gobierno-corporativo/2016/jga/discurso-presidente-jga-2016.pdf

JA_TRE_04 http://www.tecnicasreunidas.es/recursos/doc/accionistas-e-inversores/gobierno-corporativo/2016/jga/discurso-vicepresidente-jga-2016.pdf

Page 128: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

120

Apéndice III: PoS-tagging en SCAP_lista completa de etiquetas

(versión adaptada para esta tesina [29/07/2018])

Símbolos ortográficos

Etiqueta Detalles Ejemplos

BACKSLASH unique element \ CM unique element , COLON unique element : DASH closed list -, FS closed list ., !, ?, ⱡ, … FSI closed list ¿, ¡ LP closed list (left parenthesis) (, [ PERCT unique element % QT closed list (quotation symbols) “, ‘, `, «, » RP closed list (right parenthesis) ), ] SEMICOLON unique element ; SLASH unique element / SYM open list (symbols) $, £, ø, etc.

Categorías léxicas

Etiqueta Detalles Ejemplos

ADJ adjectives bello, feo

ADJV deverbal adjectives abierto, adaptado, cerrado

ADV adverbs muy, demasiado, lentamente

ARTIND indefinite articles un, uno, una, unas

ARTDEF definite articles el, la, los, las

ARTNEU neutral article lo (en “lo malo”)

CC coordinating conjunctions y, o

CCAD adversative coordinating conjunctions pero, mas

CCNEG negative coordinating conjunction ni

CQUE que que

CSUB subordinating conjunctions como, porque, etc. al + inf.

DM demonstrative modifiers and pronouns esta, ésta, esos, etc. (pero no esto, eso, aquello)

INT interrogative pronouns quiénes, cuántas, cuánto, etc.

NC common nouns coordinación, libro, trabajo

NEG negation no

NMEA measure noun metros, litros

ORD ordinals primer, primero, primeros, etc.

PAL portmanteau word formed by a and el al

PDEL portmanteau word formed by de and el del

PPC clitic personal pronoun le, les

PPO possessive pronouns mi, su, sus, etc.

PPX clitics and personal pronouns nos, me, nosotros, te, sí, nadie, etc.

PREP prepositions a, de, sin, etc.

QU quantifiers cada, poco(s), todo, etc.

REL relative pronouns cuyo, donde, como, etc.

SE se se

VLCLIGER clitic gerund verb preguntándolo

VLCLI2GER gerund verb with two clitics preguntándomelo

VLSEGER gerund verb with enclitic “se” preguntándose

VLSECLIGER gerund verb with enclitic “se” and clitic pronoun

preguntándoselo

Page 129: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

121

VLCLIINF clitic infinitive verb preguntarlo

VLCLI2INF infinitive verb with two clitics preguntármelo

VLSEINF infinitive verb with enclitic “se” preguntarse

VLSECLIINF infinitive verb with enclitic “se” and clitic pronoun

preguntárselo

VLCLIFIN clitic finite verb pregúntalo

VLCLI2FIN finite verb with two clitics pregúntamelo

VLSEFIN finite verb with enclitic “se” pregúntese

VLSECLIFIN finite verb with enclitic “se” and clitic pronoun

pregúnteselo

VEPART past particple estar estado

VEFIN finite form estar estoy, estabas, etc.

VECLIFIN clitic finite estar estate, etc.

VEGER gerund estar estando

VEINF infinitive estar estar

VHPART past participle haber habido

VHFIN finite form haber he, ha, etc.

VHGER gerund haber habiendo

VHINF infinitive haber haber

VLPART past participle lexical verb abierto, preguntado, trabajado

VLFIN finite form lexical verb abro, preguntas

VLGER gerund lexical verb abriendo, preguntando

VLINF infinitive lexical verb abrir, preguntar

VMPART past participle modal verb podido, debido, etc.

VMFIN finite form modal verb puedo, debemos, etc.

VMGER gerund modal verb pudiendo, debiendo, etc.

VMINF infinitive modal verb poder, deber, etc.

VSPART past participle ser sido

VSFIN finite form ser soy, eras, etc.

VSGER gerund ser siendo

VSINF infinitive ser ser

XP proper nouns

Categorías especiales

Etiqueta Detalles Ejemplos

ACRNM acronyms ISO, CEI, etc.

ALFP plural letter of the alphabet as/aes, bes, etc.

ALFS singular letter of the alphabet a, b, etc.

CARD cardinals

CODE alphanumeric code

FO formula

ITJN interjection oh, ja, etc.

PE foreign word

PNC unclassified word

UMMX measure unit MHz, km, mA, etc.

Page 130: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

122

Apéndice IV: 100 términos idóneos

# POS LEMA FREC PCTIL %DIFF %DIFF_Sign DP

1 NC dividendo 251 5 > 571707 < 0,001 0,11

2 NC ratio 112 5 > 571707 < 0,001 0,36

3 ADJ sostenible 96 5 > 571707 < 0,001 0,23

4 ADJ regulatorio 90 5 > 571707 < 0,001 0,29

5 NC diversificación 43 5 > 571707 < 0,001 0,26

6 NC endeudamiento 37 5 > 571707 < 0,001 0,22

7 ADJ normativo 33 5 > 571707 < 0,001 0,26

8 NC liquidez 32 5 > 571707 < 0,001 0,46

9 NC capitalización 31 5 > 571707 < 0,001 0,26

10 ADJ macroeconómico 28 5 > 571707 < 0,001 0,12

11 NC digitalización 27 4 > 571707 < 0,001 0,16

12 NC sinergia 27 4 > 571707 < 0,001 0,38

13 NC adjudicación 26 4 > 571707 < 0,001 0,43

14 NC volatilidad 23 4 > 571707 < 0,001 0,16

15 NC revalorización 21 4 > 571707 < 0,001 0,28

16 NC vicepresidente 19 4 > 571707 < 0,001 0,44

17 V optimizar 18 4 > 571707 < 0,001 0,19

18 NC discapacidad 17 4 > 571707 < 0,001 0,34

19 NC internacionalización 16 4 > 571707 < 0,001 0,33

20 NC auditoría 15 4 > 571707 < 0,001 0,23

21 NC devaluación 14 4 > 571707 < 0,001 0,40

22 NC apalancamiento 13 4 > 571707 < 0,001 0,33

23 ADJ sectorial 13 4 > 571707 < 0,001 0,26

24 NC ralentización 12 4 > 571707 < 0,001 0,38

25 NC disrupción 11 4 > 571707 < 0,001 0,49

26 NC reelección 11 4 > 571707 < 0,001 0,43

27 ADJ coordinador 10 4 > 571707 < 0,001 0,45

28 ADJ crediticio 9 4 > 571707 < 0,001 0,31

29 ADJ mayorista 9 4 > 571707 < 0,001 0,41

30 ADJ geopolítico 8 4 > 571707 < 0,001 0,26

31 ADJ porcentual 8 4 > 571707 < 0,001 0,19

32 ADJ neto 185 5 571707 < 0,001 0,18

33 NC rentabilidad 194 5 199774 < 0,001 0,12

34 ADJ corporativo 205 5 105504 < 0,001 0,19

35 NC filial 33 5 101898 < 0,001 0,24

36 NC implantación 33 5 101898 < 0,001 0,27

37 NC crecimiento 539 5 92453 < 0,001 0,07

38 NC integración 81 5 83352 < 0,001 0,40

39 NC incremento 133 5 82116 < 0,001 0,13

40 ADJ climático 41 5 63262 < 0,001 0,38

41 NC solvencia 40 5 61716 < 0,001 0,47

42 NC contratación 39 5 60171 < 0,001 0,43

43 NC financiación 78 5 60171 < 0,001 0,35

44 NC reducción 109 5 56050 < 0,001 0,17

45 NC accionista 256 5 52650 < 0,001 0,08

46 V maximizar 17 4 52444 < 0,001 0,34

47 NC reestructuración 17 4 52444 < 0,001 0,30

48 NC competitividad 32 5 49353 < 0,001 0,35

49 NC liderazgo 77 5 47499 < 0,001 0,16

50 NC inversión 344 5 46128 < 0,001 0,24

51 NC remuneración 58 5 44717 < 0,001 0,16

52 NC consolidación 43 5 44202 < 0,001 0,21

Page 131: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

123

53 ADJ atribuible 14 4 43171 < 0,001 0,13

54 NC record 13 4 40081 < 0,001 0,35

55 NC cotización 50 5 38535 < 0,001 0,22

56 NC mejora 205 5 37172 < 0,001 0,11

57 NC segmento 36 5 36990 < 0,001 0,38

58 NC déficit 23 4 35444 < 0,001 0,25

59 NC retribución 67 5 34414 < 0,001 0,40

60 V priorizar 11 4 33899 < 0,001 0,24

61 NC ratificación 11 4 33899 < 0,001 0,22

62 NC vencimiento 11 4 33899 < 0,001 0,40

63 ADJ institucional 32 5 32869 < 0,001 0,30

64 NC desempeño 42 5 32353 < 0,001 0,31

65 ADJ consejero 31 5 31838 < 0,001 0,31

66 NC proveedor 40 5 30808 < 0,001 0,26

67 NC eficiencia 135 5 29704 < 0,001 0,23

68 NC balance 86 5 29434 < 0,001 0,09

69 NC coste 222 5 28490 < 0,001 0,24

70 NC activo 118 5 27955 < 0,001 0,40

71 ADJ organizativo 17 4 26172 < 0,001 0,13

72 ADJ diferencial 25 4 25657 < 0,001 0,21

73 NC comisión 165 5 25399 < 0,001 0,32

74 NC bono 16 4 24626 < 0,001 0,21

75 ADJ cualitativo 8 4 24626 < 0,001 0,44

76 ADJ impositivo 8 4 24626 < 0,001 0,21

77 NC gestión 279 5 24538 < 0,001 0,11

78 ADJ global 161 5 23596 < 0,001 0,16

79 NC ampliación 45 5 23081 < 0,001 0,19

80 NC cumplimiento 91 5 21535 < 0,001 0,19

81 ADJ precedente 14 4 21535 < 0,001 0,28

82 NC reglamento 14 4 21535 < 0,001 0,32

83 NC semestre 21 4 21535 < 0,001 0,16

84 ADJ anual 118 5 21354 < 0,001 0,08

85 NC contribución 53 5 20376 < 0,001 0,23

86 NC posicionamiento 39 5 19990 < 0,001 0,13

87 NC productividad 13 4 19990 < 0,001 0,30

88 ADJ bursátil 32 5 19681 < 0,001 0,11

89 ADJ emergente 32 5 19681 < 0,001 0,24

90 NC tasa 36 5 18445 < 0,001 0,19

91 NC consecución 23 4 17672 < 0,001 0,26

92 NC desarrollo 318 5 17451 < 0,001 0,18

93 NC asignación 17 4 17414 < 0,001 0,17

94 NC trimestre 112 5 17208 < 0,001 0,48

95 NC euro 951 5 16139 < 0,001 0,11

96 NC adquisición 63 5 16126 < 0,001 0,33

97 NC distribución 83 5 15933 < 0,001 0,11

98 NC innovación 66 5 15592 < 0,001 0,16

99 ADJ ejecutivo 60 5 15354 < 0,001 0,35

100 NC junta 35 5 15354 < 0,001 0,28

Page 132: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

124

Apéndice V: 50 términos no idóneos_lista1 (frecuentes pero no específicos)

# POS LEMA FREC PCTIL %DIFF %DIFF_Sign DP

1 V seguir 375 5 11 entre 0,01 y 0,05 0,04

2 ADJ bueno 247 5 -7 no 0,07

3 NC mundo 184 5 13 no 0,15

4 NC persona 145 5 20 entre 0,01 y 0,05 0,07

5 NC lugar 135 5 -16 entre 0,01 y 0,05 0,10

6 ADJ propio 124 5 19 no 0,21

7 V conseguir 116 5 -2 no 0,16

8 NC manera 116 5 27 entre 0,01 y 0,05 0,15

9 NC caso 100 5 4 no 0,23

10 ADJ posible 89 5 30 entre 0,01 y 0,05 0,16

11 ADJ fuerte 88 5 33 entre 0,01 y 0,05 0,07

12 V convertir 87 5 14 no 0,19

13 NC duda 86 5 23 no 0,11

14 V mostrar 86 5 6 no 0,22

15 NC final 85 5 30 entre 0,01 y 0,05 0,15

16 NC historia 80 5 11 no 0,29

17 V lograr 78 5 -7 no 0,27

18 ADJ capaz 71 5 -1 no 0,23

19 NC hecho 70 5 2 no 0,08

20 NC resto 68 5 -9 no 0,19

21 ADJ claro 64 5 32 entre 0,01 y 0,05 0,12

22 ADJ bajo 61 5 16 no 0,22

23 ADJ difícil 58 5 36 entre 0,01 y 0,05 0,19

24 NC atención 57 5 -11 no 0,37

25 V asegurar 55 5 -20 no 0,21

26 NC entrada 48 5 6 no 0,08

27 V recibir 48 5 -8 no 0,14

28 NC papel 46 5 20 no 0,25

29 NC respuesta 46 5 -30 entre 0,01 y 0,05 0,14

30 V apoyar 44 5 -6 no 0,09

31 V compartir 43 5 11 no 0,24

32 V señalar 43 5 -23 no 0,05

33 V ganar 41 5 -2 no 0,20

34 ADJ enorme 40 5 -12 no 0,12

35 V partir 40 5 4 no 0,12

36 V confiar 39 5 11 no 0,20

37 NC orden 38 5 12 no 0,38

38 NC centro 36 5 5 no 0,20

39 NC detalle 36 5 1 no 0,19

40 NC dirección 36 5 -25 no 0,06

41 ADJ real 35 5 15 no 0,19

42 ADJ profundo 34 5 9 no 0,16

43 NC peso 33 5 58 entre 0,01 y 0,05 0,09

44 V sufrir 33 5 -25 no 0,16

45 NC estado 32 5 1 no 0,36

46 NC motivo 32 5 -4 no 0,17

47 NC circunstancia 31 5 35 no 0,19

48 V cubrir 31 5 -27 no 0,06

49 NC cuestión 31 5 26 no 0,23

50 V existir 31 5 -35 entre 0,01 y 0,05 0,14

Page 133: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

125

Apéndice VI: 50 términos no idóneos_lista2 (específicos pero menos frecuentes)

# POS LEMA FREQ PCTIL %DIFF %DIFF_Sign DP

1 NC referéndum 10 3 > 30808 < 0,001 0,73

2 NC pyme 9 3 > 30808 < 0,001 0,75

3 NC recompra 9 3 > 30808 < 0,001 0,67

4 NC fortalecimiento 8 3 > 30808 < 0,001 0,67

5 NC biodiversidad 7 3 > 30808 < 0,001 0,77

6 NC certificación 7 3 > 30808 < 0,001 0,67

7 ADJ multiplataforma 7 3 > 30808 < 0,001 0,74

8 ADJ nominal 7 3 > 30808 < 0,001 0,67

9 NC megavatio 6 3 > 30808 < 0,001 0,77

10 NC formulación 5 3 > 30808 < 0,001 0,75

11 ADJ generalista 5 3 > 30808 < 0,001 0,74

12 NC kilovoltio 5 3 > 30808 < 0,001 0,77

13 NC multicanalidad 5 3 > 30808 < 0,001 0,75

14 NC petrolera 5 3 > 30808 < 0,001 0,81

15 NC petroquímica 5 3 > 30808 < 0,001 0,81

16 ADJ reasegurador 5 3 > 30808 < 0,001 0,75

17 NC trillón 5 3 > 30808 < 0,001 0,81

18 NC viabilidad 5 3 > 30808 < 0,001 0,74

19 ADJ comercializador 4 3 > 30808 < 0,001 0,74

20 ADJ consultivo 4 3 > 30808 < 0,001 0,75

21 NC formalización 4 2 > 30808 < 0,001 0,77

22 NC hidrocarburo 4 2 > 30808 < 0,001 0,81

23 ADJ hipotecario 4 3 > 30808 < 0,001 0,75

24 NC inconformismo 4 2 > 30808 < 0,001 0,74

25 ADJ operacional 4 3 > 30808 < 0,001 0,75

26 ADJ radioeléctrico 4 3 > 30808 < 0,001 0,74

27 ADJ supervisor 4 3 > 30808 < 0,001 0,75

28 NC abaratamiento 3 2 > 30808 < 0,001 0,81

29 ADJ actuarial 3 2 > 30808 < 0,001 0,75

30 NC autoconsumo 3 2 > 30808 < 0,001 0,77

31 ADJ bituminoso 3 2 > 30808 < 0,001 0,81

32 NC brasil 3 2 > 30808 < 0,001 0,75

33 ADJ curricular 3 2 > 30808 < 0,001 0,74

34 NC desaladora 3 2 > 30808 < 0,001 0,81

35 ADJ desfasador 3 2 > 30808 < 0,001 0,77

36 NC exclusivista 3 2 > 30808 < 0,001 0,74

37 NC gasificación 3 2 > 30808 < 0,001 0,77

38 ADJ hidroeléctrico 3 2 > 30808 < 0,001 0,77

39 NC homologación 3 2 > 30808 < 0,001 0,68

40 ADJ metanero 3 2 > 30808 < 0,001 0,77

41 ADJ minorista 3 2 > 30808 < 0,001 0,75

42 NC negociado 3 2 > 30808 < 0,001 0,75

43 NC otorgamiento 3 2 > 30808 < 0,001 0,74

44 ADJ poblacional 3 2 > 30808 < 0,001 0,81

45 NC reforzamiento 3 2 > 30808 < 0,001 0,67

46 NC repositorio 3 2 > 30808 < 0,001 0,75

47 ADJ secuencial 3 2 > 30808 < 0,001 0,75

48 ADJ biocombustible 2 1 > 30808 < 0,001 0,93

49 NC cristalización 2 1 > 30808 < 0,001 0,81

50 NC liberalización 2 1 > 30808 < 0,001 0,93

Page 134: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

126

Apéndice VII: Glosario de traducción extenso

Page 135: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

127

Page 136: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

128

Apéndice VIII: Glosario de traducción breve

Glosario

Aviso: el glosario se ha generado automáticamente sin tener en cuenta el contexto. Las

traducciones deberían usarse con cautela.

accionista (sust m): aandeelhouder

activo (sust m): actief, activa, werkzaam

adjudicación (sust f): toekenning

adquisición (sust f): aankoop, aanschaf, aanwinst, acquisitie, koop, verwerving

ampliación (sust f): aanbouw, uitbreiding, vergroting

anual (adj): [?] jaarlijks

apalancamiento (sust m): [?] financiële hefboomwerking, hefboom, hefboomkracht, leverage,

schuldverhoudingscoëfficiënt, vermogensverhouding

asignación (sust f): toelage, toewijzing

atribuible (adj): [?] toe te schrijven, toewijsbaar

auditoría (sust f): accountantsbureau, accountantsonderzoek, audit, doorlichting

balance (sust m): balans, evenwicht, saldo

bono (sust m): bon, obligatie, waardebon

bursátil (adj): [?] aandelenmarkt, beurs-, stereotiep

capitalización (sust f): kapitalisatie

climático (adj): no incluido en la base de datos

comisión (sust f): commissie, opdracht

competitividad (sust f): concurrentievermogen

consecución (sust f): [?] prestatie, verkrijging, verwerving, wapenfeit

consejero (adj m): [?] adviseur, assessor, beheerder, bewindvoerder, bijzitter, consulent, lid, mentor,

minister, raadgever, raadsman, raadsvrouw

consolidación (sust f): consolidatie, versteviging

contratación (sust f): engagement, indienstneming, nominatie

contribución (sust f): belasting, bijdrage

coordinador (adj m): [?] Coördinator, coördinator, overdekkend, overkoepelend

corporativo (adj): [?] bedrijfsmatig, zakelijke

Page 137: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

129

coste (sust m): kosten

cotización (sust f): koers, notering, plan

crecimiento (sust m): groei, toename, tumor

crediticio (adj): [?] credit, eer

cualitativo (adj): kwalitatief

cumplimiento (sust m): beleefdheid, vervulling, voltooiing

desarrollo (sust m): [?] ontwikkeling

desempeño (sust m): bedrevenheid, vervulling

devaluación (sust f): devaluatie, waardevermindering

diferencial (adj): differentieel, uiteenlopend

digitalización (sust f): digitalisatie, digitalisering

discapacidad (sust f): handicap

disrupción (sust f): no incluido en la base de datos

distribución (sust f): distributie, levering, verdeling, verspreiding

diversificación (sust f): diversificatie

dividendo (sust m): deeltal, dividend, winstaandeel

déficit (sust m): deficit, tekort

eficiencia (sust f): efficiëntie, rendement

ejecutivo (adj m): dringend, uitvoerend

emergente (adj): [?] opkomend

endeudamiento (sust m): schuldenlast

euro (sust m): [?] EUR, euro, oostenwind

filial (sust f): agentschap, bijkantoor, filiaal

financiación (sust f): bekostiging, financieren, financiering

geopolítico (adj): geopolitiek

gestión (sust f): beheer, management

global (adj): globaal

implantación (sust f): implantatie, implementatie, inplanting

impositivo (adj): [?] belasten, belasting

incremento (sust m): aangroei, groei, toename

Page 138: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

130

innovación (sust f): innovatie, vernieuwing

institucional (adj): [?] bedrijfsmatig, institueel, institutionele

integración (sust f): integratie

internacionalización (sust f): [?] internationalisering, mondialisering

inversión (sust f): belegging, investering

junta (sust f): naad, vergadering, voeg

liderazgo (sust m): leiderschap

liquidez (sust f): liquiditeit

macroeconómico (adj): [?] macro-economisch, macro-economische

maximizar (v): maximaliseren

mayorista (adj f): no incluido en la base de datos

mejora (sust f): verbetering, veredeling, vooruitgang

neto (adj): netto

normativo (adj): [?] maatgevend, normatief

optimizar (v): optimaliseren

organizativo (adj): organisatorisch

porcentual (adj): procentueel

posicionamiento (sust m): [?] plaatsing, positionering

precedente (adj m): voorafgaand, voorgaand

priorizar (v): [?] prioriteiten stellen, prioriteren

productividad (sust f): opbrengst, productiviteit

proveedor (sust m): leverancier

ralentización (sust f): [?] neergang, vertraging

ratificación (sust f): bekrachtiging

ratio (sust m, f): [?] Razón, Razón, fundamentación, fundamentación, ratio, verhouding, índice, índice

record (sust m): record

reducción (sust f): afname, afslag, korting, reductie, vermindering

reelección (sust f): herkiezing, herverkiezing

reestructuración (sust f): herstructurering

reglamento (sust m): reglement, verordening

Page 139: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

131

regulatorio (adj): [?] regelgevende, regulerend

remuneración (sust f): beloning, loon, vergoeding

rentabilidad (sust f): rentabiliteit

retribución (sust f): bezoldiging, retributie

revalorización (sust f): herwaardering

sectorial (adj): [?] sectoraal, sectorale

segmento (sust m): gedeelte, segment, stuk

semestre (sust m): halfjaar, semester

sinergia (sust f): synergie

solvencia (sust f): kredietwaardigheid, solvabiliteit

sostenible (adj): handhaafbaar

tasa (sust f): belasting, heffing, schatting

trimestre (sust m): kwartaal

vencimiento (sust m): afloop, einde

vicepresidente (sust m): ondervoorzitter, vice-president, vicepresident

volatilidad (sust f): historische volatility, vluchtigheid, volatiliteit

Page 140: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

132

Apéndice IX: Encuesta_documento1

VERSIÓN 1

Nombre: …………………………………………………………………………………………………

Género / Contexto

Discursos pronunciados en juntas generales de accionistas de empresas españolas

Selección de vocabulario

Las listas de palabras siguientes fueron generadas por la herramienta SCAP. No aparecen en

el método de vocabulario de Thematische Woordenschat (Intertaal) y posiblemente sean

palabras “difíciles” a las que conviene dedicar atención en las clases.

Actividad

Por favor, deberías evaluar las palabras marcando :

No = no entiendo la palabra y consultaría un diccionario para entenderla o para

traducirla

PAS = entiendo la palabra pero no creo que lo utilizaría espontáneamente si me

hiciera falta

ACT = creo que utilizaría esta palabra si me hiciera falta

Por ejemplo:

No Pas Act

pileta X

partidario X

bandera X

Page 141: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

133

Conoces los sustantivos

siguientes?

NO PAS ACT

accesibilidad accionariado acierto acorde acreedor adhesión adjudicatario adversidad aerogenerador ambición amplitud analista ánimo anunciante aparición apoyo aseguradora asistencia audiencia auditor ausencia austeridad autocartera autoridad bajada biodiversidad bombeo bono búsqueda carbono

categoría certeza cese cimiento circuito cláusula clave clientela competitividad complejo complicidad componente consejero consultor contexto continente contingencia continuidad contratista contribuyente coraje creatividad creces credibilidad cuantía cuidado debate debilidad década derivado desapalancamiento descenso desembolso desempeño

Page 142: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

134

desequilibrio despliegue dígito dimensión dinámica dinamismo discapacidad disponibilidad disrupción diversidad dividendo dosis efectividad

¿Conoces los verbos siguientes?

NO PAS ACT

acometer

acumular

adaptar

adjudicar

adoptar

afectar

aglutinar

añadir

animar

aparecer

arrojar

articular

augurar

aunar

avalar

avecinar

calificar

canalizar

caracterizar

ceder

centrar

colaborar

comercializar

compartir

compensar

complacer

concentrar

concluir

condicionar

configurar

constar

cotizar

crear

creer

decrecer

definir

derivar

descender

descontar

desempeñar

¿Conoces los adjetivos siguientes?

NO PAS ACT

abrupto

accionarial

acreedor

acústico

alcanzable

amplio

analógico

Page 143: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

135

apasionante

arduo

asegurador

atribuible

audiovisual

autonómico

bancario

básico

benéfico

bienvenido

bursátil

céntimo

cinematográfico

circulante

clave

comercializador

complejo

concesional

consecutivo

consejero

considerable

consiguiente

consistente

constructor

consultivo

convencional

coordinador

corporativo

creativo

crucial

cualitativo

cuantitativo

definitivo

demográfico

destacable

diferenciador

directivo

distintivo

diverso

dominante

dominical

drástico

duradero

educativo

eficiente

ejecutivo

ejemplar

emblemático

empresarial

envidiable

equivalente

errático

específico

espectacular

Page 144: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

136

Apéndice X: Encuesta_documento2

VERSIÓN 2

Nombre: …………………………………………………………………………………………………

Género / Contexto

Discursos pronunciados en juntas generales de accionistas de empresas españolas

Selección de vocabulario

Las listas de palabras siguientes fueron generadas por la herramienta SCAP. No aparecen en

el método de vocabulario de Thematische Woordenschat (Intertaal) y posiblemente sean

palabras “difíciles” a las que conviene dedicar atención en las clases.

Actividad

Por favor, deberías evaluar las palabras marcando :

No = no entiendo la palabra y consultaría un diccionario para entenderla o para

traducirla

PAS = entiendo la palabra pero no creo que lo utilizaría espontáneamente si me

hiciera falta

ACT = creo que utilizaría esta palabra si me hiciera falta

Por ejemplo:

No Pas Act

pileta X

partidario X

bandera X

Page 145: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

137

¿Conoces los sustantivos

siguientes?

NO PAS ACT

eficacia

eficiencia

ejemplar

emisora

emprendedor

endeudamiento

entusiasmo

espacio

espectro

estabilidad

estándar

estatuto

estrategia

etapa

ética

exigencia

experto

fabricante

facilidad

factor

fase

fenómeno

fiabilidad

ficción

figura

filial

flexibilidad

formato

fósil

franquicia

funcionalidad

funcionamiento

fundación

ganancia

gratitud

hidráulica

impacto

inestabilidad

inflexión

inicio

inquietud

instancia

integridad

intensidad

interconexión

iva

junta

lealtad

lema

libra

licencia

liquidez

lustro

magnitud

mandato

margen

mecanismo

metodología

misión

modalidad

módulo

movilidad

multicanalidad

navegador

Page 146: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

138

nombramiento

nómina

norma

objeto

ocasión

optimismo

organismo

orgullo

palanca

patrocinio

período

permanencia

¿Conoces los verbos siguientes?

NO PAS ACT

destacar

determinar

devolver

distribuir

diversificar

elaborar

elevar

eliminar

empeorar

enriquecer

equilibrar

equivaler

estabilizar

establecer

estrenar

estructurar

evaluar

evolucionar

expandir

extraer

favorecer

finalizar

financiar

formalizar

formular

implantar

implicar

innovar

intensificar

intervenir

introducir

limitar

manifestar

materializar

mencionar

moderar

mostrar

ocultar

ofrecer

optar

¿Conoces los adjetivos siguientes?

NO PAS ACT

esperanzador

estándar

estatutario

estricto

estructural

ético

exento

exhaustivo

Page 147: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

139

exigente

existente

externo

favorable

fertilizante

fósil

fotovoltaico

funcional

generador

generalista

geográfico

geopolítico

gerencial

global

hidráulico

hipotecario

hispano

iberio

idéntico

ilusionante

implícito

imposible

impositivo

imprescindible

incierto

indirecto

indiscutible

indudable

inestimable

inevitable

informático

informativo

ingente

inicial

inmerso

innovador

innumerable

institucional

íntegro

interanual

latinoamericano

líquido

macroeconómico

masivo

matinal

mayoritario

mediano

medioambiental

metálico

minoritario

mixto

multicanal

multiplataforma

Page 148: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

140

Apéndice XI: Encuesta_documento3

VERSIÓN 3

Nombre: …………………………………………………………………………………………………

Género / Contexto

Discursos pronunciados en juntas generales de accionistas de empresas españolas

Selección de vocabulario

Las listas de palabras siguientes fueron generadas por la herramienta SCAP. No aparecen en

el método de vocabulario de Thematische Woordenschat (Intertaal) y posiblemente sean

palabras “difíciles” a las que conviene dedicar atención en las clases.

Actividad

Por favor, deberías evaluar las palabras marcando :

No = no entiendo la palabra y consultaría un diccionario para entenderla o para

traducirla

PAS = entiendo la palabra pero no creo que lo utilizaría espontáneamente si me

hiciera falta

ACT = creo que utilizaría esta palabra si me hiciera falta

Por ejemplo:

NO PAS ACT

pileta X

partidario X

bandera X

Page 149: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

141

¿Conoces los sustantivos

siguientes?

NO PAS ACT

perspectiva pertenencia petrolera

petroquímica

plan

plantilla

plataforma

pluralidad

potencial

presidencia

prestigio

primo

productividad

profesionalidad

prudencia

pyme

rapidez

ratio

reaseguro

recesión

recompra

recorte

referencia

referéndum refinería reflejo reglamento regulador relevancia renuncia

reparto repaso reporte repunte resolución restante rumbo saeta segmento sencillez senda seno significado siniestralidad síntoma solidez solvencia sostenibilidad subasta subestación superávit talento tarea técnica telecomunicación terreno toma torno totalidad transacción transparencia trayectoria trienio trillón

Page 150: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

142

turbina vector vehículo vencimiento versión vigor virtud visibilidad visión vocación vocal volatilidad voluntariado

¿Conoces los verbos siguientes?

NO PAS ACT

otorgar

permanecer

pivotar

preservar

presidir

progresar

proporcionar

recaer

recaudar

recurrir

refrendar

registrar

reinventar

reiterar

relacionar

remunerar

rendir

repartir

retribuir

revalorizar

revisar

roer

sacrificar

satisfacer

seleccionar

simplificar

situar

soler

someter

subrayar

sugerir

sumar

sumir

superar

supervisar

timar

totalizar

triplicar

vincular

¿Conoces los adjetivos siguientes?

NO PAS ACT

múltiple

neutral

neutro

nominal

operacional

operador

ordinario

pertinente

Page 151: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

143

petroquímico

plurianual

porcentual

potente

prestigioso

presupuestario

previsible

procesal

prometedor

proporcional

publicitario

radioeléctrico

radiofónico

real

reasegurador

refino

regional

relevante

repentino

respectivo

restante

resultante

retributivo

robusto

significativo

similar

siniestro

soberano

societario

solidario

solvente

submarino

supervisor

tarifario

tecnológico

televisivo

temático

terminal

termosolar

transformador

trascendental

unitario

usuario

vacante

variable

viable

vial

vigente

virtual

vital

volátil

vulnerable

Page 152: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

144

Apéndice XII: Encuesta_niveles Ba2

Ba2_nivel 1 (178 términos) POS LEMA POS LEMA POS LEMA POS LEMA

NC ambición NC objeto V descender ADJ crucial

NC apoyo NC ocasión V determinar ADJ cualitativo

NC asistencia NC optimismo V distribuir ADJ cuantitativo

NC audiencia NC organismo V eliminar ADJ definitivo

NC ausencia NC período V equivaler ADJ demográfico

NC autoridad NC perspectiva V establecer ADJ dominante

NC bajada NC plan V evaluar ADJ drástico

NC biodiversidad NC potencial V evolucionar ADJ educativo

NC categoría NC presidencia V finalizar ADJ eficiente

NC certeza NC prestigio V financiar ADJ equivalente

NC clave NC primo V formular ADJ específico

NC complejo NC productividad V implicar ADJ espectacular

NC contexto NC profesionalidad V innovar ADJ favorable

NC continente NC referencia V intervenir ADJ funcional

NC continuidad NC referéndum V introducir ADJ geográfico

NC creatividad NC relevancia V limitar ADJ global

NC credibilidad NC resolución V mencionar ADJ idéntico

NC cuidado NC restante V ofrecer ADJ implícito

NC debate NC significado V optar ADJ imposible

NC derivado NC síntoma V progresar ADJ incierto

NC dimensión NC talento V reinventar ADJ indirecto

NC dinámica NC tarea V relacionar ADJ inevitable

NC diversidad NC técnica V revisar ADJ informativo

NC efectividad NC totalidad V sacrificar ADJ innumerable

NC eficiencia NC transacción V satisfacer ADJ latinoamericano

NC entusiasmo NC transparencia V seleccionar ADJ metálico

NC espacio NC vehículo V simplificar ADJ neutral

NC estabilidad NC versión V situar ADJ neutro

NC estrategia NC visión V soler ADJ porcentual

NC etapa NC vocal V subrayar ADJ prestigioso

NC experto V adaptar V sugerir ADJ previsible

NC factor V adoptar V superar ADJ real

NC fase V afectar ADJ amplio ADJ regional

NC fenómeno V añadir ADJ audiovisual ADJ relevante

NC ficción V aparecer ADJ autonómico ADJ significativo

NC figura V articular ADJ básico ADJ similar

NC flexibilidad V calificar ADJ bienvenido ADJ solidario

NC formato V caracterizar ADJ clave ADJ tecnológico

NC fundación V colaborar ADJ complejo ADJ temático

NC impacto V compensar ADJ consecutivo ADJ terminal

NC inicio V concentrar ADJ considerable ADJ variable

NC intensidad V concluir ADJ consiguiente ADJ virtual

NC junta V crear ADJ consistente ADJ vital

NC mecanismo V creer ADJ creativo ADJ vulnerable

NC misión V definir

Page 153: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

145

Ba2_nivel 2 (132 términos)

POS LEMA POS LEMA POS LEMA POS LEMA

NC accesibilidad NC integridad V equilibrar ADJ estructural

NC acorde NC magnitud V estabilizar ADJ ético

NC amplitud NC mandato V estructurar ADJ existente

NC analista NC metodología V expandir ADJ externo

NC ánimo NC navegador V favorecer ADJ fósil

NC aparición NC norma V intensificar ADJ generalista

NC auditor NC orgullo V manifestar ADJ hispano

NC búsqueda NC pertenencia V moderar ADJ ilusionante

NC carbono NC plantilla V permanecer ADJ indiscutible

NC circuito NC plataforma V preservar ADJ indudable

NC competitividad NC pluralidad V proporcionar ADJ informático

NC complicidad NC rapidez V recurrir ADJ inicial

NC componente NC reflejo V repartir ADJ líquido

NC consultor NC renuncia V retribuir ADJ masivo

NC debilidad NC repaso V supervisar ADJ medioambiental

NC década NC segmento V totalizar ADJ múltiple

NC desequilibrio NC solidez V triplicar ADJ nominal

NC dinamismo NC telecomunicación ADJ abrupto ADJ operacional

NC discapacidad NC terreno ADJ analógico ADJ operador

NC disponibilidad NC turbina ADJ apasionante ADJ ordinario

NC dosis NC visibilidad ADJ bancario ADJ pertinente

NC ejemplar NC voluntariado ADJ benéfico ADJ potente

NC emisora V acumular ADJ cinematográfico ADJ proporcional

NC estándar V animar ADJ comercializador ADJ radioeléctrico

NC estatuto V centrar ADJ constructor ADJ respectivo

NC ética V comercializar ADJ consultivo ADJ restante

NC fabricante V compartir ADJ coordinador ADJ resultante

NC facilidad V decrecer ADJ corporativo ADJ robusto

NC fósil V derivar ADJ distintivo ADJ submarino

NC funcionalidad V elaborar ADJ diverso ADJ supervisor

NC funcionamiento V elevar ADJ duradero ADJ televisivo

NC gratitud V empeorar ADJ ejemplar ADJ transformador

NC inestabilidad V enriquecer ADJ estricto ADJ usuario

Page 154: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

146

Ba2_nivel 3 (136 términos)

POS LEMA POS LEMA POS LEMA POS LEMA

NC acierto NC modalidad V diversificar ADJ exhaustivo

NC adhesión NC módulo V estrenar ADJ exigente

NC adversidad NC movilidad V extraer ADJ fertilizante

NC anunciante NC nombramiento V formalizar ADJ generador

NC aseguradora NC permanencia V implantar ADJ geopolítico

NC autocartera NC petroquímica V materializar ADJ hidráulico

NC bombeo NC prudencia V mostrar ADJ hipotecario

NC cláusula NC ratio V presidir ADJ iberio

NC clientela NC reaseguro V registrar ADJ impositivo

NC consejero NC recesión V reiterar ADJ inestimable

NC contratista NC recompra V rendir ADJ innovador

NC contribuyente NC recorte V revalorizar ADJ institucional

NC creces NC reglamento V someter ADJ íntegro

NC cuantía NC regulador V sumar ADJ interanual

NC descenso NC reporte V sumir ADJ macroeconómico

NC desempeño NC sostenibilidad V vincular ADJ mayoritario

NC disrupción NC toma ADJ acústico ADJ mediano

NC dividendo NC torno ADJ alcanzable ADJ minoritario

NC eficacia NC trayectoria ADJ asegurador ADJ mixto

NC emprendedor NC trillón ADJ céntimo ADJ multicanal

NC espectro NC vector ADJ circulante ADJ multiplataforma

NC fiabilidad NC vigor ADJ concesional ADJ petroquímico

NC filial NC virtud ADJ consejero ADJ plurianual

NC franquicia NC vocación ADJ convencional ADJ presupuestario

NC ganancia V adjudicar ADJ destacable ADJ procesal

NC hidráulica V aglutinar ADJ diferenciador ADJ publicitario

NC inquietud V canalizar ADJ directivo ADJ radiofónico

NC instancia V ceder ADJ dominical ADJ reasegurador

NC interconexión V condicionar ADJ ejecutivo ADJ retributivo

NC lema V configurar ADJ emblemático ADJ siniestro

NC libra V constar ADJ empresarial ADJ societario

NC licencia V descontar ADJ envidiable ADJ termosolar

NC liquidez V desempeñar ADJ estándar ADJ vacante

NC margen V devolver ADJ estatutario ADJ viable

Ba2_nivel 4 (85 términos)

POS LEMA POS LEMA POS LEMA POS LEMA

NC accionariado NC palanca V arrojar ADJ bursátil

NC acreedor NC patrocinio V augurar ADJ errático

NC adjudicatario NC petrolera V aunar ADJ esperanzador

NC aerogenerador NC pyme V avalar ADJ exento

NC austeridad NC refinería V avecinar ADJ fotovoltaico

NC bono NC reparto V complacer ADJ gerencial

NC cese NC repunte V cotizar ADJ imprescindible

NC cimiento NC rumbo V destacar ADJ ingente

NC contingencia NC saeta V ocultar ADJ inmerso

NC coraje NC sencillez V otorgar ADJ matinal

NC desapalancamiento NC senda V pivotar ADJ prometedor

NC desembolso NC seno V recaer ADJ refino

NC despliegue NC siniestralidad V recaudar ADJ repentino

NC dígito NC solvencia V refrendar ADJ soberano

NC endeudamiento NC subasta V remunerar ADJ solvente

NC exigencia NC subestación V roer ADJ tarifario

NC inflexión NC superávit V timar ADJ trascendental

NC iva NC trienio ADJ accionarial ADJ unitario

NC lealtad NC vencimiento ADJ acreedor ADJ vial

NC lustro NC volatilidad ADJ arduo ADJ vigente

NC multicanalidad V acometer ADJ atribuible ADJ volátil

NC nómina

Page 155: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

147

Apéndice XIII: Encuesta_niveles máster

Máster_nivel 1 (304 términos)

POS LEMA POS LEMA POS LEMA POS LEMA

NC accesibilidad NC misión V destacar ADJ coordinador

NC adversidad NC norma V determinar ADJ corporativo

NC ambición NC objeto V devolver ADJ creativo

NC analista NC ocasión V distribuir ADJ crucial

NC ánimo NC optimismo V elaborar ADJ cualitativo

NC aparición NC organismo V elevar ADJ cuantitativo

NC apoyo NC orgullo V eliminar ADJ definitivo

NC asistencia NC período V empeorar ADJ demográfico

NC audiencia NC perspectiva V enriquecer ADJ distintivo

NC auditor NC pertenencia V equivaler ADJ diverso

NC ausencia NC plan V estabilizar ADJ dominante

NC austeridad NC plataforma V establecer ADJ drástico

NC autoridad NC pluralidad V evaluar ADJ educativo

NC bajada NC potencial V evolucionar ADJ eficiente

NC biodiversidad NC presidencia V favorecer ADJ ejecutivo

NC bombeo NC prestigio V finalizar ADJ ejemplar

NC búsqueda NC primo V financiar ADJ emblemático

NC carbono NC productividad V formular ADJ empresarial

NC categoría NC profesionalidad V implicar ADJ equivalente

NC certeza NC rapidez V innovar ADJ específico

NC circuito NC recesión V intensificar ADJ espectacular

NC cláusula NC recorte V intervenir ADJ estándar

NC clave NC referencia V introducir ADJ estricto

NC clientela NC referéndum V limitar ADJ estructural

NC competitividad NC reflejo V manifestar ADJ ético

NC complejo NC relevancia V mencionar ADJ exigente

NC complicidad NC restante V mostrar ADJ existente

NC componente NC segmento V ocultar ADJ externo

NC consejero NC significado V ofrecer ADJ favorable

NC consultor NC síntoma V optar ADJ funcional

NC contexto NC solidez V permanecer ADJ geográfico

NC continente NC sostenibilidad V preservar ADJ global

NC continuidad NC talento V progresar ADJ hispano

NC contribuyente NC tarea V proporcionar ADJ idéntico

NC creatividad NC técnica V recurrir ADJ implícito

NC credibilidad NC telecomunicación V registrar ADJ imposible

NC cuidado NC terreno V reinventar ADJ imprescindible

NC debate NC torno V relacionar ADJ incierto

NC debilidad NC totalidad V revisar ADJ indirecto

NC década NC transacción V sacrificar ADJ inevitable

NC derivado NC transparencia V satisfacer ADJ informático

NC descenso NC trillón V seleccionar ADJ informativo

NC desempeño NC vehículo V simplificar ADJ inicial

NC desequilibrio NC versión V situar ADJ innovador

NC dimensión NC vigor V soler ADJ institucional

NC dinámica NC virtud V subrayar ADJ latinoamericano

NC dinamismo NC visibilidad V sugerir ADJ masivo

NC disponibilidad NC visión V sumar ADJ mixto

NC diversidad NC vocal V superar ADJ múltiple

NC dosis V acumular V supervisar ADJ neutral

NC efectividad V adaptar V triplicar ADJ neutro

NC eficiencia V adoptar V vincular ADJ operacional

NC entusiasmo V afectar ADJ abrupto ADJ ordinario

NC espacio V añadir ADJ acústico ADJ porcentual

NC estabilidad V animar ADJ alcanzable ADJ prestigioso

NC estándar V aparecer ADJ amplio ADJ proporcional

NC estrategia V articular ADJ analógico ADJ real

NC etapa V calificar ADJ audiovisual ADJ regional

NC experto V caracterizar ADJ autonómico ADJ relevante

NC fabricante V ceder ADJ bancario ADJ respectivo

NC facilidad V centrar ADJ básico ADJ restante

NC factor V colaborar ADJ benéfico ADJ resultante

Page 156: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

148

NC fase V comercializar ADJ bienvenido ADJ significativo

NC fenómeno V compartir ADJ céntimo ADJ similar

NC figura V compensar ADJ cinematográfico ADJ solidario

NC flexibilidad V concentrar ADJ circulante ADJ supervisor

NC formato V concluir ADJ clave ADJ tecnológico

NC funcionamiento V condicionar ADJ comercializador ADJ temático

NC gratitud V configurar ADJ complejo ADJ terminal

NC impacto V constar ADJ consecutivo ADJ usuario

NC inestabilidad V crear ADJ consejero ADJ vacante

NC inicio V creer ADJ considerable ADJ variable

NC intensidad V definir ADJ consiguiente ADJ viable

NC lema V derivar ADJ consistente ADJ virtual

NC mecanismo V descender ADJ constructor ADJ vital

NC metodología V desempeñar ADJ convencional ADJ vulnerable

Máster_nivel 2 (108 términos)

POS LEMA POS LEMA POS LEMA POS LEMA

NC acorde NC margen V extraer ADJ hipotecario

NC acreedor NC modalidad V formalizar ADJ iberio

NC adhesión NC módulo V moderar ADJ ilusionante

NC amplitud NC movilidad V otorgar ADJ indiscutible

NC aseguradora NC navegador V presidir ADJ indudable

NC desembolso NC nombramiento V recaer ADJ inestimable

NC discapacidad NC permanencia V remunerar ADJ innumerable

NC ejemplar NC petrolera V repartir ADJ líquido

NC emisora NC petroquímica V revalorizar ADJ macroeconómico

NC endeudamiento NC plantilla V someter ADJ mayoritario

NC estatuto NC prudencia V sumir ADJ mediano

NC ética NC ratio V totalizar ADJ medioambiental

NC exigencia NC reglamento ADJ acreedor ADJ metálico

NC fiabilidad NC renuncia ADJ apasionante ADJ minoritario

NC ficción NC resolución ADJ asegurador ADJ nominal

NC filial NC sencillez ADJ bursátil ADJ pertinente

NC funcionalidad NC turbina ADJ concesional ADJ petroquímico

NC fundación NC vencimiento ADJ consultivo ADJ potente

NC inquietud NC vocación ADJ destacable ADJ previsible

NC instancia NC volatilidad ADJ diferenciador ADJ publicitario

NC integridad V canalizar ADJ directivo ADJ radiofónico

NC iva V complacer ADJ duradero ADJ repentino

NC junta V cotizar ADJ estatutario ADJ robusto

NC licencia V decrecer ADJ exhaustivo ADJ submarino

NC liquidez V equilibrar ADJ generalista ADJ transformador

NC magnitud V estructurar ADJ geopolítico ADJ unitario

NC mandato V expandir ADJ hidráulico ADJ vigente

Page 157: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

149

Máster_nivel 3 (91 términos)

POS LEMA POS LEMA POS LEMA POS LEMA

NC accionariado NC interconexión V avalar ADJ íntegro

NC aerogenerador NC lealtad V avecinar ADJ interanual

NC anunciante NC libra V descontar ADJ multicanal

NC autocartera NC multicanalidad V diversificar ADJ multiplataforma

NC bono NC reaseguro V estrenar ADJ operador

NC cese NC recompra V implantar ADJ plurianual

NC cimiento NC refinería V materializar ADJ presupuestario

NC contingencia NC regulador V pivotar ADJ procesal

NC contratista NC reparto V reiterar ADJ prometedor

NC coraje NC repaso V rendir ADJ radioeléctrico

NC creces NC reporte V retribuir ADJ reasegurador

NC cuantía NC rumbo ADJ accionarial ADJ refino

NC despliegue NC senda ADJ arduo ADJ retributivo

NC dígito NC seno ADJ atribuible ADJ siniestro

NC disrupción NC solvencia ADJ dominical ADJ soberano

NC dividendo NC toma ADJ envidiable ADJ societario

NC eficacia NC trayectoria ADJ errático ADJ solvente

NC emprendedor NC vector ADJ esperanzador ADJ tarifario

NC espectro NC voluntariado ADJ fertilizante ADJ televisivo

NC fósil V adjudicar ADJ fósil ADJ termosolar

NC franquicia V aglutinar ADJ generador ADJ trascendental

NC ganancia V arrojar ADJ impositivo ADJ volátil

NC hidráulica V augurar ADJ inmerso

Máster_nivel 4 (28 términos)

POS LEMA POS LEMA POS LEMA POS LEMA

NC acierto NC patrocinio NC superávit V timar

NC adjudicatario NC pyme NC trienio ADJ exento

NC desapalancamiento NC repunte V acometer ADJ fotovoltaico

NC inflexión NC saeta V aunar ADJ gerencial

NC lustro NC siniestralidad V recaudar ADJ ingente

NC nómina NC subasta V refrendar ADJ matinal

NC palanca NC subestación V roer ADJ vial

Page 158: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

150

Apéndice XIV: Set de datos de prueba

POS LEMA C1a C1b C2a C2b C3 C4a C5a C5b C6a C6b Nivel

NC adjudicatario 0 4 -1 2 0 3 130000 7388 100 90 4

V acometer 33 66 3 4 0 1 1679 858 70 70 4

NC cimiento 58 96 4 5 0 1 539 316 50 50 4

ADJ exento 27 61 4 5 0 1 357 118 40 30 4

ADJ accionarial 0 0 -1 -1 0 3 130000 130000 100 100 3

NC aerogenerador 0 8 -1 3 0 3 130000 7388 100 90 3

NC anunciante 0 0 -1 -1 0 3 130000 130000 100 100 3

ADJ atribuible 1 3 0 2 0 3 43171 15430 90 90 3

NC accionariado 1 2 0 1 0 3 30808 16540 90 90 3

ADJ bursátil 5 6 2 3 0 1 19681 17649 90 90 3

ADJ acreedor 1 0 0 -1 0 1 12263 130000 80 100 3

NC acreedor 6 7 2 2 0 1 4021 3703 80 90 3

V adjudicar 14 23 2 3 0 1 3653 2359 80 80 3

V aglutinar 7 78 2 4 1 3 2549 156 70 30 3

NC acierto 39 189 4 5 0 1 296 -11 40 -1 3

ADJ arduo 46 40 4 4 0 3 168 232 30 40 3

ADJ asegurador 3 0 2 -1 1 3 17414 130000 90 100 2

NC adhesión 2 6 1 2 1 1 10717 3782 80 90 2

ADJ céntimo 13 54 3 5 1 2 8697 2180 80 80 2

ADJ alcanzable 2 7 1 3 0 3 6081 1801 80 80 2

NC aseguradora 3 5 1 2 1 3 6081 3893 80 90 2

NC bombeo 5 11 2 3 0 3 3609 1715 80 80 2

ADJ cinematográfico 10 264 3 5 1 3 2990 26 70 10 2

NC amplitud 12 151 3 5 1 1 1187 10 60 10 2

NC adversidad 18 5 3 2 0 1 930 3893 50 90 2

ADJ acústico 27 109 4 5 0 1 586 83 50 20 2

V condicionar 23 31 3 4 1 3 571 436 50 50 2

Page 159: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

151

ADJ benéfico 25 47 4 4 0 3 394 183 40 30 2

ADJ apasionante 50 105 5 5 0 1 209 58 30 20 2

NC acorde 112 139 5 5 1 1 175 139 30 30 2

V acumular 175 173 4 5 1 1 147 169 20 30 2

V ceder 483 172 5 5 0 2 -36 93 -1 20 2

NC accesibilidad 0 28 -1 4 0 3 130000 850 100 70 1

NC auditor 0 2 -1 1 0 3 130000 18204 100 90 1

ADJ audiovisual 5 172 2 5 1 3 27099 751 90 60 1

NC analista 4 10 2 3 1 3 13036 5557 80 90 1

ADJ analógico 3 3 2 2 1 3 4021 4337 80 90 1

ADJ autonómico 3 14 2 3 0 1 4021 850 80 70 1

ADJ bancario 14 28 3 4 0 1 3653 1920 80 80 1

NC asistencia 21 53 3 4 1 2 2843 1155 70 70 1

NC audiencia 101 49 5 4 1 1 1827 4178 70 90 1

V adaptar 113 235 4 5 1 1 1486 721 60 60 1

ADJ básico 122 374 5 5 1 2 1040 300 60 40 1

NC apoyo 320 175 5 5 0 2 885 1839 50 80 1

NC ambición 112 77 5 5 1 1 286 505 30 60 1

V afectar 364 107 5 4 0 2 239 1144 30 70 1

ADJ amplio 507 1521 5 5 0 2 210 11 30 10 1

ADJ abrupto 47 165 4 5 1 1 163 -19 30 -1 1

V adoptar 339 158 5 5 1 2 45 237 10 40 1

NC aparición 297 170 5 5 0 1 -27 37 -1 10 1

V añadir 2109 818 5 5 0 2 -53 30 -1 10 1

NC ausencia 411 171 5 5 1 2 -54 16 -1 10 1

V animar 544 477 5 5 1 1 -65 -58 -1 -1 1

NC ánimo 520 152 5 5 0 2 -70 9 -1 10 1

V aparecer 2793 2009 5 5 0 2 -93 -90 -1 -1 1

Page 160: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

152

Apéndice XV: Set de datos de entrenamiento

POS LEMA C1a C1b C2a C2b C3 C4a C5a C5b C6a C6b Nivel

ADJ concesional 0 0 -1 -1 0 3 130000 130000 100 100 4

ADJ interanual 0 0 -1 -1 0 3 130000 130000 100 100 4

ADJ multicanal 0 0 -1 -1 1 3 130000 130000 100 100 4

ADJ multiplataforma 0 0 -1 -1 1 3 130000 130000 100 100 4

ADJ plurianual 0 0 -1 -1 0 3 130000 130000 100 100 4

NC desapalancamiento 0 0 -1 -1 0 3 130000 130000 100 100 4

NC siniestralidad 0 0 -1 -1 0 3 130000 130000 100 100 4

NC autocartera 0 0 -1 -1 0 3 130000 130000 100 100 4

NC disrupción 0 0 -1 -1 0 3 130000 130000 100 100 4

NC endeudamiento 0 0 -1 -1 0 1 130000 130000 100 100 4

NC interconexión 0 0 -1 -1 0 3 130000 130000 100 100 4

NC multicanalidad 0 0 -1 -1 0 3 130000 130000 100 100 4

NC reaseguro 0 0 -1 -1 0 3 130000 130000 100 100 4

NC recompra 0 0 -1 -1 0 3 130000 130000 100 100 4

NC petroquímica 0 0 -1 -1 0 3 130000 130000 100 100 4

NC trillón 0 0 -1 -1 1 3 130000 130000 100 100 4

ADJ reasegurador 0 0 -1 -1 0 3 130000 130000 100 100 4

ADJ retributivo 0 0 -1 -1 0 3 130000 130000 100 100 4

ADJ radioeléctrico 0 0 -1 -1 0 3 130000 130000 100 100 4

ADJ supervisor 0 0 -1 -1 0 3 130000 130000 100 100 4

ADJ comercializador 0 0 -1 -1 0 3 130000 130000 100 100 4

ADJ porcentual 0 0 -1 -1 1 3 130000 130000 100 100 4

NC trienio 1 0 0 -1 0 3 77171 130000 90 100 4

ADJ consejero 3 0 2 -1 0 1 31838 130000 90 100 4

V remunerar 3 0 1 -1 0 1 5051 130000 80 100 4

NC cuantía 5 0 2 -1 0 1 4227 130000 80 100 4

ADJ procesal 4 0 2 -1 1 3 2990 130000 70 100 4

NC ratio 0 3 -1 2 1 3 130000 124146 100 100 4

NC liquidez 0 1 -1 0 1 1 130000 106397 100 100 4

NC dividendo 0 8 -1 3 1 3 130000 104317 100 100 4

ADJ macroeconómico 0 1 -1 0 1 3 130000 93085 100 100 3

NC volatilidad 0 1 -1 0 1 3 130000 76444 100 100 3

ADJ termosolar 0 1 -1 0 0 3 130000 76444 100 100 3

NC desempeño 4 3 2 2 0 3 32353 46492 90 100 3

NC subestación 0 1 -1 0 0 3 130000 39836 100 100 3

ADJ refino 0 2 -1 1 0 3 130000 38172 100 100 3

NC vencimiento 1 1 0 0 0 1 33899 36508 90 100 3

ADJ coordinador 0 1 -1 0 1 1 130000 33180 100 100 3

NC consejero 69 20 4 4 0 1 8142 30517 80 100 3

Page 161: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

153

NC repunte 1 1 0 0 0 3 27717 29852 90 100 3

ADJ estatutario 0 1 -1 0 0 3 130000 26524 100 90 3

V retribuir 0 1 -1 0 0 3 130000 16540 100 90 3

ADJ circulante 0 2 -1 1 0 3 130000 16540 100 90 3

NC petrolera 0 1 -1 0 0 3 130000 16540 100 90 3

NC reporte 3 1 1 0 1 3 5051 16540 80 90 3

NC eficiencia 14 29 3 4 1 1 29704 15392 90 90 3

NC pyme 0 2 -1 1 0 3 130000 14876 100 90 3

NC vector 5 2 2 1 1 3 5463 14876 80 90 3

NC telecomunicación 2 7 1 2 1 3 47808 14638 90 90 3

ADJ corporativo 6 48 2 4 0 3 105504 14113 90 90 3

ADJ gerencial 0 1 -1 0 0 3 130000 13212 100 90 3

ADJ societario 0 1 -1 0 0 3 130000 13212 100 90 3

ADJ consultivo 0 1 -1 0 1 3 130000 13212 100 90 3

ADJ operacional 0 1 -1 0 1 3 130000 13212 100 90 3

NC competitividad 2 8 1 3 0 1 49353 13212 90 90 3

ADJ impositivo 1 2 0 1 0 3 24626 13212 90 90 3

NC nombramiento 14 17 3 3 0 1 13588 12037 80 90 3

ADJ nominal 0 2 -1 1 1 3 130000 11548 100 90 3

ADJ ilusionante 1 2 0 1 0 3 21535 11548 90 90 3

NC regulador 1 2 0 1 1 3 21535 11548 90 90 3

NC junta 7 10 2 3 1 1 15354 11548 80 90 3

ADJ petroquímico 0 3 -1 2 1 3 130000 10993 100 90 3

V reiterar 28 7 3 2 0 1 2328 10359 70 90 3

NC superávit 0 2 -1 1 0 3 130000 9884 100 90 3

NC solvencia 2 14 1 3 0 3 61716 9408 90 90 3

ADJ geopolítico 0 3 -1 2 1 3 130000 8774 100 90 3

NC contratista 1 3 0 2 0 1 24626 8774 90 90 3

V roer 22 3 3 1 0 1 1023 8774 60 90 3

V totalizar 0 2 -1 1 0 1 130000 8220 100 90 3

ADJ vacante 13 3 3 2 1 1 1564 7665 60 90 3

V decrecer 6 4 2 2 0 1 4536 7388 80 90 3

NC cláusula 13 4 3 2 1 1 2039 7388 70 90 3

NC refinería 0 9 -1 3 0 1 130000 7295 100 90 3

ADJ directivo 38 27 4 4 1 3 4536 6925 80 90 3

ADJ cualitativo 1 4 0 2 1 3 24626 6556 90 90 3

NC contribuyente 1 4 0 2 1 3 24626 6556 90 90 3

ADJ ordinario 17 17 3 4 1 2 5899 6360 80 90 3

NC estrategia 238 67 5 4 1 1 1523 6109 60 90 3

NC productividad 2 7 1 2 1 1 19990 6080 90 90 3

NC ética 18 11 3 3 0 3 3334 5950 80 90 3

NC contingencia 4 4 2 2 1 3 5308 5724 80 90 3

ADJ cuantitativo 0 3 -1 2 1 1 130000 5446 100 90 3

NC vocal 1 6 0 2 1 2 30808 5446 90 90 3

NC período 63 28 4 4 1 2 2107 5248 70 90 3

NC restante 1 4 0 2 1 2 18445 4892 90 90 3

ADJ hipotecario 0 3 -1 2 1 3 130000 4337 100 90 3

ADJ ejecutivo 12 45 3 4 0 3 15354 4337 80 90 3

NC hidráulica 1 4 0 2 0 3 15354 4060 80 90 3

ADJ ético 17 21 3 4 0 3 4627 4020 80 90 3

Page 162: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

154

NC filial 1 27 0 4 1 1 101898 3967 90 90 3

NC transacción 12 14 3 3 1 3 4278 3941 80 90 3

NC desembolso 0 5 -1 2 0 3 130000 3893 100 90 3

V timar 25 25 3 3 0 3 3609 3893 80 90 3

V moderar 10 5 2 2 0 1 1754 3893 70 90 3

ADJ global 21 135 4 5 1 2 23596 3868 90 90 3

ADJ radiofónico 5 6 2 3 0 1 4227 3782 80 90 3

NC integridad 52 15 4 3 1 1 910 3671 50 90 3

V revalorizar 1 11 0 3 0 1 36990 3530 90 90 3

ADJ relevante 58 110 5 5 0 1 5815 3258 80 90 3

ADJ generalista 0 5 -1 2 1 3 130000 3228 100 80 3

NC segmento 3 36 1 4 1 3 36990 3228 90 80 3

NC metodología 1 7 0 2 1 3 21535 3228 90 80 3

NC efectividad 5 7 2 2 1 3 4227 3228 80 80 3

NC dígito 13 9 3 3 0 3 2039 3228 70 80 3

NC credibilidad 22 7 3 2 0 1 883 3228 50 80 3

NC sostenibilidad 0 79 -1 5 0 3 130000 3185 100 80 3

ADJ favorable 46 39 4 4 0 2 2386 3057 70 80 3

NC eficacia 59 28 4 4 0 1 1262 2990 60 80 3

ADJ eficiente 40 68 4 5 1 2 4768 2983 80 80 3

NC estatuto 2 11 1 3 1 1 15354 2925 80 80 3

ADJ externo 48 54 4 5 1 2 3055 2919 70 80 3

ADJ equivalente 8 31 3 4 1 1 10717 2905 80 80 3

NC discapacidad 0 19 -1 3 0 3 130000 2877 100 80 3

NC reglamento 2 16 1 3 1 1 21535 2812 90 80 3

V pivotar 1 8 0 2 0 3 21535 2812 90 80 3

ADJ empresarial 28 100 4 5 0 3 9503 2795 80 80 3

NC navegador 11 7 3 2 0 1 1585 2752 60 80 3

NC saeta 17 7 3 2 0 3 990 2752 60 80 3

NC solidez 47 39 4 4 1 1 2070 2716 70 80 3

NC cese 2 6 1 2 0 1 7627 2673 80 80 3

NC profesionalidad 27 24 4 4 1 3 2189 2673 70 80 3

NC transparencia 23 81 4 5 1 1 8635 2570 80 80 3

ADJ tarifario 0 5 -1 2 0 3 130000 2562 100 80 3

NC fiabilidad 5 10 2 3 0 3 4845 2562 80 80 3

NC contexto 32 78 4 5 1 3 5888 2545 80 80 3

ADJ institucional 3 41 2 4 1 1 32869 2497 90 80 3

V descontar 10 9 2 2 0 1 2063 2488 70 80 3

ADJ diferenciador 2 8 1 3 1 3 9172 2396 80 80 3

NC palanca 55 12 4 3 0 1 405 2396 40 80 3

ADJ transformador 0 7 -1 3 1 3 130000 2277 100 80 3

V empeorar 140 7 4 2 0 1 10 2277 10 80 3

NC estabilidad 54 39 4 4 1 2 1445 2204 60 80 3

NC impacto 292 158 5 5 1 2 1053 2195 60 80 3

ADJ minoritario 4 19 2 4 0 2 9945 2177 80 80 3

NC carbono 22 26 3 4 0 3 2288 2076 70 80 3

NC recesión 1 11 0 3 1 3 21535 2017 90 80 3

NC flexibilidad 9 16 3 3 1 1 3334 1980 80 80 2

ADJ significativo 73 138 5 5 1 2 3498 1949 80 80 2

ADJ volátil 11 13 3 3 0 3 2147 1948 70 80 2

Page 163: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

155

V cotizar 7 28 2 3 0 1 7406 1920 80 80 2

ADJ fotovoltaico 2 15 1 4 1 3 13808 1896 80 80 2

V refrendar 4 10 1 3 0 3 4536 1896 80 80 2

ADJ operador 4 10 2 3 1 3 4536 1896 80 80 2

V formalizar 9 10 2 3 1 3 1960 1896 70 80 2

NC gratitud 57 10 4 3 0 2 225 1896 30 80 2

NC referéndum 0 17 -1 3 1 3 130000 1857 100 80 2

V complacer 66 17 4 3 0 1 368 1857 40 80 2

ADJ variable 14 59 3 5 0 2 7406 1817 80 80 2

ADJ usuario 0 7 -1 3 0 1 130000 1801 100 80 2

NC estándar 12 42 3 4 1 3 6081 1801 80 80 2

NC disponibilidad 2 30 1 4 0 1 26172 1785 90 80 2

V someter 226 120 5 5 1 1 829 1785 50 80 2

NC desequilibrio 14 18 3 3 0 1 2107 1748 70 80 2

ADJ drástico 35 9 4 3 1 3 341 1748 40 80 2

ADJ presupuestario 0 11 -1 3 0 1 130000 1715 100 80 2

NC voluntariado 1 11 0 3 0 3 18445 1715 90 80 2

ADJ consecutivo 13 66 3 5 1 1 8459 1715 80 80 2

ADJ unitario 1 16 0 4 1 1 24626 1564 90 80 2

NC repaso 36 38 4 4 0 1 1531 1564 60 80 2

NC inflexión 44 16 4 3 1 3 461 1564 40 80 2

V estabilizar 29 10 3 3 1 1 432 1564 40 80 2

ADJ neutral 26 8 4 3 1 2 375 1564 40 80 2

ADJ implícito 44 10 4 3 1 1 251 1564 30 80 2

V avecinar 73 14 4 3 0 1 196 1564 30 80 2

NC lealtad 87 10 5 3 0 1 77 1564 20 80 2

NC potencial 48 66 4 4 1 2 1960 1513 70 80 2

NC presidencia 25 23 4 4 1 2 1259 1491 60 70 2

V mencionar 501 128 5 5 0 2 270 1460 30 70 2

ADJ vigente 10 45 3 4 1 3 6390 1453 80 70 2

V simplificar 10 15 2 3 0 1 2063 1453 70 70 2

ADJ consiguiente 19 28 4 4 1 2 2014 1445 70 70 2

NC factor 62 125 4 5 1 1 2791 1444 70 70 2

ADJ publicitario 35 118 4 5 1 1 4580 1394 80 70 2

ADJ inestimable 11 12 3 3 0 3 1304 1286 60 70 2

V registrar 232 168 5 5 1 3 832 1286 50 70 2

NC instancia 32 12 4 3 1 1 382 1286 40 70 2

NC movilidad 23 46 4 4 0 1 2453 1274 70 70 2

ADJ tecnológico 36 198 4 5 1 2 6854 1261 80 70 2

ADJ constructor 3 20 2 4 1 3 8142 1231 80 70 2

ADJ fertilizante 2 10 1 3 0 3 6081 1231 80 70 2

NC nómina 5 25 2 4 0 1 6081 1231 80 70 2

ADJ solvente 3 10 2 3 0 1 4021 1231 80 70 2

NC reparto 32 58 4 4 0 1 2121 1219 70 70 2

ADJ estructural 3 61 2 5 1 3 24626 1209 90 70 2

NC recorte 29 28 4 4 1 1 1072 1207 60 70 2

NC exigencia 40 73 4 5 0 1 2063 1176 70 70 2

V progresar 15 16 2 3 0 2 1136 1148 60 70 2

NC magnitud 59 62 4 4 0 2 1104 1134 60 70 2

ADJ restante 73 27 5 4 0 2 323 1132 40 70 2

Page 164: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

156

NC permanencia 14 19 3 3 0 1 1445 1126 60 70 2

NC renuncia 11 14 3 3 0 1 1304 1088 60 70 2

ADJ errático 14 14 3 3 0 3 1003 1088 60 70 2

ADJ esperanzador 25 14 4 3 0 3 518 1088 40 70 2

ADJ mayoritario 3 31 2 4 0 2 11233 1080 80 70 2

NC mandato 29 31 4 4 1 3 1072 1080 60 70 2

NC patrocinio 2 17 1 3 0 1 9172 1074 80 70 2

NC resolución 63 26 4 4 1 1 341 1052 40 70 2

NC mecanismo 114 55 5 4 1 3 415 1049 40 70 2

NC optimismo 42 56 4 4 1 3 1298 1029 60 70 2

NC vigor 46 62 4 4 0 2 1311 1027 60 70 2

NC pluralidad 1 15 0 3 1 1 15354 1009 80 70 2

ADJ viable 18 19 4 4 1 1 930 950 50 70 2

ADJ vulnerable 170 16 5 4 0 3 -9 940 -1 70 2

V recaudar 16 29 3 4 0 3 1638 932 60 70 2

NC visibilidad 24 42 4 4 0 2 1574 930 60 70 2

NC totalidad 49 91 4 5 1 1 1666 924 70 70 2

ADJ informativo 52 72 5 5 1 2 1207 916 60 70 2

NC coraje 76 20 4 4 1 1 144 898 20 70 2

ADJ soberano 40 24 4 4 0 2 440 870 40 70 2

NC continuidad 15 55 3 4 1 2 3196 868 70 70 2

V implantar 7 56 2 4 1 1 6964 850 80 70 2

NC derivado 4 28 2 4 1 3 6081 850 80 70 2

V canalizar 48 22 3 3 1 1 286 807 30 70 2

ADJ indirecto 48 22 4 4 1 2 286 807 30 70 2

ADJ definitivo 327 228 5 5 1 2 486 804 40 70 2

NC relevancia 30 70 4 4 1 1 1857 803 70 70 2

V equilibrar 37 30 3 4 0 3 568 787 50 70 2

NC plantilla 15 53 3 4 0 1 2784 779 70 70 2

NC inestabilidad 23 19 4 3 1 2 571 775 50 60 2

ADJ informático 103 19 5 4 1 3 50 775 10 60 2

V formular 211 19 5 3 1 2 -26 775 -1 60 2

NC consultor 3 23 1 4 1 3 6081 768 80 60 2

NC plataforma 141 274 5 5 1 3 1412 738 60 60 2

ADJ televisivo 14 100 3 5 1 1 5419 732 80 60 2

ADJ exigente 49 148 4 5 0 1 2233 732 70 60 2

ADJ generador 20 24 4 4 1 3 827 732 50 60 2

NC ganancia 20 24 3 4 0 1 827 732 50 60 2

NC prudencia 65 32 4 4 0 2 280 732 30 60 2

ADJ medioambiental 0 121 -1 5 0 3 130000 725 100 60 2

V revisar 282 65 5 4 1 2 75 719 20 60 2

V desempeñar 53 66 4 4 0 2 833 706 50 60 2

V situar 327 709 5 5 1 2 1516 702 60 60 2

V finalizar 115 237 4 5 0 1 1431 700 60 60 2

NC dinámica 17 25 3 4 1 3 990 698 60 60 2

NC funcionamiento 65 189 4 5 1 2 2039 692 70 60 2

ADJ proporcional 14 21 3 4 1 1 1003 692 60 60 2

V evaluar 68 21 4 3 1 1 127 692 20 60 2

ADJ dominical 5 55 2 5 0 3 7936 686 80 60 2

ADJ pertinente 16 17 3 4 0 1 672 683 50 60 2

Page 165: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

157

V centrar 324 238 5 5 1 3 434 683 40 60 2

V financiar 17 60 3 4 1 1 2445 676 70 60 2

ADJ demográfico 1 22 0 4 1 1 15354 656 80 60 2

ADJ resultante 13 22 3 4 1 3 1088 656 60 60 2

ADJ específico 36 128 4 5 1 2 2389 654 70 60 2

V supervisar 36 49 3 4 0 3 844 647 50 60 2

V estructurar 3 27 1 3 1 2 6081 639 80 60 2

V triplicar 14 27 2 3 0 3 1224 639 60 60 2

V intensificar 96 27 4 3 0 1 93 639 20 60 2

NC bono 2 75 1 5 1 3 24626 609 90 60 2

ADJ estándar 6 33 2 4 1 3 3505 605 80 60 2

ADJ clave 81 267 5 5 0 1 2036 598 70 60 2

ADJ indiscutible 41 81 4 5 0 1 1181 598 60 60 2

NC turbina 6 43 2 4 1 3 4536 596 80 60 2

NC licencia 23 75 4 5 1 1 1915 565 70 60 2

ADJ íntegro 26 30 4 4 1 1 613 565 50 60 2

ADJ trascendental 27 20 4 4 1 3 357 565 40 60 2

NC rapidez 356 45 5 4 0 1 -21 565 -1 60 2

ADJ existente 34 103 4 5 0 1 1718 546 70 60 2

NC síntoma 128 26 5 4 0 1 20 540 10 60 2

ADJ crucial 40 47 4 4 1 3 595 537 50 60 2

NC perspectiva 266 403 5 5 1 2 794 535 50 60 2

ADJ latinoamericano 5 86 2 5 1 2 9790 519 80 60 2

ADJ indudable 19 27 4 4 0 2 713 516 50 60 2

V avalar 6 38 2 4 0 3 3505 513 80 60 2

NC talento 113 244 5 5 1 2 1130 513 60 60 2

V innovar 5 44 2 4 1 3 4845 505 80 60 2

NC seno 75 44 4 4 0 1 229 505 30 60 2

V implicar 291 132 5 5 1 1 154 505 30 60 2

V eliminar 252 83 5 4 1 1 83 501 20 60 2

V diversificar 1 39 0 4 0 3 21535 497 90 60 2

V determinar 95 73 4 4 1 2 322 492 40 60 2

ADJ geográfico 15 259 3 5 1 2 9378 491 80 60 2

NC trayectoria 116 192 5 5 0 1 805 489 50 60 2

NC debilidad 206 79 5 5 0 2 110 489 20 60 2

V superar 681 676 5 5 0 2 435 480 40 50 2

NC fósil 3 41 1 4 1 3 7111 468 80 50 2

ADJ mediano 68 59 5 5 1 1 354 464 40 50 2

NC margen 344 418 5 5 1 2 528 457 50 50 1

ADJ destacable 10 90 3 5 0 3 4536 454 80 50 1

NC fase 101 145 5 5 1 1 634 450 50 50 1

NC certeza 230 43 5 4 0 1 -5 441 -1 50 1

V augurar 35 31 3 4 0 3 341 436 40 50 1

NC pertenencia 98 51 5 4 0 1 152 422 30 50 1

NC plan 1162 1074 5 5 1 2 338 411 40 50 1

ADJ incierto 60 53 5 5 0 2 312 402 40 50 1

NC tarea 387 192 5 5 1 2 131 402 20 50 1

NC subasta 91 95 5 5 0 1 375 390 40 50 1

V subrayar 23 103 3 4 0 2 1915 384 70 50 1

V derivar 47 90 3 4 0 2 754 380 50 50 1

Page 166: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

158

ADJ inicial 191 167 5 5 0 1 288 378 40 50 1

ADJ duradero 10 28 3 4 0 1 1136 375 60 50 1

NC componente 42 100 4 5 1 2 930 365 50 50 1

ADJ inmerso 157 79 5 5 0 1 116 363 20 50 1

NC módulo 69 58 4 4 1 3 258 359 30 50 1

V recaer 48 44 3 4 0 1 286 353 30 50 1

V distribuir 38 148 3 5 1 1 1526 349 60 50 1

NC iva 11 37 3 4 1 3 1304 349 60 50 1

V vincular 53 37 4 4 0 1 191 349 30 50 1

NC funcionalidad 3 45 1 4 1 3 6081 343 80 50 1

V favorecer 40 120 3 5 0 2 1136 343 60 50 1

V compensar 132 158 4 5 1 1 391 342 40 50 1

NC despliegue 46 91 4 5 0 1 706 338 50 50 1

V establecer 178 369 4 5 0 2 733 332 50 50 1

NC referencia 186 928 5 5 1 2 1860 323 70 50 1

V colaborar 144 111 4 4 1 1 200 319 30 50 1

NC norma 358 199 5 5 1 2 115 318 20 50 1

ADJ vial 3 48 2 4 0 3 6081 316 80 50 1

V evolucionar 31 128 3 5 1 1 1495 316 60 50 1

V concluir 608 295 5 5 1 2 83 306 20 40 1

ADJ complejo 70 231 5 5 1 2 1136 303 60 40 1

ADJ educativo 44 66 4 5 1 1 461 303 40 40 1

ADJ distintivo 6 42 2 4 0 1 2475 296 70 40 1

NC debate 54 118 4 5 1 1 701 294 50 40 1

NC toma 107 77 5 5 0 3 159 288 30 40 1

ADJ exhaustivo 21 43 4 4 0 1 635 286 50 40 1

V relacionar 131 95 4 4 0 1 159 285 30 40 1

ADJ previsible 64 61 5 5 0 1 238 281 30 40 1

NC fabricante 8 79 2 5 1 3 3377 279 80 40 1

NC dinamismo 0 44 -1 4 1 3 130000 278 100 40 1

V calificar 57 124 4 5 1 2 659 275 50 40 1

ADJ respectivo 132 80 5 5 1 2 110 274 20 40 1

NC diversidad 4 255 2 5 1 1 21535 265 90 40 1

ADJ consistente 25 64 4 5 1 3 765 264 50 40 1

NC creces 44 55 4 4 0 3 321 263 40 40 1

NC misión 481 187 5 5 1 2 28 255 10 40 1

V materializar 161 47 4 4 0 3 -4 254 -1 40 1

NC descenso 71 397 4 5 0 1 1728 252 70 40 1

V destacar 185 1988 4 5 1 2 3408 251 80 40 1

ADJ robusto 78 86 5 5 1 1 256 248 30 40 1

ADJ estricto 72 139 5 5 1 2 500 235 40 40 1

NC orgullo 357 252 5 5 0 2 116 230 20 40 1

ADJ prometedor 59 72 5 5 0 1 266 223 30 40 1

NC búsqueda 437 231 5 5 0 1 55 216 10 40 1

V presidir 41 307 3 5 1 2 2086 214 70 40 1

V manifestar 226 127 5 5 1 2 64 214 20 40 1

NC formato 11 165 3 5 1 3 4114 202 80 40 1

NC inicio 122 448 5 5 0 2 913 197 50 40 1

ADJ solidario 9 68 3 5 1 2 1960 193 70 40 1

NC emprendedor 11 57 3 4 0 3 1304 191 60 40 1

Page 167: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

159

V arrojar 464 139 5 5 0 1 -20 187 -1 40 1

ADJ considerable 109 82 5 5 1 2 98 184 20 30 1

ADJ matinal 12 47 3 4 0 3 930 183 50 30 1

NC espectro 194 59 5 4 1 1 -20 182 -1 30 1

V satisfacer 103 132 4 5 0 2 230 177 30 30 1

V equivaler 42 73 3 4 0 1 341 173 40 30 1

ADJ repentino 421 49 5 4 0 2 -70 171 -1 30 1

V enriquecer 11 99 2 4 0 2 2147 168 70 30 1

V comercializar 6 63 2 4 1 3 2475 164 70 30 1

ADJ convencional 43 289 4 5 1 1 1553 164 60 30 1

NC complicidad 150 63 5 4 0 1 3 164 10 30 1

NC libra 43 164 4 5 0 1 834 163 50 30 1

NC organismo 27 104 4 5 1 2 815 156 50 30 1

V repartir 164 286 4 5 0 2 314 156 40 30 1

ADJ hidráulico 3 105 2 5 1 3 8142 153 80 30 1

V sacrificar 143 66 4 4 1 3 8 152 10 30 1

ADJ iberio 1 159 0 5 1 3 36990 151 90 30 1

NC etapa 112 442 5 5 1 1 810 148 50 30 1

V expandir 93 107 4 4 0 3 165 148 30 30 1

V proporcionar 205 393 5 5 0 1 322 137 40 30 1

NC vocación 29 197 4 5 0 1 1392 136 60 30 1

NC senda 56 388 4 5 0 1 1390 131 60 30 1

V otorgar 174 244 4 5 0 1 201 131 30 30 1

NC fundación 16 375 3 5 1 1 4922 130 80 30 1

ADJ ingente 29 73 4 5 0 3 432 127 40 30 1

V sumar 155 307 4 5 0 2 318 127 40 30 1

NC biodiversidad 0 104 -1 5 1 3 130000 124 100 30 1

NC clave 188 356 5 5 0 1 294 124 40 30 1

V elevar 425 373 5 5 0 2 81 123 20 30 1

V configurar 17 123 3 5 1 1 1354 116 60 30 1

ADJ similar 339 481 5 5 0 2 182 114 30 30 1

ADJ regional 0 236 -1 5 1 2 130000 111 100 30 1

V limitar 900 222 5 5 0 2 -51 109 -1 30 1

NC autoridad 160 223 5 5 1 2 170 108 30 30 1

NC modalidad 16 97 3 5 1 1 1059 105 60 30 1

NC reflejo 357 229 5 5 1 2 21 103 10 30 1

V definir 148 502 4 5 1 2 526 98 50 20 1

NC ficción 91 184 5 5 1 1 273 98 30 20 1

ADJ dominante 21 68 4 5 1 1 488 95 40 20 1

NC significado 181 102 5 5 1 2 2 95 10 20 1

ADJ envidiable 16 69 3 5 0 3 672 92 50 20 1

ADJ innovador 10 254 3 5 1 1 4227 83 80 20 1

NC intensidad 507 164 5 5 1 2 -45 82 -1 20 1

V introducir 526 334 5 5 1 2 5 79 10 20 1

NC facilidad 290 131 5 5 1 2 -25 77 -1 20 1

NC austeridad 2 95 1 5 0 1 7627 75 80 20 1

ADJ siniestro 334 96 5 5 0 2 -53 73 -1 20 1

NC visión 622 587 5 5 1 2 49 70 10 20 1

NC lustro 11 98 3 5 1 1 1304 69 60 20 1

V crear 658 1352 5 5 1 2 224 69 30 20 1

Page 168: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

160

V intervenir 886 157 5 5 1 2 -72 69 -1 20 1

ADJ mixto 13 80 3 5 0 2 851 66 50 20 1

ADJ hispano 14 82 3 5 1 2 783 62 50 20 1

V articular 100 103 4 4 1 1 54 61 10 20 1

NC franquicia 2 106 1 5 1 3 7627 56 80 20 1

ADJ idéntico 202 106 5 5 1 1 -23 56 -1 20 1

V mostrar 2500 1853 5 5 0 2 6 54 10 20 1

V aunar 7 130 2 5 0 3 2549 53 70 20 1

NC prestigio 32 173 4 5 1 2 672 53 50 20 1

ADJ bienvenido 126 154 5 5 0 2 71 51 20 20 1

ADJ neutro 104 88 5 5 1 2 18 51 10 20 1

NC dosis 92 134 5 5 1 3 101 49 20 20 1

ADJ submarino 99 205 5 5 0 1 180 46 30 20 1

V compartir 1196 1009 5 5 0 2 11 41 10 10 1

ADJ diverso 147 1025 5 5 1 2 804 39 50 10 1

V constar 94 119 4 5 0 2 64 39 20 10 1

NC entusiasmo 225 167 5 5 1 2 -3 39 -1 10 1

ADJ potente 227 288 5 5 0 1 63 38 20 10 1

ADJ terminal 6 122 2 5 1 3 2475 36 70 10 1

NC dimensión 347 530 5 5 1 2 87 31 20 10 1

V preservar 44 179 3 5 0 1 391 30 40 10 1

NC vehículo 504 458 5 5 0 2 10 30 10 10 1

ADJ virtual 144 154 5 5 1 3 28 29 10 10 1

NC torno 412 1148 5 5 0 1 230 27 30 10 1

V recurrir 169 160 4 5 0 1 9 24 10 10 1

NC inquietud 220 135 5 5 0 1 -29 23 -1 10 1

NC virtud 88 164 5 5 0 2 110 21 20 10 1

V extraer 372 140 5 5 0 1 -58 18 -1 10 1

ADJ inevitable 190 205 5 5 0 2 13 13 10 10 1

NC bajada 43 242 4 5 0 1 475 10 40 10 1

V caracterizar 84 274 4 5 1 2 231 9 30 10 1

ADJ masivo 22 154 4 5 1 2 602 8 50 10 1

V seleccionar 113 184 4 5 0 1 64 8 20 10 1

V reinventar 10 155 2 5 0 3 1445 7 60 10 1

NC experto 208 404 5 5 1 1 93 7 20 10 1

ADJ temático 11 601 3 5 1 2 5238 5 80 10 1

ADJ ejemplar 103 126 5 5 1 2 20 5 10 10 1

ADJ fósil 2 131 1 5 1 3 6081 1 80 10 1

NC categoría 79 365 5 5 1 1 330 0 40 -1 1

ADJ innumerable 39 134 4 5 0 1 217 0 30 -1 1

NC ocasión 1414 857 5 5 0 2 -43 0 -1 -1 1

ADJ real 933 1211 5 5 1 2 15 -3 10 -1 1

NC creatividad 17 322 3 5 1 3 1536 -6 60 -1 1

NC década 168 1261 5 5 1 1 543 -7 50 -1 1

ADJ líquido 74 219 5 5 0 2 150 -8 20 -1 1

V optar 257 362 5 5 1 2 8 -17 10 -1 1

NC sencillez 22 204 3 5 0 1 602 -18 50 -1 1

NC técnica 103 619 5 5 1 2 350 -19 40 -1 1

NC lema 33 210 4 5 1 1 368 -20 40 -1 1

V concentrar 649 585 5 5 1 1 -33 -20 -1 -1 1

Page 169: EXPLORACIONES METODOLÓGICAS DE LINGÜÍSTICA DE CORPUS ...

161

V creer 4604 345 5 5 0 2 -95 -32 -1 -1 1

V descender 548 549 5 5 0 2 -37 -33 -1 -1 1

ADJ vital 201 201 5 5 1 2 -38 -33 -1 -1 1

NC fenómeno 139 306 5 5 1 2 33 -34 10 -1 1

NC complejo 104 1033 5 5 1 2 494 -35 40 -1 1

V rendir 389 366 5 5 0 1 -44 -36 -1 -1 1

NC ejemplar 53 386 4 5 1 2 308 -39 40 -1 1

V ocultar 1346 282 5 5 0 2 -88 -40 -1 -1 1

NC rumbo 360 453 5 5 0 2 -31 -41 -1 -1 1

ADJ funcional 10 235 3 5 1 3 1136 -43 60 -1 1

ADJ múltiple 123 411 5 5 0 1 75 -43 20 -1 1

ADJ imprescindible 109 1089 5 5 0 2 410 -44 40 -1 1

V devolver 1141 299 5 5 0 2 -86 -44 -1 -1 1

V ofrecer 1659 6346 5 5 0 2 84 -48 20 -1 1

NC cuidado 890 324 5 5 0 2 -82 -48 -1 -1 1

V estrenar 56 544 4 5 0 2 341 -51 40 -1 1

ADJ prestigioso 36 352 4 5 1 1 329 -52 40 -1 1

NC objeto 675 1122 5 5 1 2 -35 -58 -1 -1 1

V sugerir 530 407 5 5 1 2 -70 -59 -1 -1 1

V elaborar 68 842 4 5 0 2 354 -60 40 -1 1

V permanecer 2108 836 5 5 0 2 -85 -60 -1 -1 1

ADJ metálico 420 342 5 5 0 1 -70 -61 -1 -1 1

NC continente 80 630 5 5 1 2 170 -63 30 -1 1

NC clientela 16 530 3 5 1 1 865 -68 50 -1 1

NC figura 787 999 5 5 1 2 -64 -70 -1 -1 1

NC circuito 104 708 5 5 1 1 78 -71 20 -1 1

NC terreno 453 697 5 5 1 2 -59 -71 -1 -1 1

ADJ emblemático 15 719 3 5 1 3 1136 -72 60 -1 1

NC versión 291 843 5 5 1 1 -46 -80 -1 -1 1

ADJ creativo 36 728 4 5 1 1 243 -81 30 -1 1

ADJ imposible 1630 737 5 5 0 2 -92 -81 -1 -1 1

NC espacio 878 4867 5 5 1 2 -8 -82 -1 -1 1

ADJ espectacular 178 1907 5 5 1 1 21 -87 10 -1 1

V soler 1005 1640 5 5 0 2 -81 -87 -1 -1 1