Corpus

19
 Tendencias profesionales de las industrias del lenguaje y la formación de profesionales del lenguaje Gabriel Ángel Quiroz Herrera Grupo Iulaterm  Institut Universitari de Lingüística Aplicada Universitat Pompeu Fabra Resumen La lingüística de corpus, la lingüística computacional y la ingeniería lingüística han cambiado radicalmente el panorama de las disciplinas relacionadas con el lenguaje y, por supuesto, la enseñanza de lenguas. La creación de diccionarios generales y especializados, gramáticas, verificadores ortográficos, verificadores de sinónimos y antónimos, tesauros, sistemas de reconocimiento del habla, entre otros están actualmente intervenidos por estas disciplinas. La presente ponencia muestra los diferentes perfiles que los profesionales en las llamadas industrias del lengu aje pueden o cupar en el mercado labo ral y cómo una enseñanza más orientada a la lingüística de corpus, la lingüística computacional y la ingeniería lingüística pueden reforzar los perfiles antes mencionados para un mejor desempeño y oportunidades laborales. Además, nos centraremos más en la aplicación de estas disciplinas en el campo de la enseñanza de lenguas y lo que nos concierne en este congreso, la lengua española. 1. Introducción  Nadie discute hoy en día la importancia de la lengua en la sociedad y en la economía de un país o una región. Son múltiples los estudios o artículos que demuestran esto (Municio, 2003; Berdugo, 2000; Millán, 2001, 2002). De hecho, el Instituto Cervantes dedica una cantidad de artículos publicados en periódicos españoles a la importancia del español dentro de la economía española o el español dentro del ámbito mundial. Hace poco se publicó el libro “El valor e conómico de la lengua española” dirigido por Don Ángel Martín Municio en el que se analizaba con detalle, y desde un punto de vista econométrico, la incidencia y la repercusión de la lengua española en la eco nomía. Las industrias de la lengua española m ovieron el 15.5% d el  producto interno bruto de la economía española en el año 2001. Se estima que este  porcentaje r epresentaría en un futuro unos 98.600 millones de euros para el año 2004. Esta cifra nos hace pensar en la importancia de la lengua dentro una economía y esto teniendo en cuenta que muchas de las herramientas básicas que r epresentan productos y servicios que involucran la l engua española no se hacen en España. Quilès (2000) presenta un informe sobre el estado de la ingeniería lingüística en España. El autor del informe analiza rápidamente lo que denomina el ‘potencial de los agentes’, al que se refiere en los siguientes términos:

description

Lingüística del corpus

Transcript of Corpus

  • Tendencias profesionales de las industrias del lenguaje y la formacin de profesionales del lenguaje

    Gabriel ngel Quiroz Herrera

    Grupo Iulaterm Institut Universitari de Lingstica Aplicada

    Universitat Pompeu Fabra Resumen

    La lingstica de corpus, la lingstica computacional y la ingeniera lingstica han cambiado radicalmente el panorama de las disciplinas relacionadas con el lenguaje y, por supuesto, la enseanza de lenguas. La creacin de diccionarios generales y especializados, gramticas, verificadores ortogrficos, verificadores de sinnimos y antnimos, tesauros, sistemas de reconocimiento del habla, entre otros estn actualmente intervenidos por estas disciplinas.

    La presente ponencia muestra los diferentes perfiles que los profesionales en las llamadas industrias del lenguaje pueden ocupar en el mercado laboral y cmo una enseanza ms orientada a la lingstica de corpus, la lingstica computacional y la ingeniera lingstica pueden reforzar los perfiles antes mencionados para un mejor desempeo y oportunidades laborales. Adems, nos centraremos ms en la aplicacin de estas disciplinas en el campo de la enseanza de lenguas y lo que nos concierne en este congreso, la lengua espaola. 1. Introduccin

    Nadie discute hoy en da la importancia de la lengua en la sociedad y en la economa de un pas o una regin. Son mltiples los estudios o artculos que demuestran esto (Municio, 2003; Berdugo, 2000; Milln, 2001, 2002). De hecho, el Instituto Cervantes dedica una cantidad de artculos publicados en peridicos espaoles a la importancia del espaol dentro de la economa espaola o el espaol dentro del mbito mundial. Hace poco se public el libro El valor econmico de la lengua espaola dirigido por Don ngel Martn Municio en el que se analizaba con detalle, y desde un punto de vista economtrico, la incidencia y la repercusin de la lengua espaola en la economa. Las industrias de la lengua espaola movieron el 15.5% del producto interno bruto de la economa espaola en el ao 2001. Se estima que este porcentaje representara en un futuro unos 98.600 millones de euros para el ao 2004. Esta cifra nos hace pensar en la importancia de la lengua dentro una economa y esto teniendo en cuenta que muchas de las herramientas bsicas que representan productos y servicios que involucran la lengua espaola no se hacen en Espaa.

    Quils (2000) presenta un informe sobre el estado de la ingeniera lingstica en

    Espaa. El autor del informe analiza rpidamente lo que denomina el potencial de los agentes, al que se refiere en los siguientes trminos:

  • Existen en Espaa 63 empresas o centros de investigacin universitarios que se preocupan por las aplicaciones del tratamiento automtico del lenguaje natural. No obstante, este potencial no es uniforme, puesto que las Comunidades Autnomas con mayor concentracin de universidades volcadas a proyectos de ingeniera lingstica son Catalua, Madrid, Andaluca y Galicia. En el sector industrial, la mayora de las empresas operan en los sectores siguientes: medios de comunicacin y edicin, distribucin de programas informticos, sistemas de software e integracin de redes. Ms de la mitad de estas empresas son pequeas (menos de 50 empleados). Por lo que se ha podido ver, ms del 50% de los agentes del sector son universitarios o investigadores. En ocasiones su participacin se ve afectada por concepciones tericas distintas. (...) Muchos trabajos de investigacin ataen especialmente a la produccin de recursos lingsticos. Se han registrado 169 proyectos de I+D financiados gracias a programas autonmicos, nacionales o europeos, ms de la mitad de los cuales son de iniciativa universitaria. () Ms de la mitad de los proyectos industriales recurren a fondos europeos, mientras que las actividades de investigacin de las universidades cuentan ms con los fondos nacionales. El papel de las Comunidades Autnomas en la financiacin de estas actividades es importante, especialmente en Catalua y Galicia, donde cerca de la tercera parte de los proyectos reciben este tipo de ayuda.

    Quils concluye que, desde 1991, se observa un avance notable en la

    participacin espaola en los proyectos europeos, sobre todo en el terreno de los recursos lingsticos, contrariamente a lo que ocurre en los mbitos de la informacin y la comunicacin, la traduccin y la enseanza de lenguas extranjeras. Con todo, la participacin espaola sigue siendo escasa puesto que, entre 1991 y 1996, se han registrado solamente tres proyectos con colaboracin de empresas espaolas.

    Son compaas como Microsoft con su departamento de lingstica computacional las que sacan mayor provecho de la lengua espaola y de los recursos de investigacin creados en pases de habla hispana como bien lo hace ver Milln (2002). Existen otras compaas que, de igual modo, lo hacen como algunas editoriales britnicas, francesas o compaas de localizacin de software y sntesis y reconocimiento del habla. Milln (2002) hace el siguiente estimativo en cuanto a la enseanza de espaol como lengua extranjera. Calcula que hay aproximadamente 43 millones de estudiantes de espaol en todo el mundo que gastan un mnimo de 50 dlares por alumno y ao slo en materiales, lo que da un total de 2.194 millones euros. Sostiene, adems, que a ello habra que aadir los cursos impartidos directamente en lnea, los cuales estima en 13 millones de euros anuales. Segn l, cada ao el monto total sera de ms de 3,066 millones de euros.

    Plantea, adems, que si se invierte en las tecnologas lingsticas e.g. trabajos de referencias, bases de datos, etc. dicha cifra ascendera a 6,000 millones de euros en los prximos aos por derechos de autor (royalties). Esto equivale al presupuesto total de toda la industria editorial de Espaa y Latinoamrica en conjunto.

    Hasta donde sabemos la nica compaa de Latinoamrica que presta servicios de ingeniera lingstica es Signum, localizada en Quito. Dicha empresa funciona desde 1991 en la construccin de motores morfolgicos para desarrollar herramientas como correctores ortogrficos, tesauros de sinnimos, antnimos y palabras relacionadas, separadores de silabas, diccionarios de americanismos, entre otros, los cuales pueden bajarse en versin demo en www.lenguaje.com. Estos productos estn incrporados tambin en las versiones de Word de Microsoft. Est compaa ha informatizado

  • igualmente la segunda versin electrnica del Diccionario de Uso de Espaol de Mara Moliner, haciendo cambios sustanciales a la versin anterior. Segn Plutarco (2002: 59) el lxico de Signum tiene ms de 120.000 entradas y es capaz de generar y reconocer hasta 5 millones de palabras del espaol de Espaa y de Amrica.

    En vista de este corto panorama, debemos contribuir a la formacin de profesionales e investigadores desde una perspectiva actual de la lingstica aplicada que aumente esta capacidad econmica de la lengua espaola no solo en Espaa, como se viene haciendo, sino en Latinoamrica. 2. Diversidad temtica a travs de la historia.

    El trmino lingstica aplicada se us por primera vez en los aos 50 para referirse bsicamente a dos reas: al procesamiento automtico de datos lingsticos; a la enseanza de lenguas extranjeras.

    Sin embargo, las cosas son un poco ms complejas de lo que parecen. En el

    primer Congreso Internacional de Lingstica Aplicada (AILA) en Nancy en 1964, los problemas de traduccin automtica o lingstica computacional eran el centro de atencin. Recordemos que en esta poca la traduccin automtica estaba en pleno furor. Ahora ya no hablamos de traduccin automtica sino de asistida (humana y computarizada). Poco a poco, el ncleo de inters se movi a los procesos de adquisicin de la lengua materna y las lenguas extranjeras, en especial, la lengua inglesa, y, de igual modo, a otros mbitos de la lingstica aplicada (Hoffmann, 1998: 91).

    En algunos pases no se entiende lo mismo sobre el trmino lingstica aplicada, por ejemplo en la ex-Unin Sovitica se usa casi siempre con el sentido de tcnica lingstica (actualmente ingeniera lingstica), y en otros como los Estados Unidos de Amrica, y de cierto modo, en algunos mbitos acadmicos del Reino Unido, con el sentido de la enseanza de la lengua inglesa. Crystal (2000: 344) refrenda esto diciendo que:

    La rama ms desarrollada de la lingstica aplicada es la enseanza y aprendizaje de las lenguas extranjeras y en algunas ocasiones el trmino es usado como si este fuera el nico mbito comprendido en l. Sin embargo, muchos otros campos de aplicacin han emergido en aos recientes, incluido el anlisis lingstico de los desordenes del lenguaje (lingstica clnica), el uso del lenguaje en la enseanza de la lengua materna (lingstica educativa), y los avances en lexicografa, traduccin y estilstica.

    Sin embargo, l mismo no tiene en su diccionario algunas de las disciplinas

    mencionadas. En Latinoamrica, la tendencia que predomina es entender la lingstica aplicada como la enseanza de lenguas extranjera y, en especial, la del ingls.

    A finales de los aos 80, la situacin de la lingstica aplicada empieza a cambiar radicalmente en cuanto a cantidad de reas involucradas y diversidad de mbitos de investigacin o desarrollo profesional. Para esto, Cabr y Payrato (1990: 12)

  • citan las 20 reas de estudio del VIII Congreso Internacional de Lingstica Aplicada (AILA) celebrado en Sydney en 1987:

    1. First language development and child language 2. Language education: mother tongue 3. Second language development (child and adult) 4. Language education: second language (including methodology and objectives) 5. Second language proficiency: evaluating and testing 6. Bilingual education: migrant education 7. Language policy and planning 8. Multiligualism: language maintenace: language minorities 9. Language contact: pidging and creoles 10. Interpreting and translating 11. Language and management: forensic linguistics 12. Language and the social order: language and ideology 13. Neurolinguistics 14. Speech pathology and language disorders 15. Language and sign (including language of the deaf) 16. Discourse analysis and stylistics 17. Lexicology: problem of terminology 18. Quatitative methods in linguistics 19. Language learning technology: CALL 20. Linguistics and information science: text generation and parsing.

    Puede observarse que de estas 20 reas, 13 no corresponden directamente a la

    enseanza de la lengua (extranjera, segunda o materna) y al compararse con lo planteado en los aos 50, la disciplina se ha diversificado y especializado enormemente.

    Actualmente, la situacin es mucho ms compleja en el mbito de la lingstica aplicada. En el XIII Congreso de AILA, celebrado en Singapur en diciembre de 2002, se listan 47 reas de estudio, de las cuales 27 no tienen que ver directamente con la enseanza de la lengua:

    1. Adolescent Language Learning 2. Adult Language Learning 3. Artificial Intelligence 4. Bilingualism and Multilingualism 5. Child Language and Early Childhood Education 6. Communication in the Professions 7. Computational Linguistics 8. Contrastive Linguistics and Error Analysis 9. Corpus Linguistics 10. Critical Discourse Analysis 11. Discourse Analysis 12. English as a Global Language 13. Ethics, Rights and Values in Applied Linguistics 14. Forensic Linguistics 15. Gerontolinguistics

  • 16. Immersion Education 17. Intercultural Communication 18. Interdisciplinarity in Applied Linguistics 19. Interface between Linguistics and Applied Linguistics 20. Interpreting and Translating 21. IT, Internet, and Language Learning 22. Language and Ecology 23. Language and Education in Multilingual Settings 24. Language and Entertainment 25. Language and Mind 26. Language and Subcultures 27. Language and the Media 28. Language Disorders 29. Language for Special Purposes 30. Language in Contact 31. Language Loss, Attrition and Re-learning 32. Language Planning and Language policy 33. Language Teaching Methodology and Teacher Education 34. Language, Gender and Power 35. Learner Autonomy in Language Learning 36. Lexicography and Lexicology 37. Mother Tongue Education 38. Multimodality 39. Multiple Literacies 40. Pragmatics 41. Psycholinguistics: Processing 42. Rhetoric and Stylistics 43. Second Language Acquisition 44. Semiotics 45. Sign Language 46. Sociolinguistics 47. Writing of Grammars (reference and pedagogical)

    Ya en este congreso, puede verse la separacin de algunas reas como la

    lexicologa/lexicografa y la terminologa; la puntualizacin de la lingstica forense, etc. debido su especializacin e institucionalizacin.

    Muchas de estas disciplinas de la lingstica aplicada cuentan una o varias revistas cientficas, cursos o asignaturas de pregrado o postgrado, asociaciones (de investigacin, profesionales o acadmicas). Y, sin embargo, todas estas disciplinas o campos de estudio tienen como conocimiento base la lingstica en general. Esto demuestra que cada una de estas disciplinas ha alcanzado un grado de institucionalizacin determinado.

    Si bien algunos argumentan que la no existencia de un solo paradigma dentro de la lingstica aplicada y la fragmentacin en tantas disciplinas o campos de estudio, ponen en duda su carcter de disciplina aglutinadora, otros como Crystal (2000: 344) incluso discuten que muchas de ellas tienen un componente terico y otro aplicado:

  • Por otro lado, puesto que estas ramas desarrollan sus propios fundamentos tericos, la distincin entre puro y aplicado se ve ms evidente, y la caracterizacin de la investigacin como psicolingstica aplicada, etc., presenta en estos momentos mayor regularidad.

    No debemos olvidar que ante todo la lingstica aplicada tiene un carcter

    multidisciplinar. No obstante, en muchos casos, como en la traduccin y la enseanza de una lengua extranjera, se trata de desligar totalmente est disciplina de la lingstica o la lingstica aplicada. Grabe (2002: 6) cita a Crandall (2002) diciendo que algunos profesores de enseanza de segunda lengua sugieren que en la actualidad no necesitan ningn entrenamiento real en lingstica o conocimiento del lenguaje.

    Lo nico que se mantiene en casi todos los casos es la distincin que ya Widdowson (1980a) haba hecho del trmino lingstica aplicada. Una primera interpretacin, lingstica aplicada a, se desarrollan estudios o actividades que tienen que ver exactamente con el contenido semntico del trmino lingstica aplicada que fuera una disciplina comparable a otras aplicadas en otros campos del conocimiento. Se aplican o utilizan conocimientos lingsticos para solucionar problemas prcticos de naturaleza fundamental o parcialmente lingstica (Cabr y Payrato, 1990: 14). As, por ejemplo, la labor de un traductor, profesor de lenguas (materna, segunda o extranjera) podra estar en esta primera interpretacin. De igual modo, podemos incluir aqu campos de estudio o actividades profesionales como la documentacin, la terminologa, los servicios lingsticos, la logopedia, la traduccin, etc.

    La segunda interpretacin, se refiere a los campos de estudio o actividades que se suelen considerar a la lingstica aplicada en un sentido amplio, y est constituido por la interseccin entre un campo de estudio (tradicional) de la lengua y otras reas contiguas. As, la interseccin entre lingstica y la psicologa, sera el campo de intervencin de la psicolingstica, entre la lingstica y sociologa sera la sociolingstica; entre la lingstica y la etnologa sera la etnolingstica, y finalmente, entre la lingstica y la informtica sera la lingstica computacional o ingeniera lingstica. Crystal (2000: 344) objeta este tipo de asociacin ya clsica debido a que

    Existe una conexin imprecisa entre la lingstica aplicada y las distintas ramas interdisciplinarias de la lingstica, como la sociolingstica y la psicolingstica, debido en gran medida a que muchas de las reas que acabamos de nombrar implican resultados prcticos de tipo claramente aplicado (p. ej. La planificacin de una poltica nacional en lo que respecta a la lengua).

    En sntesis, la lingstica aplicada sera, a nuestro modo de entender, como una

    orientacin de la teora y la investigacin en el conjunto de campos de estudio integrados en las ciencias del lenguaje que, partiendo de un marco terico interdisciplinario, tienen una aplicacin prctica (aplicada) que consiste en la resolucin de problemas y conflictos que surgen de la praxis lingstica en contextos reales y, por supuesto, dentro de un modelo terico concreto. (Cabr y Payrat, 1990: 14).

  • 3. Definicin de mbitos

    Para los efectos de esta ponencia, nos situaremos bsicamente en la primera interpretacin de lingstica aplicada. A estas alturas es conveniente definir nuestras reas de inters: la lingstica de corpus, la lingstica computacional y la ingeniera lingstica.

    El acceso, el abaratamiento y el aumento de las prestaciones (capacidad) de los computadores ha estimulado el uso de las computadores en la lingstica y en el surgimiento de nuevas reas de investigacin lingstica entre las que se cuenta la lingstica de corpus, la lingstica computacional y la ingeniera lingstica. Sin embargo no debemos olvidar que los primeros intentos de procesamiento de datos en macrocomputadores despus de su uso en la balstica y el desciframiento de cdigos de guerra, fue la traduccin automtica (machine translation). Ya Warren en 1949 sugera el uso de los computadores para mecanizar el proceso de traduccin y la primera demostracin publica se hizo en 1954 en Georgetown. Durante los aos 70 y 80, investigadores como Melby, Kay, Spillner, Harris, entre otros, desarrollaron los primeros adelantos que hoy tenemos a disposicin de todos en los procesadores de texto: correctores de gramtica, verificadores ortogrficos, textos paralelos, analizadores de textos (concordancer), texto compartido, la idea de ventanas en el procesador, entre otros conceptos, se hicieron desde la traduccin asistida o automtica. 3.1 La lingstica de corpus

    La lingstica de corpus tiene que ver con los principios y prcticas para estudiar la lengua a partir de la observacin de textos en lengua natural, ms o menos representativos, almacenados electrnicamente (corpus) y analizados con herramientas computacionales (analizadores de texto, alineadores, sistema de explotacin de datos, etc.) capaces de seleccionar, ordenar, contar y calcular los datos lingsticos. Consideramos textos en lengua natural todos aquellos discursos orales transcritos y/o escritos producidos por hablantes nativos, preferiblemente en situaciones autnticas de comunicacin. El propsito principal de un corpus es verificar una hiptesis sobre el lenguaje o parte de l, por ejemplo, para determinar cmo el uso de un sonido, palabra, construccin sintctica u otro elemento lingstico en particular vara verticalmente (entre los diferentes gneros o registros) y horizontalmente (entre las diferentes reas del conocimiento) (Crystal, 1992: 85). Se argumenta que la hiptesis central que hay detrs de la lingstica del corpus radica en que las diferencias del lenguaje no son cualitativas sino cuantitativas.

    Un corpus no es slo una simple coleccin de archivos electrnicos de textos que se almacenan en un computador. Antes de esto, un corpus tiene que haber sido objeto de un proceso de marcaje, de acumulacin de informaciones estructurales, textuales y lingsticas (marcajes gramatical y sintctico) que permiten formalizar tanto las distintas subunidades en que se estructuran dichos textos como las informaciones lingsticas y textuales (categora gramatical, funcin sintctica, oracin, prrafo, etc.) que permitirn, por ejemplo, localizar entre millones de palabras aquellos contextos que contienen una determinada combinacin sintagmtica o palabra. Es importante tener en cuenta que no todos los crpora tienen los mismos objetivos ni necesitan la misma

  • profundidad de marcaje, pero por leve que ste sea, se necesitan herramientas informticas para (semi)automatizarlo. Tanto la lingstica computacional como la ingeniera lingstica tienen aportaciones que hacer en este terreno: analizadores y etiquetadores de varios tipos, crpora de entrenamiento, desambiguadores lingsticos, estadsticos. etc. (De Yzaguirre, 1996)

    Los crpora y las herramientas computacionales han sido utilizados para la elaboracin de diccionarios como el Oxford, MacMillan (2002), Lema (2002), Diccionario de Uso del Espaol de America y Espaa (2003), entre otros. De igual modo, se usa en la actualidad en la elaboracin de gramticas como The Logman Grammar of the English Language (1999). Esta gramtica fue realizada por un prestigioso grupo de lingistas y gramatologos encabezado por Douglas Biber y Stig Johanson, usando el corpus de Logman (de ms de 40 millones de palabras en varios gneros). En los estudios de traduccin el uso de los crporas se hace desde los aos 90 en la alineacin de textos, enseanza de la traduccin, entre otros (Baker, 1993, 1995, 1997; King, 1997; Kenny, 2000). En la terminologa, los crporas son un recurso y una herramienta fundamental para la extraccin y compilacin de terminologas (Cabr et at, 2002), entre otros.

    De Jacobi (2002: 1) resume otros usos de los crpora en la elaboracin de

    materiales para la enseanza de lenguas extranjeras (Willis, 1990; Johns, 1988, 1991, 1991a; Lewis, 1993; Mindts, 1995/1996; McEnerry and Wilson, 1993/1997/2000; Aston, 1995/2000); en estudios sobre lenguaje e ideologa (Stubbs y Gerbig, 1993; Flowerdew, 1997; Fairclough, 2000); en de estilstica (Barnbrook, 1996; Burgess, 2000), entre otros.

    El 4to congreso PALC 2003 (Practical Applications in Language Crpora),

    celebrado en Lodz, Polonia, nos muestra todas las posibles interacciones entre corpus y los diferentes campos o disciplinas relacionas con el lenguaje y en especial sobre la enseanza, investigacin y aplicaciones basadas en corpus y una sesin especial sobre aprendizaje en lnea (e-learning). Crpora: American National Corpus British National Corpus National Crpora Contrastive Studies and Language Crpora Ontologies and Language Crpora Expert, Retrieval and Analytical Systems in Crpora FLA/SLA and Language Crpora Language Teaching Materials and Language Crpora Language Teaching and Learner Crpora Lexicography Discourse and Language Crpora ESP and Language Crpora and Language Crpora Lexicology and Language Crpora Literature and Language Crpora Phonetics/Phonology and Language Crpora

  • Translation and Language Crpora Other corpus-related topics

    E-learning: Digital classroom environment Distance learning Continuous education Tools [platforms, etc] EU e-learning programmes Language teaching online

    3.2 La ingeniera lingstica y lingstica computacional

    A mediados de los ochenta se produce la siguiente contradiccin: por un lado, se hace evidente que las expectativas creadas por la lingstica computacional no pueden verse colmadas a corto plazo con aplicaciones complejas como e.g. sistemas robustos de traduccin totalmente automtica de textos de cualquier temtica y tipologa, mientras que, por otro lado, los sistemas informticos son cada vez ms potentes, incluso los personales, y cada vez son ms numerosos los dominios profesionales a los cuales la informtica aporta soluciones que revolucionan los mtodos de trabajo y que reducen astronmicamente los costos humanos de muchas prcticas (De Yzaguirre, 1996).

    En este contexto, y desde hace diez aos aproximadamente, empieza a consolidarse una rama tecnolgica que los franceses denominan al principio "industrias de la lengua" y los anglosajones ''ingeniera lingstica" o "ingeniera del lenguaje natural". La denominaremos aqu "ingeniera lingstica" y la definiremos como el conjunto de las tcnicas, fundamentalmente informticas, y la aplicacin de los conocimientos sobre la lengua en desarrollo de sistemas informticos para que puedan reconocer, comprender, interpretar y generar el lenguaje humano en todas sus formas para generar productos o aplicaciones lingsticas para la industria, las comunicaciones, la enseanza, etc. (De Yzaguirre, 1996).

    Segn De Yzaguirre (1996) existe una complementariedad entre ingeniera lingstica y lingstica computacional', la que se expresa en la ecuacin siguiente:

    I (investigacin) Lingstica computacional ---------------- = -------------------------- D (desarrollo) Ingeniera lingstica

    y esto explica por qu "lingstica" es sustantivo en la primera y adjetivo en la segunda.

    Mientras que la lingstica computacional pretende construir modelos computacionales que expliquen y puedan predecir del lenguaje humano, la ingeniera lingstica, en tanto que disciplina aplicada, ofrece soluciones prcticas a problemas concretos para el procesamiento del lenguaje desde la compilacin de los textos, pasando por la anotacin lingstica y el almacenamiento hasta la extraccin, recuperacin y presentacin de los datos.

  • 4. Productos, servicios y actividades

    La cantidad de productos que hoy en da se derivan de la lengua es numerosa y difcil de cuantificar. Presentamos las tecnologas lingsticas teniendo en cuenta la clasificacin hecha por Milln (2001) con algunas modificaciones.

    En primer lugar, encontramos los mdulos de base (investigacin precompetitiva) que pueden ser parte de otros programas de manera interna, como utilidad o subprograma. Al contrario de lo estipulado por Milln (2001), estos componentes s pueden servir por si solos y ser comercializables directamente para usuarios especializados (investigadores o profesionales) como asesores lingsticos, terminlogos, traductores o lexicgrafos bien sea que estn dentro de un paquete, estos profesionales pueden usar solo uno de los componentes pues en algunos casos no venden el componente por separado: Diccionarios morfolgicos (lematizacin/flexin) Tesauros (redes semnticas) Ontologas (redes semnticas) Diccionarios sintcticos / reglas sintcticas (para anlisis y sntesis) Diccionarios enciclopdicos (antropnimos, topnimos, siglas, etc.) Gestores de datos terminolgicos (vocabulario especializado) Desambiguadores (estadsticos y lingsticos) Alineadores de texto (comparacin de textos paralelos).

    Por ejemplo, un traductor en su estacin de trabajo puede usar un gestor de base

    de datos, un tesauro, y un alineador, entre otros, para consulta de trminos, colocaciones o incluso frases completas.

    De igual modo, un profesor de lenguas puede aprovechar estas herramientas o componentes al preparar material de clase para buscar sinnimos y antnimos con la ayuda de un tesauro; crear pequeos bancos de datos terminolgicos de los textos para la enseanza del espaol con propsitos especficos y usar los alineadores para explotar las diferencias en varios grados de especialidad de textos paralelos especializados. Por ejemplo, es posible ver las diferencias de frmulas estilstico-retricas de textos legales en medio ambiente entre el portugus de Brasil y el espaol de los pases del cono sur.

    En segundo lugar, tenemos los mdulos orientados a tareas. Estos componentes ya suelen estar incorporados en productos comerciales, aunque por lo general no funcionan aisladamente sino como componente, utilidad o subprograma de un paquete para una actividad determinada:

    Verificadores ortogrficos (procesadores de palabras, estaciones de trabajo de

    traduccin) Correctores gramaticales (procesadores de palabras, estaciones de trabajo de

    traduccin) Correctores estilsticos (procesadores de palabras, estaciones de trabajo de

    traduccin) Desambiguadores (buscadores)

  • Indexadores (buscadores) Sugeridores de errores de entrada (buscadores) Programas para resumir documentos (buscadores) Conversores texto-habla/habla-texto (sistemas operativos, programas de dictado) Reconocimiento de escritura (sistemas operativos de aparatos porttiles) Traductores automticos o memorias de traduccin (estaciones de trabajo de

    traduccin, buscadores)

    Por ltimo, tenemos los productos finales para el usuario final, los cuales pueden variar en prestaciones o utilidades dependiendo de s el usuario es individual o crporativo. Sistemas operativos Procesadores de texto Programas de traduccin asistida o automtica Buscadores (en la Red) Comercio electrnico Enseanza y formacin a distancia Enseanza de espaol como lengua extranjera Agentes inteligentes Plataformas de edicin Bases de datos terminolgicos Gestores / analizadores de informacin Diccionarios monolinges, bilinges o multilinges, Diccionarios especializados Tesauros Sistemas de reconocimiento del habla Sistemas multimedia Terapia del habla y un largo etctera.

    Existe un sinnmero de productos que requieren en algn momento de

    tecnologa lingstica en una o varias lenguas. En muchos casos, no imaginamos que muchos productos que a diario usamos tienen algn componente de tecnologa lingstica. Por ejemplo, los contestadores automticos, las compras a travs de Internet, el procesador de palabras, etc.

    Como todos sabemos en un procesador de texto intervienen los siguientes componentes: verificadores ortogrficos y sus variantes regionales, correctores de estilo, verificadores de sinnimos y antnimos, verificadores gramaticales, contadores de palabras, diccionarios especializados, guionizadores, e incluso separadores de palabras.

    Los adelantos tecnolgicos y las nuevas necesidades de la sociedad actual hacen que se creen nuevos perfiles profesionales. As los sistemas de reconocimiento y sntesis del habla permiten el desarrollo de mltiples servicios. Por ejemplo, estas tecnologas del habla permiten la interaccin entre los computadores o los aparatos electrnicos y las personas. Entre los mltiples propsitos se destacan: aprendizaje, acadmicos, de placer o de negocios (sistemas aprendizaje en lnea, de traduccin del habla para

  • centrales telefnicas, convertidores de voz, para investigacin, informacin turstica, publicidad, etc); estos pueden ser monolinges o multilinges. 5. Perfiles profesionales

    Los perfiles profesionales que se necesitan en las industrias del lenguaje son muy diversos y pueden ser realizados por profesionales con niveles diferentes de dominio que pueden trabajar en conjunto para complementarse los unos a los otros. Si bien existen perfiles muy bien definidos como el de profesor de lenguas, traductor, intrprete, lexicgrafo, editor, etc., no siempre la formacin de estos perfiles est bien definida dentro del mbito universitario.

    Est claro que todos los posibles perfiles necesitan al menos los siguientes conocimientos: Un conocimiento detallado de cada lengua y cultura de trabajo Un entendimiento de las propiedades generales del lenguaje como actividad

    humana

    Dependiendo del tipo de actividad o perfil debera, adems de lo anterior, tener un conocimiento detallado de: La realizacin computacional de las teoras lingsticas Las propiedades del lenguaje real (con sus agramaticalidades) Conocimiento amplio de tcnicas informticas para el procesamiento de

    lenguaje natural.

    Por ltimo, un profesional o investigador debe tener la capacidad de predecir las tendencias del mercado y sacar provecho de ellas.

    Tener profesionales de este tipo no es fcil, si bien cada da se pueden encontrar profesionales e investigadores con este tipo de perfil formados, en muchos casos, ellos mismos. Puede decirse que lo ideal es trabajar en grupos que tengan en su haber: lingistas tericos y aplicados, informticos, documentalistas, entre otros, que permitan que sacar el mximo de provecho de sus capacidades disciplinares.

    En resumen, podemos decir que un primer perfil se concentrara en la enseanza/aprendizaje de lenguas extranjeras, es decir, de profesores (incluso de lengua materna). Un segundo perfil, se centrara en la lingstica terica para analizar las lenguas cientficamente. Un tercer grupo se ubica en la comunicacin interlingstica, es decir, los traductores y los intrpretes. Un cuarto grupo, se encontrara en conocer una lengua o varias y los principios bsicos y usar las herramientas informticas para aplicar las teoras lingsticas a las lenguas. Y por ltimo, un grupo estara ms interesado en manipular y procesar el lenguaje con conocimientos slidos en informtica para crear aplicaciones.

    En muchos casos los perfiles dependen de la formacin recibida en pregrado y posgrado y desde que disciplina de procedencia. Por ejemplo, los informticos

  • inclinados por el procesamiento del lenguaje estn ms interesados en crear herramientas o programas. En cambio, un lingista terico (lingstica computacional) estara ms interesado en disear modelos que representen determinada realidad lingstica para que otro la aplique (ingeniero lingstico o un informtico). En cambio, los profesionales como profesores de lengua, traductores, intrpretes, documentalistas, terminlogos, lexicgrafos o asesores lingsticos son ms propensos a ser usuarios avanzados de las herramientas. A pesar de esto, el juego va en doble va pues el trabajo desarrollado por un terminlogo, lexicgrafo o traductor puede ayudar a desarrollar herramientas para sus mismos colegas o investigadores. A manera de ilustracin, los lemarios o definiciones pueden usarse como desambiguadores, o para detectar neologa; los textos paralelos pueden servir de corpus de entrenamiento para otros sistemas; y las terminologas pueden ser usadas para alimentar sistemas de extraccin o recuperacin de informacin, los corpus hechos a partir de los textos de los estudiantes (a learner corpus) pueden servir para crear materiales para la enseanza, por ejemplo.

    Es claro que, a pesar de estos perfiles muchos profesionales no estn preparados adecuadamente para ejercer alguna de estas actividades pues su formacin no corresponde con las nuevas tendencias o necesidades sociales. Muchos se actualizan en cursos de master o diplomas, unos pocos lo hacen ellos mismo. 6. Formacin

    A pesar de los cambios en los ltimos 10 aos, la formacin de profesionales del lenguaje sigue desfasada respecto de la demanda de las industrias del lenguaje y de las necesidades actuales de la sociedad de hoy. Este desfase, a mi modo de ver, est ms acentuado en Latinoamrica que en Espaa por diversas razones que no son parte de este trabajo.

    Cabr y Payrat (1990: 24) observan que en Espaa los licenciados en filologa (de cualquier lengua) cuando terminan sus estudios se integran bsicamente en tres profesiones: la primera, mayoritariamente, la enseanza de lenguas en la secundaria, la segunda, ms restringida debido a razones de mercado, el mundo editorial (redaccin de diccionarios, enciclopedias, correccin de textos, revisin de pruebas, entre otras), la ltima, ejercida de manera ocasional o complementaria, la traduccin.

    Si bien en los ltimos 10 aos han proliferado en Espaa (no as en Latinoamrica) los programas de traduccin e interpretacin, sobresaturando el mercado, la enseanza del espaol como LE est disfrutando su cuarto de hora; otras reas estn muy poco exploradas a pesar de los estmulos para estudiar o investigar como las tecnologas del habla, y otros campos relacionados con el diseo y la elaboracin de herramientas bsicas.

    Todava en Espaa se dan muchos casos en que los profesionales con formacin filolgica sean profesores de lengua y no tengan la formacin apropiada ni en programacin curricular, ni en didctica, ni en evaluacin ni recursos tcnicos para la enseanza. Afortunadamente, en los ltimos aos esta situacin ha cambiado con cursos impartidos en toda Espaa por el Instituto Cervantes y otras instituciones. Sin embargo dentro de los currcula de las licenciaturas, existen carencias. Los que se dedican al

  • mundo editorial no han recibido formacin en redaccin y correccin de textos y mucho menos de lexicografa y herramientas para la edicin (de las muchas que hay). En la actualidad, se hacen esfuerzos en este sentido en las licenciaturas. Muchas de estas carencias se subsanan en un sinnmero de diplomados o masters profesionalizantes. La introduccin de estas disciplinas en las licenciaturas o pregrados relacionados con la lengua espaola, permitira una mejor preparacin de los profesionales del lenguaje al mercado laboral si tenemos en cuenta que, en la actualidad un buen profesional que no maneje herramientas para procesamiento de datos lingsticos quedar rpidamente fuera del mercado e incluso sus posibilidades dentro del campo de la investigacin se vern reducidas. De igual modo, Mart y Llisterri (2001) insisten en la importancia de una formacin ms especifica en los programas relacionados con las lenguas y, en especial, con las disciplinas objeto de este trabajo:

    Sin embargo, la incorporacin del lingista a los nuevos sectores de actividad no puede ser efectiva sin una formacin especfica. En el caso de la gestin de contenidos, son esenciales los conocimientos de informtica y de lingstica computacional, as como la capacidad de abstraccin y de razonamiento lgico, de organizacin y estructuracin de datos y de formalizacin del lenguaje. Las tecnologas del habla, por otra parte, requieren especialistas con slidos conocimientos de fontica, de tratamiento digital de seales y de las peculiaridades del proceso de interaccin entre personas y sistemas informticos.

    Segn Cabr y Payrat (1990), una formacin adecuada en lingstica aplicada

    debera tener en cuenta: Un currculo ms diversificado: investigacin/profesionalizacin Un currculo ms profesional ms orientado al ejercicio real de la profesin Una enseanza ms prctica al costado de los fundamentos tericos Una enseanza ms actualizada Una enseanza ms conectada con el mercado posible de trabajo.

    Grabe (2002: 12) concluye que entre los temas o (sub) campos clsicos de la lingstica aplicada es necesario que los lingistas aplicados sepan ms sobre lingstica de corpus, herramientas informticas para propsitos de investigacin y nuevas maneras de examinar (y explotar) datos lingsticos (para diferentes propsitos). De igual modo, Mart y Llisterri (2001) analizan las condiciones que deben tener los lingistas para ocupar los nuevos perfiles profesionales en las industrias del lenguaje:

    Al contrario de lo que suceda en la filologa tradicional, el desarrollo de sistemas de procesamiento de la informacin, del lenguaje y del habla requiere la colaboracin de especialistas en diversas reas. Por ello, es tambin esencial en el perfil del lingista que aspire a centrar su actividad en el nuevo entorno de la Sociedad de la Informacin, una buena capacidad de trabajo en equipo y de organizacin y gestin de proyectos multidisciplinares en los que la labor individual se oriente a la consecucin de un objetivo comn.

    En resumen, los conocimientos bsicos que debe tener un profesional de la

    lengua que trabaje con el procesamiento del lenguaje pueden ser: Una gran capacidad de observacin y anlisis lingstica

  • Una aproximacin multidisciplinar al lenguaje Una competencia multilinge elevada Habilidades de formalizacin y generacin de tcnicas de tratamiento del

    lenguaje Conocimientos y aplicaciones de programacin y estadstica Flexibilidad para afrontar los cambios tecnolgicos constantes Polivalencia que les permita intervenir en diferentes campos

    A manera de ejemplo, el nuevo programa en lingstica aplicada (con nfasis en

    nuevas tecnologas) de la Universidad Pompeu Fabra pretende que sus egresados/licenciados puedan desempearse en el mercado laboral en: En las empresas y organizaciones:

    a) Extraccin, recuperacin y gestin de la informacin (web, comercio electrnico);

    b) Generacin y evaluacin de herramientas informtica aplicadas a la logstica empresarial, y

    c) Traduccin automtica y asistida por computador. En las instituciones educativas:

    a) Enseanza de lenguas asistida por computador, y b) Creacin de herramientas interactivas multilinges y en suporte multimedia.

    En las instituciones sanitarias:

    a) Desarrollo de herramientas para personas con patologas lingsticas y necesidades comunicativas especficas (tecnologa del habla), y

    b) Desarrollo de herramientas que permitan a los expertos actuar en el campo de la medicina y la psiquiatra forense.

    En los organismos e instituciones judiciales:

    a) Desarrollo de sistemas de identificacin de hablantes (tecnologa del habla); b) Determinacin de la autora de un texto, cartas o notas annimas en un juicio; c) Determinacin de la existencia de plagio en la autora de canciones, novelas,

    libros, guiones cinematogrficos y traducciones, y en la produccin de exmenes, pruebas, y otros;

    d) Anlisis de falsedad de documento pblico, e e) Interpretacin y desambiguacin de textos escritos jurdicos y legales.

    Con este nuevo programa se pretende, en primer lugar, ofrecer un programa en

    lingstica que rompa con la tradicin filolgica de los programas espaoles. En segundo lugar, ofrece al estudiante salidas profesionales ms claras y en consonancia con la realidad lingstica de la Unin Europea.

  • Finalmente, podemos agrupar el tipo de asignaturas que pueden ayudar a reforzar los perfiles antes mencionados as: Lingstica computacional Introduccin a la lingstica computacional Lingstica de corpus Morfosintaxis computacional Pragmtica y semntica computacional Traduccin automtica y asistida Extraccin y recuperacin de la informacin Inteligencia artificial

    Ingeniera lingstica Fundamentos de procesamiento del lenguaje natural Tratamiento del habla Lexicologa y terminologa Gestin de proyectos lingsticos Tratamiento de discurso Industrias de la lengua Tratamiento digital del habla

    rea de informtica Fundamentos de programacin Programacin (Perl, Java, Prolog) Filosofa del lenguaje Lgica y lenguajes formales Estadstica Informacin y redes telemticas Estructura de datos: modelos y gestin

    Otras: Lingstica forense Lingstica aplicada Lingstica contrastiva

    El problema finalmente radica en si estos perfiles se deben cubrir en pregrado o

    posgrado. Pienso que el pregrado debe dedicarse ms a la profesionalizacin sin olvidar la formacin ms bsica en investigacin. Por el contrario, los posgrados deberan centrarse ms en la investigacin. Sin embargo, en Espaa, se suelen hacer masters y diplomados profesionalizantes.

  • 7. A manera de conclusin

    A pesar de todos los cambios actuales en la lingstica y la lingstica aplicada, las nuevas necesidades y exigencias sociales, la formacin de profesionales en las lenguas no refleja estos cambios en los pregrados.

    En algunos pases de lengua espaola se hacen actualizaciones tmidas en posgrado; es en los primeros estadios del tercer ciclo en donde se hacen ms esfuerzos. No obstante, estos aspectos profesionalizantes deberan llevarse a cabo ms en pregrado que en posgrado, el cual como su filosofa lo presenta debe dedicarse a la investigacin.

    Finalmente, las posibilidades que nos ofrecen las disciplinas antes mencionadas en esta ponencia son muy grandes desde la profesionalizacin, la enseanza hasta la investigacin dadas las nuevas condiciones de la sociedad de la informacin (Mart y Llisterri; 2001). Estas posibilidades sirven para crear recursos, herramientas y productos para la lengua espaola si la queremos posicionar en el mercado internacional, no solo por la cantidad de hablantes sino por los productos que se pueden elaborar, y las actividades y los servicios que se puede prestar. Para esto, sera deseable reorientar, en muchos casos, los programas relacionados con el lenguaje y la lengua espaola. En algunos programas como la traduccin este tipo de cambios se estado haciendo rpidamente, pero en las licenciaturas en filologa y lenguas modernas todava hay muchos miedos frente a la tecnologa. En los programas de enseanza de lengua sucede algo similar, se tiene en muchos casos una asignatura en CALL pero sin un peso importante en el currculo. El aprovechar este espectro de posibilidades ya es una realidad, y es deber de todos los que trabajamos en lenguas sacar provecho al mximo de ellas. Bibliografa ANITE SYSTEMS, 2003: "Ingeniera lingstica: Cmo aprovechar la fuerza del

    lenguaje", Versin espaola: Observatorio Espaol de Industrias de la Lengua, Instituto Cervantes. Disponible en http://www.hltcentral.org/le/es/broch/harness.html [Consulta 15.7.2003].

    ASTON, Guy, 1995: "Corpora in Language Pedagogy", en Guy COOK, and SEIDLHOFER, Barbara (ed.), Principle and Practice in Applied Linguistics, Oxford, Oxford University Press.

    ASTON, Guy, 2000: "Learning English with the British National Corpus", en Paz BATTANER, y Carmen LOPEZ (ed.), VI Jornadas de corpus lingstics: corpus lingstics i ensenyament de llenguas, Barcelona, Institut Universitari de Lingstica Aplicada.

  • BATTANER, Paz, y LOPEZ, Carmen, (eds), 2000: "VI Jornadas de corpus lingstics: corpus lingstics i ensenyament de llenguas", Barcelona, Institut Universitari de Lingstica Aplicada.

    BERBER SARDINHA, Tony, 1999: "Beginning Portuguese Corpus Linguistics: Exploring a Corpus to Teach Portuguese as a Foreign Language", D.e.l.t.a, vol. 15, n 2, pp. 289-299, [Consulta 15.7.2003].

    BIBER, Douglas; CONRAD, S.; and REPPEN, R., 1998: "Corpus Linguistics -

    Investigating Language Structure and Use", Cambridge, Cambridge University Press.

    CABRE, Mara Teresa y PAYRAT, Lluis, 1990: "La lingstica aplicada avui", en Cabr, Mara Teresa, (coord.), La lingstica aplicada: noves perspectives, noves professions, noves orientacions, Barcelona, Universitat de Barcelona/Fundaci Caixa de Pensions.

    CRYSTAL, David 1980[2000]: "Diccionario de lingstica y fontica", Trad, y adaptacin de Xavier Villalba, Barcelona, Octaedro.

    CRYSTAL, David, 1992: "An Encyclopedic Dictionary of Language and Languages", Oxford: Oxford University Press.

    DE YZAGUIRRE, Lluis, 1996: "Ingeniera lingstica y terminologa", Terminmetro, Monogrfico: La terminologa en Espaa, pp 69-71.

    GRABE, W, 2002: "Applied Linguistics: An Emerging Discipline for the Twenty-First Century", en: KAPLAN, Robert, The Oxford Handdbook of Applied Linguistics, Oxford, Oxford University Press.

    HOFFMANN, Lothar, 1998: "El lloc que ocupa la recerca sobre els llenguatges despecialitat en la lingstica aplicada", en HOFFMANN, Lothar, Lenguatges despecilitat: selecci de textos, Barcelona, Institut Universitari de Lingstica Aplicada, pp 91-102.

    HUTCHINS, W, John, 1986: "Machine Translation: Present, Past and Future", Chichester, Ellis Horwood.

    HUTCHINS, W, John, 1998: "The Origins of the Translators Workstation", en Machine Translation 13, pp 287-307.

  • JACOBI, Claudia, 2000: "Introducing Concordances to Teach Spanish to Brazilian Students", TALC'2000, Graz, Austria. [Consulta 15.7.2003].

    JACOBI, Claudia, 2000: "Computadores, corpora y la enseanza de espaol en cursos

    de letras", PUC- SP. Fac. Comunicao e Filosofia, Departamento de Lingstica.

    KAY, Martin 1997[1990]: "The Proper Place of Man and Machine", en Machine Translation, n 12(1), pp 3-23.

    MART, Maria Antnia y LLISTERRI, Joaquim, 2001: "La ingeniera lingstica en la Sociedad de la Informacin". Disponible en http://www,ub,es/ling/tonicat,htm, [Consulta 15.7.2003].

    MCENERRY, Tony and WILSON, Andrew, 2000: "Linguistic Crpora and Language Teaching: Corpus Based Help for Teaching Grammar, En: Paz BATTANER y Carmen LOPEZ (ed.) VI Jornadas de corpus lingstics: Corpus lingstics i ensenyament de llenguas, Barcelona, Institut Universitari de Lingstica Aplicada.

    MILLN, Jos Antonio, 2001: "How Much is a Language Worth: A Quantification of the Digital Industry for the Spanish Language". Disponible en http://jamillan.com/tesoro.htm [Consulta 15.7.2003].

    MUNICIO, ngel Martn, 2003: "El valor econmico de la lengua espaola", Madrid, Espasa.

    NARANJO, Plutarco, 2002: "El motor morfolgico de Signum y sus aplicaciones", Terminmetro, Monogrfico: La terminologa en los pases andinos, pp 58-64.

    QUILS, Michel, 2000: "Ingeniera lingstica en Espaa", en Terminmetro, No 35 5. Disponible en www.terminometro.info [Consulta 15.7.2003].

    TORO GARCA, Federica, 1997: "Realidades y perspectivas del libro de espaol como

    lengua extranjera para el nuevo siglo", Actas Primer Congreso Internacional de la Lengua Espaola, Zacatecas, Mxico. Disponible en el Instituto Cervantes cvc.cervantes.es/obref/congresos/zacatecas/libro/ [Consultado el 15 de julio de 2003].