Parece fuera de toda duda que el funcionamiento del lenguaje dentro de la mente es uno de los retos científicos más importantes del nuevo siglo; no solo por lo que este conocimiento pueda esclarecer sobre el gran misterio del funcionamiento del cerebro, sino por la necesidad que la Inteligencia Artificial tiene de un marco teórico y metodológico sobre el lenguaje desde el cual programar sus algoritmos e integrarlos dentro de una arquitectura general.

No obstante, la contestación a la pregunta de si se podrá algún día formalizar el lenguaje natural con el lenguaje de la lógica o de las matemáticas todavía está fuera hoy por hoy de nuestro alcance. La relación entre los lenguajes formales y las lenguas naturales, o mejor dicho, la implementación de las últimas en los primeros es todavía un hecho que, de momento, queda reservado al mundo de la ciencia ficción. No deja de ser curioso y hasta paradójico que muchos físicos, entre ellos J.D. Barrow en su libro Teorías del todo, se hayan sorprendido de que las leyes del universo se puedan expresar con unas matemáticas bien sencillas (a la vista están las leyes de Newton y la fórmula de Einstein), y que sin embargo, la lenguas naturales se resistan a las puertas del siglo XXI a ser formalizadas en términos matemáticos. Las matemáticas y el lenguaje parecen ser códigos reservados a codificar dos conocimientos diferentes dentro de la mente: el mundo objetivo y el mundo subjetivo respectivamente. La expresión de uno en términos de otros y sus relaciones de equivalencia así como su interacción dentro del cerebro es otro misterio más sin resolver hoy en día para la ciencia. En la segunda mitad del siglo XX, con la implementación de las gramáticas formales chomskyanas, se originaron en el seno de las Ciencias Cognitivas unas expectativas demasiados optimistas que poco a poco se han ido reformulando en posturas más prudentes y modelos de lenguaje aplicados a dominios restringidos. Si tuviéramos que localizar con la precisión de un cirujano a punto de operar dónde se encuentra la causa de que todavía las máquinas no hablen, parece claro que en el centro de la diana se situaría el gran problema de la interpretación del significado. Y cuando hablamos del significado, no nos referimos solo al de las palabras, sino también al de estas mismas cuando se combinan en oraciones conformando textos o discursos.

Por lo tanto, una vez que el nivel sintáctico, más o menos, deja de ser un reto para la formalización, ahora debemos centrarnos en la aprehensión del significado y su relación con la forma lingüística. Un significado que, a medida que más se profundiza en él, más asoma su faceta cognitivo-simbólica, sociocultural y psicológica-individual. Estamos acostumbrados a escuchar que el significado de las palabras es convencional, y que por eso existe el lenguaje, porque nos hemos puesto de acuerdo en que, cada vez que la grafía o la cadena de sonidos mesa llegue a nuestros oídos, nosotros entendamos todos por igual lo mismo. Con el valor de verdad de este último enunciado, los ingenieros en informática y telecomunicaciones abordan el problema del significado de las lenguas y su codificación por la forma lingüística como si de algo claro, objetivo y preciso se tratara. No obstante, como hemos dicho, las lenguas naturales, en oposición a los lenguajes matemáticos, son sistemas de simbolización de significados tan flexibles como ambiguos a partir de su forma lingüística. Las normas culturales y sociales nos guían en la interpretación de las palabras y de los enunciados, sin embargo, tarde o temprano aflora esa dimensión del lenguaje que se opone a ser formalizado, predecible y sin la cual no existiría la poesía.
Así pues, hoy por hoy, el gran problema al que se enfrentan tanto la Lingüística Computacional como la Inteligencia Artificial a la hora de plantearse el procesamiento del lenguaje natural es el de la interpretación del significado, y más concretamente, la interpretación de los significados de las oraciones, o mejor dicho, de los enunciados, los cuales no son otra cosa que las oraciones pronunciadas en unas coordenadas espacio-temporales, en un contexto determinado. El estudio de los enunciados, su significado y la relación entre ellos en el discurso constituyen el centro de atención de la mayor parte de los estudios adscritos a la Pragmática Teórica. Dicha corriente se gesta en sus orígenes en gran medida por oposición a la Lingüística Formal, Generativa o Chomskyana, y es precisamente la formalización el aspecto que menos les preocupa a estos estudios de corte radicalmente funcionalista . La consecuencia de ello es la dificultad de aplicar los conocimientos procedentes de esta disciplina a otras parcelas de conocimientos de naturaleza aplicada como las que acabamos de señalar, la Enseñanza de Español a Extranjeros o la Psicolingüística.

La formalización es una de las razones por las que, como decimos, la Lingüística Computacional todavía está lejos de incorporar todo el conocimiento generado en esta disciplina a sus modelos de lenguaje. Solo de forma paulatina la Pragmática Computacional está empezando a implementar algunos marcos teóricos procedentes de la Pragmática Teórcia, como por ejemplo la Teoría de los Actos de Habla o la localización de marcadores discursivos en los textos de manera automática; sin embargo, todavía existen muchos fenómenos que tienen lugar en el nivel enunciativo de la lengua que la Pragmática Computacional no ha contemplado, como por ejemplo, la modalización discursiva, y que ejercen una gran influencia en la interpretación de los valores de verdad de los enunciados.

Al mismo tiempo, el hecho de que la Pragmática carezca de un marco teórico unificado hace que todavía no existan, en la anotación de corpus, estándares sobre etiquetado pragmático en los que se puedan explicitar conceptos y fenómenos que son claves en esta dimensión de la lengua. Buena parte de las anotaciones de corpus con información pragmática que se han hecho han tenido lugar en el terreno de la Inteligencia Artificial, en concreto en los sistemas de diálogo hombre-máquina, y sus esquemas de etiquetado no trasluce una postura lingüística detrás, sino que son implementaciones vagas de conceptos desligados entre sí y absolutamente adaptados al dominio en que trabajan. Esta manera de trabajar no nos debería extrañar si ni siquiera hay un acuerdo en la comunidad científica sobre qué se considera anotación pragmática. Estas deficiencias se agudizan más en el panorama español, ya que hoy por hoy, no se ha contemplado por parte de las instituciones que poseen grandes corpus, y entre ellos grandes corpus de español oral, marcar al menos como categoría los marcadores del discurso, y de paso, plantearse los problemas derivados de hacer esta tarea lo más automática posible.

A la vista de estos datos, es de rigor hacer alguna reflexión que nos obligue a comprender algunas de las razones por las que los informáticos que trabajan en procesamiento del lenguaje natural y que no ignoran estos conocimientos procedentes de la Pragmática (los cuales conforman un grupo muy reducido) ofrecen casi tanta resistencia como los propios lingüistas a la hora de fijar en una etiqueta el significado de un marcador del discurso o del acto de habla de un enunciado. Ya que en estos casos, dicho significado no es tan automático, veloz e inconsciente como en el caso del léxico, sino que es producto de la interacción con normas socio-culturales y, en último término, de nuestra propia psicología. Así por ejemplo, ¿cómo debo interpretar/etiquetar el enunciado Habría que bajar la basura dentro del contexto de la convivencia conyugal? ¿como una orden o simplemente como una aseveración?

Es por ello que, dentro de la enumeración de los retos o problemas de la Pragmática, deben tratarse como cuestiones claves la predictibilidad en la interpretación del significado, el concepto de contexto, y la codificación lingüística en términos de relevancia durante el proceso de comunicación.
En efecto, la Pragmática, en tanto que estudia el uso del lenguaje en su contexto, es una disciplina sujeta a la interpretación. La Filosofía de la Ciencia la clasificaría como un campo de investigación perteneciente a las disciplinas propias del terreno de la subjetividad . Buena parte de la Pragmática se ocupa del conocimiento implícito en los mensajes lingüísticos, esto es, aquello que se infiere pero que no está explicitado verbalmente. El simple hecho de plantearse esta parte del significado como objeto de estudio supone ya en sí mismo un problema para un paradigma científico que sienta sus bases en la observación empírica y en la predictibilidad. El significado final de una emisión lingüística para un receptor es el resultado de una inferencia mental, no se puede observar directamente y muy pocos dirían que es predecible, ni siquiera en situaciones o contextos sometidos a un alto nivel de descripción.
Para complicar aún más el acercamiento empírico a esta materia, debemos añadir que el material de trabajo con el que se llevan a cabo las investigaciones en Pragmática está conformado por corpus. En estos conjuntos de textos, el contexto ha desaparecido por completo y solo permanecen algunas de sus huellas reflejadas en la información de las cabeceras y en algunas palabras como, por ejemplo, las expresiones deícticas, entre otras formas lingüísticas. Algunas corrientes relativistas defienden que es imposible predecir en estos momentos el significado, por ejemplo, de un acto de habla indirecto, simplemente contando con la información lingüística de un enunciado. Como sabemos, es el contexto el que ayuda a que algunos significados y no otros se activen durante el proceso de inferencia que tiene lugar durante la comunicación. Al mismo tiempo, la Lingüística Interactiva también apunta en esta dirección al señalar que los significados se construyen y se negocian de forma activa por parte de los participantes durante el proceso de interacción, como ya hemos señalado anteriormente.

Así pues, el desafío más importante para las disciplinas que se plantean la compresión y generación de lenguaje natural está centrado en la sistematización o formalización de la relación forma lingüística, significado y contexto. Este último concepto está sujeto a diferentes parcelaciones por parte de los diversos enfoques teóricos que se han ocupado de él. Según algunas corrientes de la Psicología Cognitiva y de la Inteligencia Artificial , los contextos serían marcos mentales que ayudan al individuo a interpretar la información del medio, como por ejemplo, una conversación, en términos de valores de verdad, pero ¿cómo dar cuenta de esta realidad mental entonces?

Por último, y para terminar la enumeración de los retos más importantes que se plantea la Pragmática Computacional, debemos tener en cuenta que la comunicación humana es un proceso inferencial y que, tal y como han puesto de manifiesto los investigadores Sperber y Wilson a través de la formulación de la Teoría de la Relevancia, solo codificamos la parte más relevante de lo que queremos decir. Si tenemos en cuenta la propuesta de estos autores, es de obligada reflexión decidir también qué parte del significado es posible recuperar realmente.

Estas cuestiones que someramente acabamos de apuntar sobre los grandes problemas que conlleva la aproximación computacional al significado es objeto de un candente debate en la investigación teórica pero, por contrapartida, apenas es un tema considerado no solo en las empresas de ingeniería lingüística sino en la investigación pública dedicada al procesamiento de las lenguas, la cual, a día de hoy, está dominada por investigadores formados en ingeniería informática que prefieren aproximaciones al procesamiento del lenguaje natural desde modelos probabilísticos, y donde el lingüista, lejos de tener un papel activo en la planificación de estrategias de programación, cumple el papel de corregir o depurar los programas hechos por los ingenieros que no gozan precisamente de una elevada formación lingüística, ni en su plano teórico ni en su plano más descriptivo.

Por todas estas razones, la primera motivación de este trabajo ha sido la de acercar a las disciplinas que traten con el lenguaje el conocimiento que se está construyendo en torno a la dimensión pragmática de la lengua; nos referimos, más concretamente, a la Lingüística Computacional, la Enseñanza de Español a Extranjeros, la Sociolingüística de corte cuantitativo y los sistemas de diálogo hombre-máquina.

La vía de trabajo propuesta en esta tesis ha tenido en cuenta todas las limitaciones que se acaban de exponer en torno al significado inferido o no explicitado y defiende, como punto de partida, la consideración de la dimensión pragmática en el procesamiento del lenguaje natural a través de la anotación pragmática de corpus.

Desde un punto de vista más concreto, el objetivo de esta investigación ha sido el de introducir información de tipo pragmático en el corpus oral del español C-ORAL-ROM. La información que se refleja en la etiqueta de las unidades lingüísticas que vamos a marcar remite a fenómenos que se podrían situar en el interfaz semántico-pragmático de la lengua; dichos fenómenos tienen una naturaleza cognitivo-social y afloran en el momento de la enunciación. En concreto, nos interesa saber cómo se marcan lingüísticamente en una lengua las emociones, el razonamiento, la modelización discursiva de la realidad, las fuentes en la que apoyamos el valor de verdad de nuestros enunciados, la alusión al oyente y al discurso, la acción y, por último, la convencionalización de la lengua. Dichos fenómenos se han denominado, respectivamente, desde la Lingüística pero no solo: lenguaje emocional, relaciones discursivas, modalización discursiva (atenuación e intensificación), evidencialidad, deixis social y discursiva, actos de habla y unidades fraseológicas.

Los objetos de estudio ya en el nivel más puramente gramatical que hemos elegido para proyectar el modelo de anotación han sido los constituyentes extraoracionales, denominados tanto por la gramática tradicional de corte estructuralista, como por las vertientes formalistas del lenguaje, como por el neoestructuralismo: adverbios oracionales, interjecciones, marcadores discursivos, vocativos, sintagmas preposicionales externos y adjuntos. En nuestro modelo de anotación, estas formas léxicas o lexicalizadas serán clasificadas semánticamente a la luz de los fenómenos nombrados y etiquetadas en el corpus cuando aparezca alguna de sus ocurrencias. Para los no especialistas en Pragmática, tenemos que decir que el modelo lingüístico que ofrecemos aquí recoge fenómenos que los investigadores en esta disciplina están descubriendo y que no es un modelo cerrado compuesto por unidades discretas que guarden relaciones de oposición entre sí, como por ejemplo los sistemas descritos en el nivel fonológico.

En el futuro, este esquema de anotación se aplicará a nivel intraoracional, ya que los fenómenos que aquí son objeto de análisis se manifiestan en la lengua no solo a través de los constituyentes periféricos de la oración sino también a través de otros niveles de la gramática como la sintaxis, la prosodia o la morfología. Por ejemplo, la atenuación se muestra en el nivel morfológico en el caso de ¿Tomamos una cervecita?. La introducción de este tipo de anotación en los corpus puede ayudar a la consideración de estos fenómenos por parte de la Inteligencia Artificial y de la Lingüística Computacional, fenómenos que, como decimos, pueden estar codificados lingüísticamente, y que aluden a la naturaleza subjetiva de nuestro conocimiento de la realidad.
Hemos estructurado este trabajo en cinco partes denominadas de la siguiente manera: de la teoría, de la descripción, del procesamiento, de la aplicación y de la interpretación. Veamos cuáles son las líneas de trabajo que se tratan en cada una de esta partes.

La primera parte, De la Teoría, está conformada por tres capítulos. En el primer capítulo hablamos de la relación entre cognición, conducta social y uso del lenguaje en el ser humano. En el segundo capítulo, tratamos las aportaciones teóricas más relevantes que han tenido lugar dentro del terreno de la Pragmática. En concreto hablaremos de las siguientes corrientes: la Teoría de la Relevancia, el modelo de cooperación comunicativa de Paul Grice, el modelo de cortesía propuesto por Levinson y Brown, la Teoría de los Actos de Habla y, por último, la Teoría de la Argumentación. Finalmente, el tercer y último capítulo de este módulo teórico está dedicado a los marcadores discursivos, objeto de estudio por excelencia en los estudios pragmáticos; en él trataremos cuestiones relativas a su definición, significados, propiedades gramaticales, clasificación semántica y tratamiento de los mismos dentro de la Lingüística Computacional.

La segunda parte de este trabajo está conformada por lo que hemos denominado el módulo descriptivo, el cual ocupa dos capítulos: en el primero de ellos, se presenta el modelo de anotación pragmática que hemos diseñado, Pragmatext. En él se describen los fenómenos de naturaleza semántico-pragmática que son objeto de nuestro análisis; en el segundo capítulo, en cambio, hablaremos de los problemas de formalización del significado de los marcadores discursivos del corpus C-ORAL-ROM, y ofrecemos una clasificación semántico-pragmática de los mismos a la luz de los fenómenos descritos.

La tercera parte de este trabajo, el módulo computacional, está compuesto por dos capítulos. En el primero de ellos, nos ocupamos de la presentación de las características más relevantes del corpus oral del español C-Oral-Rom y de su etiquetado en formato XML; el segundo capítulo está dedicado a exponer las estrategias adoptadas para resolver el problema de la identificación, desambiguación y etiquetado semiautomático de estas partículas. En él presentaremos MiDaSTagger, la herramienta de anotación que hemos elaborado para etiquetar los marcadores discursivos del corpus.
En la cuarta parte, De la aplicación, hemos querido demostrar la utilidad de los corpus anotados con este tipo de información, y para ello mostramos dos posibles aplicaciones a las siguientes parcelas de conocimiento: los estudios de Sociolingüística de carácter cuantitativo y la Enseñanza de Español para Extranjeros. Para ello presentamos nuestro interfaz Web Inter Alia, una aplicación informática de consulta de corpus para recuperar marcadores discursivos, ejemplos del corpus y frecuencias en función del género discursivo. Una herramienta de gran utilidad tanto para los lingüistas como para los alumnos no nativos que deseen aprender lenguas de una manera más individual y a través de la consulta de corpus.

Y finalmente, el último módulo, titulado De la interpretación, está conformado por el capítulo diez y las conclusiones. En estos dos apartados reflexionamos sobre los retos que para la Inteligencia Artificial supone la integración de los conocimientos que se están generando desde la Pragmática Teórica, fundamentalmente en lo que a marcadores del discurso se refiere.

Antes de que el lector comience la lectura de este trabajo, nos gustaría hacer una pequeña aclaración. Este es un trabajo interdisciplinar, con lo cual, imaginarse un lector ideal durante la redacción de esta tesis ha sido una tarea ardua, ya que como sabemos lo que es obvio para unos es absolutamente lejano e ignorado por otros. En principio, o al menos este sería nuestro deseo, muchas personas de diferentes formaciones académicas pueden interesarse por este trabajo; por ello, hemos pretendido, dentro de la brevedad, hacer una breve presentación de todas las parcelas de conocimiento que se cruzan en este trabajo. Este estudio propone una vía de transferencia de conocimientos de una parcela teórica a otras de naturaleza aplicada, con lo que el lector no encontrará aquí el extenso estado de la cuestión y el intenso debate teórico existente sobre cada una de las cuestiones que aquí se tratan, sobre todo las concernientes a la Pragmática Teórica y en concreto, en torno a la relación entre Semántica y Pragmática. Si el lector es ducho en un fenómeno en concreto, como por ejemplo en la modalización discursiva, aquí accederá a nuestra propia visión de la misma, después de una breve introducción; si por el contrario no lo es, y siente inquietud por profundizar en la cuestión desde un punto de vista teórico, cortésmente le remitimos a la bibliografía citada en cada capítulo.