Free Web Hosting Provider - Web Hosting - E-commerce - High Speed Internet - Free Web Page
Search the Web


Wikipedia de recuperacion y acceso a la informacion

::--Wikipedia--::


Procesamiento del lenguaje natural para la recuperación de información

Tabla de contenidos

Introducción

El Procesamiento de Lenguajes Naturales, (PLN, o NLP; Natural Language Processing), es una subdisciplina de la Inteligencia Artificial y la rama ingenieril de la lingüística computacional. El PLN se ocupa de la formulación e investigación de mecanismos eficaces computacionalmente para la comunicación entre personas o entre personas y máquinas por medio de lenguajes naturales. El PLN no trata de la comunicación por medio de lenguajes naturales de una forma abstracta, sino de diseñar mecanismos para comunicarse que sean eficaces computacionalmente -que se puedan realizar por medio de programas que ejecuten o simulen la comunicación. Los modelos aplicados se enfocan no sólo a la comprensión del lenguaje de por sí, sino a aspectos generales cognitivos humanos y a la organización de la memoria. El lenguaje natural sirve sólo de medio para estudiar estos fenómenos.

Historia

El Procesamiento del Lenguaje Natural (PLN) es una de las piedras angulares tempranas de la inteligencia artificial (IA). La Traducción Automática, por ejemplo, nació a finales de la década de los cuarenta, antes de que se acuñara la propia expresión «Inteligencia Artificial». No obstante, el PLN ha desempeñado múltiples papeles en el contexto de la IA, y su importancia dentro de este campo ha crecido y decrecido a consecuencia de cambios tecnológicos y científicos. Los primeros intentos de traducir textos por ordenador a finales de los cuarenta y durante los cincuenta fracasaron debido a la escasa potencia de los ordenadores y a la escasa sofistificación lingüística. Sin embargo, los esfuerzos realizados en las décadas de los sesenta y los setenta para producir interfaces en lenguaje natural para bases de datos y otras aplicaciones informáticas obtuvieron un cierto grado significativo de éxito. La década de los ochenta y el principio de la de los noventa han visto resurgir la investigación en el terreno de la Traducción Automática.

Aplicación

La aplicación del procesamiento de lenguaje natural más obvia y quizá más importante en el momento actual es la búsqueda de información (se llama también recuperación de información). Por un lado, en Internet y en las bibliotecas digitales se contiene una cantidad enorme de conocimiento que puede dar respuestas a muchísimas preguntas que tenemos. Por otro lado, hay tanta información que no sirve porque ya no se puede encontrarla. Hoy en día la pregunta ya no es “¿si se sabe cómo...?” sino “ciertamente se sabe, pero ¿dónde está esta información?”.

Técnicamente, rara vez se trata de decidir cuáles documentos (así se llaman archivos o textos en la recuperación de información) son relevantes para la petición del usuario y cuáles no. Usualmente, una cantidad enorme de documentos se puede considerar como relevantes en cierto grado, siendo unos más relevantes y otros menos. Entonces, la tarea se entiende como medir el grado de esta relevancia para proporcionar al usuario primero el documento más relevante; si no le sirvió, el segundo más relevante, etc.

El problema más difícil de la recuperación de información es, sin embargo, no de índole técnica sino psicológica: entender cuál es la necesidad real del usuario, para qué formula su pregunta. Este problema se complica ya que no existe un lenguaje formal en el cual el usuario podría formular claramente su necesidad. (La dirección más prometedora de resolver este problema es, nuevamente, el uso de lenguaje natural.)

Las técnicas más usadas actualmente para la recuperación de información involucran la búsqueda por palabras clave: se buscan los archivos que contengan las palabras que el usuario teclee. Es decir, la representación formal usada es el conjunto de las cadenas de letras (palabras), usualmente junto con sus frecuencias en el texto (en número de ocurrencias). La claridad matemática de la tarea causó mucho avance en la teoría de estos métodos. Las ideas más usadas son los modelos probabilísticos y los procedimientos iterativos e interactivos: tratar de adivinar qué necesita el usuario preguntándolo cuáles documentos le sirven).

Sin embargo, los métodos que involucran sólo las palabras (como cadenas de letras) pero no el sentido del texto son muy limitados en su capacidad de satisfacer la necesidad informática del usuario, es decir, de hallar la respuesta a la pregunta que tiene en mente. Se puede mejorar mucho aplicado las siguientes operaciones, desde las más sencillas hasta más complejas:

· Coincidencia de las formas morfológicas de palabras: buscando pensar, encontrar piénsalo.

Este problema es bastante simple a resolver en el lenguaje inglés, al cual se dedica la mayor parte de investigación en el mundo. Sin embargo, para el español se convierte a un problema moderadamente serio, debido a la gran variedad de las formas de palabras en español.

Los métodos de la morfología computacional –la rama del procesamiento de lenguaje natural que se encarga del modelado de las formas morfológicas de palabras– varían desde el uso de diccionarios que especifican las formas para cada palabra, hasta las heurísticas que ayudan a adivinarlas [15, 16].

· Coincidencia de los sinónimos, conceptos más generales y más específicos: buscando cerdo, encontrar puerco, mascota, animal, etc.

Este problema prácticamente no depende de lenguaje (es tanto importante para el inglés como para el español), aunque los diccionarios que se usan sí son específicos para cada lenguaje.

La idea principal es, como ya se dijo, el uso de diccionarios jerárquicos [10, 13], que especifican los sinónimos en el mismo nivel del árbol y los conceptos más específicos debajo de los conceptos más generales. Uno de los problemas que aún no recibieron una solución adecuada es medir las distancias en este árbol: qué tan parecida es la palabra cerdo a puerco? y a mascota? animal? objeto?

Una generalización de esta idea son los diccionarios de las palabras conceptualmente relacionadas, por ejemplo, cerdo y tocino; sacerdote, Biblia, iglesia y rezar. Aquí, el problema de la medición de distancia es aún más difícil.

· Tomar en cuenta las relaciones entre las palabras en la petición del usuario y en el documento: buscando estudio de planes, rechazar como no relevante planes de estudio.

Para lograr este grado de calidad, se necesita reconocer (automáticamente) la estructura del texto y representarla en forma que permita la comparación necesaria, por ejemplo, en la forma de los grafos conceptuales.

Recientemente se adelantaron los desarrollos en una aproximación diferente al problema de búsqueda de información: generación automática de respuestas. La idea es la siguiente: en lugar de presentarle al usuario el documento completo donde probablemente se contiene la respuesta a su pregunta (por ejemplo, ¿cuándo fue la revolución mexicana?), simplemente darle la respuesta (en este caso, generar “En 1910-1917” basándose en la información encontrada en los textos).

Una de las técnicas más usadas para esto es la extracción de información: transformación de algunas partes de los textos libres en un formato de base de datos, por ejemplo: evento–fecha, artículo–lugar–precio, etc. Otra técnica posible es el razonamiento lógico sobre las relaciones encontradas en el texto.

Opiniones

Por José Ramón Pérez Agüera
28 November 2005

En los últimos tiempos uno de los términos más utilizados cuando nos referimos a la Web es la Web Semántica. Como si de Harry Potter se tratara, todo experto en Internet que se precie, debe conocer estas dos palabras mágicas símbolo del futuro de una Internet más ordenada, más organizada, más catalogada, en definitiva más bibliotecaria (esta frase es de la insigne entre las insignes: Eva Méndez).

No es mi objetivo definir ni discutir el significado del término Web Semántica, ya que insignes científicos y pensadores se han encargado de hacerlo con mucha mayor claridad de lo que yo podría hacerlo jamás. Sin embargo, como persona pragmática que soy, si voy a entrar a comentar en esta breve nota thinkepiana cuales son los elementos, herramientas y utilidades que son necesarias para que la Web Semántica deje de ser un concepto y se convierta en una realidad. Por supuesto, toda originalidad en mis planteamientos queda descartada, y no pretendo más que convertirme en un mero compilador de evidencias existentes en el panorama investigador que en la actualidad se encuentra en torno al concepto de Web Semántica.

En el último congreso internacional sobre Web Semántica, celebrado en Osaka, del 18 al 21 del mes pasado, la presencia de aplicaciones centradas en Procesamiento de Lenguaje Natural (PLN) fue más que notable. De hecho, Gate, una conocida aplicación para ingeniería lingüística diseñada en la universidad de Sheffield, fue una de las estrellas invitadas (de forma no oficial) al figurar referenciada en un buen número de los trabajos presentados al congreso.

Ahora bien, la utilidad del PLN para la implementación de una Web más Semántica, no es un descubrimiento de este año. En el pasado 2004, Ricardo Baeza-Yates firmo un interesante trabajo (otro más) sobre la aplicación de técnicas de PLN a la Recuperación de Información (RI) donde proponía a la Web Semántica como una de las principales aplicaciones prácticas de técnicas convidadas de PLN y RI.

Sin duda deben existir bastantes más referencias a la vinculación entre PLN, RI y Web Semántica que ahora mismo se me escapan. Pero mi objetivo aquí no es el de presentar una relación exhaustiva de la vinculación entre estos tres elementos, sino, más bien, y continuando con mi proselitismo tecnológico en el área de ByD, animar a todos aquellos atrevidos documentalistas que se introducen en la Web Semántica como área de investigación, a bucear en la literatura de PLN y RI que ya existe y que es fundamental para hacer realidad el sueño de Tim Berners-Lee. Animarles también a manejar las herramientas necesarias para implementar la Web Semántica, tales como Gate, Protege, Lucene, Nutch, o tantas otras, aunque para ello haya que aprender a programar, ya que esta es la única forma de hacer que, realmente, la Web Semántica sea una Web más bibliotecaria, y no solamente más informática.

Muchos pueden argumentar que el propio padre de la idea defiende que la Web Semántica no es una Web basada en técnicas pertenecientes al área de Inteligencia Artificial (IA), pero esto no significa que nos podamos utilizar estas técnicas como base y apoyo para la implementación de su idea, ya que, más allá de rencillas de carácter académico, todo lo que nos ayude a hacer realidad una nueva Web es útil independientemente de conceptualizaciones de carácter teórico.

Hay que tener en cuenta que, hoy por hoy la Web Semántica no existe como tal, más allá de implementaciones puntuales de carácter experimental. El hecho de que exista pasa inexorablemente por la generación de contenidos web semánticos que den cuerpo a la idea de una web más organizada. La generación de contenidos de carácter semántico no es asimilable de forma manual por lo usuarios y autores de la Web, por lo que es necesario la automatización de todas, o por lo menos parte de las tareas de generación de contenidos web semánticos. Es aquí donde el PLN y la RI tienen mucho que aportar, ya que permiten la implementación de aplicaciones capaces de generar información de tipo semántico que dote de cuerpo a la Web Semántica y la conviertan en una realidad.

Analizadores sintácticos, que permitan comprender la estructura de las frases de forma automática, etiquetadores léxicos, reconocedores de entidades como nombres, fechas lugares, todas ellas son herramientas automáticas esenciales para la generación de contenidos web semánticos, es más, me atrevo a decir que sin ellas no es posible una web semántica real, ya que el coste de elaboración manual de contenidos semánticos no es asimilable desde ningún punto de vista.

Una buena forma de ver en práctica las ideas a las que brevemente hago referencia en esta nota es acudir a la jornada organizada por el grupo Normaweb de SEDIC el próximo día 12 de diciembre en madrid, donde hablarán Asunción Gómez y Richard Bejamins a los cuales merece mucho la pena escuchar cuando hablan de estos temas (también hay otros ponentes cuyo interés es mucho menor, pero claro, no se puede tener todo).

Lo aquí expuesto no invalida ni mucho menos otras ideas sobre la implementación de la Web Semántica, pero si se acerca, o al menos ese es el objetivo, a lo que supone la implementación real de la idea, lo cual es desde mi punto de vista la mejor forma de acallar a aquellos que opinan que la Web Semántica es un concepto vacío, una entelequia sin sentido o una utopía irrealizable.


© 2006 RAI - UC3M