Web 1.0, Web 1.5, Web 2.0, Web 3.0, Web Semántica, Web Social... terminología que muestra que la evolución de la tecnología (principalmente la tecnología Web) ha sido vertiginosa en los últimos años, lo que ha provocado la aparición de nuevas necesidades y por lo tanto de nuevos modelos de negocio.
El Procesamiento del Lenguaje Natural engloba el conjunto de tecnologías necesarias para el entendimiento por parte de las computadoras del lenguaje humano.
¿Y para qué es necesario el PLN en la empresa? He aquí algunos ejemplos:
- Análisis de Opinión en Blogs: Como una evolución de los métodos clásicos de investigación de mercado, el PLN puede aportar soluciones interesantes para conocer de manera automática qué están opinando los usuarios de nuestros servicios y productos, de los de nuestros competidores o analizar las tendencias del mercado y las nuevas necesidades que surgen.
- Detección de Plagio: Plagiar, hablando de documentación textual, significa incluir en un documento fragmentos de texto escritos por alguna otra persona sin darle el crédito adecuado. Esta falta ha mostrado en los últimos años una explosión en el número de casos. La razón es sencilla: hoy en día tenemos acceso a un enorme repositorio de información entre páginas especializadas, bibliotecas digitales y enciclopedias digitales como Wikipedia. Pero esta variedad de fuentes hace excesivamente compleja la detección sin ayuda de procesos automáticos como los que se pueden obtener utilizando técnicas de PLN.
- Sistemas de Recomendación: Todos conocemos las recomendaciones que nos hacen las librerías online sobre libros que otros autores también compraron, pero esto se basa exclusivamente en el aprendizaje automático de las preferencias de compra de un único producto (o incluso una cesta), lo que se corresponde con el aprendizaje de nuestro perfil basado en una única dimensión, la compra. ¿Pero qué sucede con las Redes Sociales? Las Redes Sociales incorporan tal cantidad de información acerca de nosotros que se podría crear un perfil tan ajustado como para recomendarnos cualquier cosa que pudiera ser de nuestro interés y no sólo en una dimesión sino en todas aquellas que conforman nuestro perfil. El PLN es necesario aquí para extraer, a diferencia de la compra que está totalmetne identificada, los datos más significativos de nuestro usuario para la construcción de su perfil y su posterior aprendizaje y comparación para la recomendación.
- Etiquetado semántico (Generación de Web Semántica): La Web 3.0 ó Web Semántica, como evolución imparable de la gran cantidad de contenidos generados por los usuarios de la Web 2.0 y la Web Social, es la gran protagonista de la mayoría de conversaciones actuales en el mundo académico, profesional e incluso personal (pe. hobbies como las redes sociales de videojugadores), pero existe un grave problema para generar Web Semántica y es que aunque las herramientas existen, el etiquetado de contenidos no deja de ser un trabajo manual laborioso, tedioso, no exento de dificultades como la necesidad de ponerse de acuerdo en las etiquetas utilizadas y en el emparejamiento de los contenidos con una o más de estas etiquetas. Con las técnicas de Procesamiento de Lenguaje Natural se puede hacer una aproximación automática a este etiquetado de contenidos para generar así conocimiento útil y aplicable.
- Búsqueda Documental (Búsqueda Semántica): Otra de las grandes protagonistas es la búsqueda documental, debido principalmente a que el uso intensivo de las tecnologías en el ámbito profesional (y también en el personal) deriva en la generación de grandes cantidades de información documental de difícil explotación y recuperación. Las técnicas de PLN permiten organizar y acceder, de manera similar al punto anterior, a toda esa documentación obviando ciertos problemas de la lengua como los errores ortográficos, las acronimias o la sinonimia, permitiendo una recuperación de información adecuada por ejemplo a consultas como "ayudas ayto. Jijón" devolviendo resultados para ayudas, subvenciones, becas y financiación relativas al ayuntamiento de Gijón.
- Georeferenciación automática de contenidos:: Los GIS son una de las tecnologías de mayor auge en los últimos tiempos y ello debido a la importancia creciente que se le da a la localización sobre el territorio de prácticamente cualquier cosa. Como os expusimos en el trabajo GIRPharma, las técnicas de PLN permiten de manera automática georeferenciar contenidos textuales existentes en diversas fuentes, en el ejemplo, farmacias de guardia a partir de las diversas páginas Web que publican esta información. Pero yendo más allá y tomando como ejemplo el proyecto ArchaeoloGIS, podríamos georeferenciar en él todos aquellos contenidos existentes en la Web referentes a la ciudad de Valencia en las diferentes épocas históricas, ayudando de este modo a la inclusión de una información que de manera manual sería muy costosa.
Estos y muchos más serán los temas que podremos ver en el próximo WorkShop Procesamiento del Lenguaje Natural en Empresas: Visionando los Próximos 10 años que tendrá lugar en el marco de la SEPLN 2010 que este año se celebrará en Valencia los días 6 y 7 de septiembre.
¡¡¡Os esperamos a todos, INVESTIGADORES, EMPRESARIOS Y CURIOSOS EN GENERAL!!!