Un Método de Text Mining para la categorización Fuzzy de documentos
- Pavone, Pasquale
- Manuel Jiménez Berrocal Director/a
- Sergio Bolasco Director/a
Universidad de defensa: Universidad de Málaga
Fecha de defensa: 14 de marzo de 2015
- Mónica Bécue-Bertaut Presidente/a
- Bárbara Díaz Díez Secretario/a
- Ramón Álvarez Esteban Vocal
- Michelangelo Misuraca Vocal
- Benjamín Alcázar Martínez Vocal
Tipo: Tesis
Resumen
La creciente cantidad de datos textuales que se producen, almacenan y se difunden, debido al uso masivo e intensivo de los medios informáticos, muy especialmente en la actividad económica e institucional, hace necesario la utilización de métodos y algoritmos con capacidad para tratar y analizar datos lingüísticos que comportan imprecisiones, vaguedad y, en parte, incertidumbre. Consecuentemente, el método que desarrollo en mi tesis se implementa mediante la conjunción de procedimientos de lingüística computacional, análisis estadístico de datos textuales, text mining y conjuntos difusos (fuzzy sets). El lenguaje natural es un fenómeno complejo y en constante evolución. El enorme potencial que ofrece la informática ha posibilitado el desarrollo de metodologías, que utilizan herramientas de lingüística computacional y estadística, permiten analizar datos cualitativos de tipo textual. El uso de técnicas automáticas de análisis del texto es por lo tanto necesario en los casos en que la cantidad de información disponible es tal como para no permitir la resolución manual de los problemas de clasificación y de agrupamiento de los datos. De hecho, los Corpus de documentos disponibles para el análisis de los contenidos son siempre más grandes y a menudo uno de los problemas esenciales suele ser la correcta atribución de uno o más de los temas que identifican el contenido de los diversos textos en análisis. En general, en la ausencia de categorías predefinidas por el investigador, se procede a una agrupación de documentos basados en su similitud máxima, lo que permite identificar a posteriori las tematizaciones prevalentes. En la mayoría de los procedimientos de análisis de datos textuales, una clasificación de este tipo conduce a clases disjuntas de documentos, mientras que los temas a menudo tienen elementos o rasgos semánticos comunes. La primera circunstancia conduce a clasificaciones unívocas, el segundo a las clasificaciones del tipo difuso. La idea perseguida en este trabajo experimental es hacer una clasificación disjunta de documentos, utilizando la terminología extraída del corpus, para producir, en una segunda etapa, una categorización difusa. Por ello se propone de pasar de una clasificaciòn no supervisado a una multi-clase supervisada. El corpus elegido para la aplicación del método consta de 3.285 documentos constituidos por los informes de las dos principales guías de restaurantes de Italia: la Guida dei Ristoranti del Gambero Rosso y la Guida delle Osteried’Italia di Slow Food. Los informes consisten en breves descripciones de los restaurantes en los que se enumeran las propuestas de platos y vinos, las particularidades del lugar y de la hospitalidad, así como el tipo de servicio ofrecido. La elección del corpus de análisis se basa en el creciente interés hacia la Gastronomía, convertida en los últimos años en un fenómeno social creciente. En ámbito turistico la gastronomía ha perdido el simple valor complementario, dentro de un viaje, desempeñando un papel determinante en la elección de los destinos turísticos. El turismo, el arte y la cultura se entrelazan cada vez más con la gastronomía, y en los últimos años, el turismo gastronómico ha aumentado en importancia superando las características de elite y convirtirtiéndose en un atractivo del viaje turístico, llegando a ser en muchos casos un recurso fundamental para el desarrollo socio-económico de un territorio. La Gastronomía como pasión elemento de interès, se observa en una variedad de fuentes: desde las investigaciones publicadas sobre el fenómeno de los "Foodies", a los canales temáticos y los programas de televisión específicos cada vez más populares, en revistas como la americana Gastronómica, o desde columnas regulares en los periódicos a las famosas guías de restaurantes (Michelin, Espresso, Gambero Rosso, Slow Food) y desde libros de cocina regional a libros de recetas a menudo bestsellers durante meses en la cima de las listas de ventas. Por lo tanto, tiene un gran interés el estudio del fenómeno social que representa la Gastronomía, tanto desde un punto de vista histórico, sociológico o antropológico, como también desde el punto de vista lingüístico, y léxico-textual por su características de léxico técnico especializado. Las propuestas formuladas en la tesis son el resultado de la investigación llevada a cabo por mí en los últimos siete años en el Departamento MEMOTEF (Metodi e Modelli per l’Economia, il Territorio e la Finanza) de la Facultad de Economía de la Universidad "La Sapienza" de Roma y en la Scuola Superiore di Studi Universitari Sant'Anna de Pisa en Estadísticas Sociales. Durante este tiempo, algunas de las cuestiones planteadas en la tesis han sido objeto de publicaciones cientificas presentadas en varias conferencias y congresos internacionales sobre los temas de análisis del contenido. El mètodo expuesto en esta tesis consta de tres etapas: - Lexical Analysis; - Cluster Analysis; - Fuzzy Text Categorization. Las tres etapas del procedimiento se aplican al corpus analizado, mediante el uso de los programas: TaLTaC2 y SPAD 5.0.