Sistema automático para el reconocimiento de documentos manuscritos basado en el análisis de trazos

Álvarez León, David

Sistema automático para el reconocimiento de documentos manuscritos basado en el análisis de trazos

Álvarez León, David

Dirigida por:

Ramón Ángel Fernández Díaz Director/a
Lidia Sánchez González Director/a

Universidad de defensa: Universidad de León

Fecha de defensa: 22 de diciembre de 2015

Tribunal:

Ángel Alonso Álvarez Presidente/a
Francisco Javier de Cos Juez Secretario/a
Emilio Santiago Corchado Rodríguez Vocal

Departamento:

DEP. INGENIERÍAS. MECÁNICA, INFOR. Y AER

Tipo: Tesis

Teseo: 400727 DIALNET BULERIA editor

Resumen

En este trabajo se propone un sistema experto para el reconocimiento de texto manuscrito a partir de la información obtenida al analizar los trazos que componen el propio texto. Tras aplicar un serie de operaciones previas a la imagen adquirida, se realiza la segmentación correspondiente para obtener sus letras. Los píxeles de cada letra se clasifican en verticales u horizontales atendiendo a sus características y se agrupan formando trazos verticales u horizontales. Mediante zonificación dinámica se localizan las intersecciones existentes entre los trazos verticales con sus horizontales adyacentes. El uso de una gramática formal permite reducir esta característica a una cadena representativa que es reconocida por un autómata finito para comprobar su validez. El almacenamiento de los descriptores se realiza mediante una base de conocimiento con estructura de árbol trie. En sus nodos, se almacenan cada uno de los elementos de la cadena representativa previamente generada incorporando, además, un nodo hoja con el carácter que identifica. De esta manera, el motor de inferencia es capaz de realizar búsquedas de nuevos caracteres sobre la base de conocimiento. En un contexto alfabético, el motor de inferencia se ayuda de un corrector ortográfico para componer la palabra de la imagen introducida a reconocer. Por el contrario, en un reconocimiento numérico, toma una decisión estadística en base al entrenamiento. Se han desarrollado una serie de experimentos tanto para el reconocimiento alfabético como para el reconocimiento numérico. Para el primero de ellos, con el fin de comprobar la eficacia del sistema experto, se ha desarrollado una aplicación, XIRIS, que permite realizar los experimentos en base a cuatro escenarios posibles. En dichos escenarios, se han utilizando palabras sintéticas previamente generadas a partir de una muestra de caracteres reales escrita por dos autores. Los resultados señalan una tasa de acierto en el mejor de los escenarios del 95,36% para las palabras y de 95,46% para las letras que componen esas palabras. Por otro lado, para los experimentos con caracteres numéricos se ha utilizado la base de datos MNIST con números escritos a mano por cerca de 250 escritores alcanzando una tasa de acierto del 88,77%.