Instituto Polit�cnico Nacional
Instituto Politécnico Nacional
"La Técnica al Servicio de la Patria"

Boletín No. 72
1o. de mayo de 2019




COMPARACIÓN DE UMBRALIZADORES GLOBALES PARA EL BINARIZADO EN IMÁGENES DE TEXTO PLANO

Ana Karen Angeles Gómez
Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo.
Elimagdeth Anayatzin Rodríguez Carmona
Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo.
Alvaro Anzueto Ríos
Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo.

Instituto Politécnico Nacional

Resumen

En este trabajo se implementa y compara el desempeño de tres diferentes métodos de umbralización para imágenes. Siendo aplicados en imágenes de texto plano para obtener la segmentación y lograr separar el fondo del texto Introducción:

 

I. Introducción

 

El umbralizado en las imágenes es una técnica frecuentemente utilizada en el procesamiento de imágenes, las imágenes resultantes de este proceso pueden ser empleadas para el reconocimiento o extracción de características que ayuden a reconocer objetos y/o caracteres. En este trabajo se presentan tres métodos de umbralización, Método de Kittler, Método de Yen y Método de Otsu, y sus resultados son comparados para determinar el de mejor desempeño para el reconocimiento de texto.

 

Desarrollo:

 

Para la obtención de las imágenes se utiliza una cámara integrada en un celular, con una resolución de 1895 x 1080 pixeles; a una distancia de 19 cm se alcanza una imagen de 65mm de ancho x 130mm de alto. Ya que las imágenes obtenidas directamente de la cámara se encuentran en formato RGB, que significa que cada pixel en la imagen está compuesto por una combinación de tres valores, correspondientes al Rojo, Verde y Azul (RGB por sus siglas en inglés Red, Green y Blue), la unión de estos valores nos dará la tonalidad de color percibido, es necesario hacer una transformación de estos valores a escala de grises, por lo cual se le asignará, a cada pixel, un valor entre el 0 que corresponde al negro y el 255 que corresponde al blanco, dando así una gama de 256 tonalidades. El método utilizado para la conversión de RGB a escala de grises es el incluido en la librería de Matlab® con la función rgb2gray que desarrolla la ecuación 1, para la asignación de valores en pixeles. Para poder observar como se comportan las imágenes con ésta única capa de pixeles en escala de grises se obtiene un histograma que es el número de ocurrencias de cada nivel de gris.

 

 

El método de Kittler [1] se basa en calcular una función de densidad de probabilidad para dos zonas, el fondo (background) y el objeto (foreground), esto se calcula en la ecuación 2, y una ecuación de criterio dada en la ecuación 3.

 

 

Función criterio:

 

 

El Método de Yen [2] usa la entropía como cálculo de variabilidad el cual indica: un valor alto de entropía dispersión alta en los pixeles, y una entropía baja agrupación de pixeles. Las ecuaciones que lo definen son 4 y 5, foreground y background respectivamente.

 

 

El Método de Otsu [3] realiza el cálculo de varianza acumulada (ecuación 13), maximizando esta varianza (ecuación 14) se puede determinar el nivel de separación entre dos clases obteniendo así la función de criterio (ecuación 6). Las ecuaciones empleadas en el método son las ecuaciones 6 a 14.

 

 

Diagrama de flujo del proceso de cálculo de umbral

 

 

Resultados:

 

Para realizar las pruebas a los tres métodos se tomaron dos fotografías de una página, que contiene únicamente líneas de texto, la primera fotografía cubre la mitad superior de la página y la segunda fotografía abarca la mitad inferior. Los tres métodos se aplicaron de manera global para obtener el valor de umbral. Las imágenes de partida se encuentran a color por lo que es necesario transformarlas.

A continuación, en las imágenes 1 y 3, se muestran las fotografías iniciales en formato RGB (superior e inferior de la hoja), las imágenes 2 y 4 muestran el resultado de aplicar la conversión a escala de grises.

 

        
Imagen 1. Imagen RGB primer mitad de la página.          Imagen 2. Imagen primera mitad en escala de grises.

 

        
Imagen 3. Imagen RGB segunda mitad de la página.          Imagen 4. Imagen segunda mitad en escala de grises

 

En las imágenes 5 y 6 se presentan las imágenes bitonales empleando umbral igual a 125 y 123 respectivamente (ver Tabla 1), obtenido por el método de Yen. En las imágenes 5 y 6 se pueden observar las líneas correspondientes al texto, sin embargo, las esquinas presentan un exceso de pixeles de ruido, es decir, se observan las letras dilatadas, lo cual representa un resultado no satisfactorio.

 

        
Imagen 5. Umbralizado obtenido por medio del método de Yen primer mitad de página.          Imagen 6. Umbralizado obtenido por medio del método de Yen primer mitad de página.

 

En las imágenes 7 y 8 se presentan las imágenes bitonales empleando un umbral igual a 152 y 148 respectivamente (ver Tabla 1), obtenido por el método de Kittler. De estas imágenes se puede comentar que los valores obtenidos no son los óptimos para la visualización total del texto ya que se observa una concentración de luz en el centro de las imágenes contrario a los extremos.

 

        
Imagen 7. Umbralizado obtenido por medio del método de Kittler primer mitad de página.          Imagen 8. Umbralizado obtenido por medio del método de Kittler segunda mitad de página..

 

En las imágenes 9 y 10 se presentan las imágenes bitonales empleando un umbral igual a 120 y 116 respectivamente (ver Tabla 1), obtenido por el método de Otsu. En las cuales se observa un mejor desempeño comparado con los métodos anteriores. En estas imágenes se observa la separación entre el texto y el fondo.

 

        
Imagen 9. Umbralizado obtenido por medio del método de Otsu          Imagen 10. Umbralizado obtenido por medio del método de Otsu segunda mitad de página.

 

La imagen 11 y 12 muestran los histogramas para la fotografía de la imagen inicial que corresponde a la parte superior de la página caso similar en la imagen número 12 que corresponde a la parte inferior, de donde podemos observar que los histogramas son similares y se agrupan alrededor del nivel de gris 150

 

Imagen 11. Histograma de foto de primera mitad de página.

 

Imagen 12. Histograma de foto de segunda mitad de página

 

Tabla 1. Valores de umbrales obtenidos

 

De acuerdo a la literatura el método de Otsu se comporta mejor en imágenes con un histograma de distribución no bimodal, mientras que los métodos basados en logaritmo parecen tener un mejor rendimiento en histogramas bimodales. Por lo tanto, para las imágenes presentadas en este trabajo y por su tipo de histograma es de esperar que el método de Otsu ofrezca mejores resultados.

 

V. Conclusiones

 

De acuerdo a los resultados obtenidos aplicando diferentes métodos de umbralización a las mismas fotografías y el comportamiento de estas observado en sus histogramas, se concluye que, el umbralizador global aplicado por el método de Otsu es el óptimo para este tipo de imágenes, como lo es el caso en el que se tengan fotografías de texto plano; pudiendo ser empleadas las imágenes resultantes para la extracción de texto.

Se puede confirmar que el método de umbralización de Otsu es adecuado cuando se tiene un histograma de distribución no bimodal; un caso donde se puede presentar esto es en una imagen de texto y fondo blanco. Sin embargo, en la literatura se dice que, para los casos de imágenes con histogramas de valles marcados, los otros métodos pueden tener un mejor desempeño.

 

Referencias

 

  1. J. Kittler and J. Illingworth (1986) Minimum error Thhresholding. Great Britain. Pattern Recognition Vol. 19 No. 1.

  2. Jui-Cheng Yen, Fu-Juay Changs and Shyang Chang (1995) A New Criterion for Automatic Multilevel Thresholding. IEEE Transactions on image processing, Vol 4.

  3. Noboyuki Otsu(1979) A Thresholding Selection Method from Gray-Level Histograms. IEEE Transactions on systems, man and cybernetics, Vol. smc-9, No.1.

Nota: Los autores del trabajo no tienen problemas en compartir los códigos implementados. En caso de requerir los códigos contactar a la dirección de correo: Esta dirección de correo electrónico está siendo protegida contra los robots de spam. Necesita tener JavaScript habilitado para poder verlo. .