Главная База знаний "Allbest" Программирование, компьютеры и кибернетика Оптическое распознавание символов

Оптическое распознавание символов

Процессы распознавания символов. Шаблонные и структурные алгоритмы распознавания. Процесс обработки поступающего документа. Обзор существующих приложений по оптическому распознаванию символов. Определение фиксированного шага и сегментация слов.

Рубрика	Программирование, компьютеры и кибернетика
Вид	дипломная работа
Язык	русский
Дата добавления	11.02.2017
Размер файла	3,3 M

посмотреть текст работы

скачать работу можно здесь

полная информация о работе

весь список подобных работ

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Страница:

3. Затем изображение сравнивается с пороговой поверхностью и все пиксели с интенсивностью большей пороговой, делаются белыми(255), а все интенсивности меньшие пороговой делаются черными(0)

4. Для данного алгоритма единственный входной параметр - размер окна.

Входной параметр - размер окна:

1. Экспериментально было установлено, что лучшие результаты распознавания достигаются с размером окна равным половине высоты текста.

2. Таким образом, алгоритм способен обрабатывать образцы с различным размером текста

3. Но требуется система оценивающая высоту текста

2.5.3 Оценка высоты текста

1. Для каждой ячейки на изображении в «оттенках серого» вычисляются интенсивности. Это позволяет получить массив дисперсий, у которых длина равна высоте изображения.

2. Области дисперсии, у которых расхождение больше порога «Tv» - рассматриваются как текст.(«Tv» - среднее значение всего набора дисперсии)

3. Медианная ширина зон текста большая «Tv» - высота текста.

2.5.4 Удаление линий (через анализ области вокруг текста)

Шаги алгоритма:

1. Локализация связанных областей текста в бинаризованном изображении.

2. Обнаружение линий на изображении без текста.

3. Удаление линий из оригинального изображения.

Связанные области текста:

1. Высота текста нам известна(h)

2. Бинаризованное изображение расширяется с помощью следующего ядра:

3. Изображение обрабатывается нормализованным hxh ядром:

4. Результирующая обработка ограничена порогом в 0.25

5. Полученные блобы (Blob - регион цифрового изображения, обладающий постоянными свойствами) вероятнее всего были получены из текста, т.о связанные регионы теста найдены.

Обнаружение линий

1. Удаление всех зон текста (все, что находится внутри связанных регионов)

2. Применяем трансформацию Хафа чтобы найти горизонтальные линии (Линии в большинстве случаев «сломаны» и обладают не одинаковой толщиной, поэтому трансформация Хафа применяется с порогом равным половине высоты, и максимальном расстоянию между линиями равному половине ширины)

3. Предыдущий шаг найдет список позиций горизонтальных линий

Удаление линий

1. Используем позиции горизонтальных линий и извлекаем пиксели из оригинального изображения, которые принадлежат линиям, но не к текстовым символам.

2. Предполагаем, что толщина линий не постоянна, но не больше чем h/10.

3. Для каждой возможной толщины, и каждой координаты на линии, накладываем на оригинальное изображение маску и отмечаем все пиксели ,которые совпадают с маской.

4. Создаем отклонение, двигая маску вверх-вниз со стартовой позиции. Данное перемещение не должно быть больше толщины линии.

Используемая маска:

где «d» - это толщина линии.

5. Нули добавлены, чтобы убедиться, что маска не накладывается на текст.

6. Если при наложении маски, найдены пиксели подходящие ей, то он маркируются для удаления.

Входное изображение должно содержать текст, с окружающей его зоной, достаточно большой, чтобы иметь фоновые линии после того, как текстовые зоны будут удалены. Линии могут быть под углом, пока возможно их обнаружение по кусочкам. При обработке, текст не будет потерян. Иногда небольшие участки текста остаются, но они могут быть удалены в последующих шагах обработки.

2.6 Обученные данные

Обучающая выборка состоит из стандартного пакета русского языка для tesseract. Результаты обработки с ее помощью были не идеальны, поэтому были улучшены путем внесения изменений в файлы обучающей выборки.

2.7 Результат работы программы

Рис. 27 Результат работы программы

На данный момент, система демонстрирует 94-95% точность распознавания.

2.8 Описание графического интерфейса пользователя

Разработанное приложение обладает простым интуитивно понятным интерфейсом. При запуске приложения пользователь видит основное окно (рис. 28)

Рис. 28 Стартовый экран приложения

Для того, чтобы система начала свою работу необходимо нажать кнопку «Open» и выбрать изображение паспорта, затем нажатием кнопки «Recognize» запускается процесс распознавания данных с изображения паспорта. Результат работы программы будет выведен в соответствующие графы под изображением (Рис. 29.)

Рис. 29 Результат работы программы

2.9 Тестирование функции распознавания паспортных данных

Исходными данными для тестирования являются сканированные изображения паспортов и файлы с проверочными данными для каждого изображения в определенном формате. На данный момент корректные данные заносятся в проверочные файлы вручную, в дальнейшем планируется разработать GUI для удобного редактирования данных.

Рис. 30. Проверочные данные для тестирования

2.9.1 Процесс тестирования

В процессе работы утилиты для каждого изображения формируется файл с распознанными данными в том же формате, что и проверочный файл. Далее проводится сравнение полученных и корректных данных используя Расстояние Левенштейна.

2.9.2 Результат тестирования

Результатом тестирования являются сгенерированные статистические файлы для каждого изображения, и сводный файл в формате html для визуализации результатов.

Рис. 31 Результат тестирования.

В целом проводилось тестирование на 50 различных паспортах, ошибка составила 5%. Данный процент ошибки - в основном результат применения различных шрифтов в разных регионах нашей страны, и не идеальность алгоритма удаления фона.

Заключение

распознавание символ документ оптический

В настоящие время качественные системы распознавания текста достаточно дороги, поэтому недостаточно широко распространены. Например, FineReader 12 показывает лучший результат. Он великолепно распознает как сканированные, так и сфотографированные изображения. Однако, минимальная его стоимость составляет 80€ за лицензию на 10000 распознаваний в год. Данная же система не имеет таких ограничений и может быть установлена, например, в бухгалтерии или отделе кадров любой компании, для автоматизации сбора и обновления данных. Наше OCR приложение на базе Tesseract позволяет с достаточно высокой степенью точности распознавать символы, при наличии различных шумов и помех, благодаря разработанному алгоритму предварительной обработки изображений и системой постобработки текста, основанной на словарном контроле результатов. Несомненным преимуществом нашей системы является возможность быстрой доработки под иной формат документов и интуитивно понятный интерфейс пользователя. Кроме того, разработанное решение было успешно внедрено в Территориальный фонд Обязательного медицинского страхования Нижегородской области, следовательно, имеет практическую значимость.

На данный момент у данного модуля существует один значительный недостаток касательно поддержки русского языка: данные недостаточно обучены, что не дает такого же высокоточного результата, как с международными языками, но со временем этот недостаток нивелируется.

В дальнейшем планируется разработка web-based прототипа приложения, расширение возможностей по распознаванию данных: поддержка других видов документов, борьба с шумами, более качественные метод удаления фона, видоизменение стандартного алгоритма определения базовой линии (используя openCV).

Список литературы

1. Богданов В., Ахметов К. Системы распознавания текстов в офисе. // Компьютер-пресс -- 1999 №3, с.40-42.

2. Павлидис Т. Алгоритмы машинной графики и обработки изображений. М:, Радиоисвязь, 1986

3. Shani U. Filling Regions in Binary Raster Images -- a Graph-theoretic Approach. // SIGGRAPH'80, pp 321-327.

4. Merrill R.D. Representation of Contours and Regions for Efficient Computer Search. // CACM, 16 (1973), pp. 69-82.

5. Pavlidis T. Filling Algorithms for Raster Graphics. // CGIP, 10 (1979), pp. 126141.

6. https://habrahabr.ru/post/112442/

7. Lieberman H. How to Color in a Coloring Book. // SIGGRAPH'78, Atlanta, Georgia, (August, 1978), pp. 111-116. PublishedbyACM.

8. Fuller, R. (2004). Fuzzy logic and neural nets in intelligent systems. In C. Carlsson (Ed.)Information Systems Day, pp. 74-94. Turku: Abo Academi University Press.

9. Melin P., Urias J., Solano D., Soto M., Lopez M., Castillo O., Voice Recognition with Neural Networks, Type-2 Fuzzy Logic and Genetic Algorithms. Engineering Letters, 13:2, 2006.

10. R.W. Smith, The Extraction and Recognition of Text from Multimedia Document Images, PhD Thesis, University of Bristol, November 1987.

11. R.W.Smith, “A Simple and Efficient Skew Detection Algorithm via Text Row Accumulation”, Proc. of the 3rd Int. Conf. on Document Analysis and Recognition (Vol. 2), IEEE 1995, pp. 1145-1148.

12. R.W. Smith, An Overview of the Tesseract OCR Engine, IEEE 2007 pp. 629 - 633

13. http://yann.lecun.com/exdb/mnist/

14. International Journal of Computer Vision 57(2), 137-154, 2004

15. Canny Edge Detection Tutorial by Bill Green, 2002.

16. Shapiro, L. G. & Stockman, G. C: "Computer Vision", page 137, 150. PrenticeHall, 2001

17. OpenCV Python tutorials(http://opencv-python-tutroals.readthedocs.org/)

18. Багрова И. А., Грицай А. А., Сорокин С. В., Пономарев С. А., Сытник Д. А. Выбор признаков для распознавания печатных кириллических символов // Вестник Тверского Государственного Университета 2010 г., 28, стр. 59-73

19. Journal of Signal and Information Processing, 2013, 4, 173-175

20. https://ru.wikipedia.org/wiki/Tesseract

21. https://en.wikipedia.org/wiki/Comparison_of_optical_character_recognition_software

22. Квасников В.П., Дзюбаненко А.В. Улучшение визуального качества цифрового изображения путем поэлементного преобразования // Авиационно-космическая техника и технология 2009 г., 8, стр. 200-204

23. https://habrahabr.ru/company/abbyy/blog/225215/

24. Mark S. Nixon and Alberto S. Aguado. Feature Extraction and Image Processing. -- Academic Press, 2008. -- С. 88.

25. Hsueh, M. (2011). Interactive text recognition and translation on a mobile device. Electrical Engineering and Computer Sciences, 57, 47-60.

26. Gllavata, G. & Ewerth, R. (2003). A robust algorithm for text detection in images. New York: Halstead Press.

27. Bieniecki, W. & Grabowski, S. (2007). Image preprocessing for improving OCR accuracy. Columbia: Columbia University Press.

Приложение

1. Prototype.py

try:

import Image

except ImportError:

from PIL import Image

import safepytesseract

import cv2

from multiprocessing import Pool

import autorotate

import cleanbg

import postactions

import findboxes

def do_recognize(img, dbg=''):

""" save image and process with tesseract """

if dbg != '':

filename = dbg + '_tmp.png'

cv2.imwrite(filename, img)

img = Image.fromarray(img, 'RGB')

result = safepytesseract.image_to_string(img, lang='rus')

return result

def recognize(img, rot, (l1, t1, r1, b1), coeff, post=None, dbg='', shrinkboxfactor=0):

""" prepares picture for recognition, passes picture

to tesseract and does post actions:

img - image to process

(l, t, r, b) - box to look into

rot - rotation flag for the box above

(l1, t1, r1, b1) - box to ignore within (l, t, r, b)

dbg - debug flag

post - array of post actions

shrinkboxfactor - by how much factor of height will the box be shrinked from each side (left and right) after

background cleaning and before it is passed to OCR. Must be >=0

"""

# do rotation if needed

if rot:

img = cv2.transpose(img)

img = cv2.flip(img, 0)

img = cleanbg.clean_bg((img, coeff, True))

if shrinkboxfactor < 0:

raise ValueError("shrinkbox must be >=0")

shrinkpixels = int(img.shape[0] * shrinkboxfactor)

if shrinkpixels > 0:

img = img[:, shrinkpixels:-shrinkpixels, :]

# wash the box which is to be ignored

if l1 != 0 or t1 != 0 or r1 != 0 or b1 != 0:

for rr in range(t1, b1):

for pp in range(l1, r1):

img[rr][pp] = [255, 255, 255]

result = do_recognize(img, dbg + str(coeff) if dbg != '' else '')

result = postactions.do_post_actions(result, post)

if dbg != '':

print result

return result

# noinspection PyArgumentList

def recognize_wrapper(args):

""" wrapper function to be passed

to the process pool """

return recognize(*args)

def do_box(img, (l, t, r, b), rot, (l1, t1, r1, b1), post=None, agressive=0, dbg='', expandboxfactor=0):

""" Does recognition for image within given box """

if dbg != '':

print '_do_box (l:%u t:%u r:%u b:%u rot:%u)' % (l, t, r, b, rot)

if rot != 0: # don't expand rotated images

expandboxfactor = 0

if expandboxfactor != 0:

l -= int(expandboxfactor * (b-t))

r += int(expandboxfactor * (b-t))

# crop the box

img = img[t:b, l:r]

if agressive:

def frange(x, y, jump):

while x < y:

yield x

x += jump

coeffs = frange(0.0, 2.0, (2.0 - 0.0) / agressive)

pool = Pool(4)

attempts = pool.map(recognize_wrapper,

[(img.copy(), rot, (l1, t1, r1, b1),

coeff, post, dbg, expandboxfactor) for coeff in coeffs])

result = postactions.do_sift(attempts, dbg)

else:

coeff = 1.0

result = recognize(img, rot, (l1, t1, r1, b1), coeff, post, dbg, expandboxfactor)

return result

# noinspection PyArgumentList

def do_box_wrapper(args):

""" wrapper function to be passed

to the process pool """

return do_box(*args)

boxes = (('surname', (0.44, 0.85, 0.54, 0.62), 0, (0, 0, 0, 0), [postactions.post_remove_newlines,