Таблица по опознанию. Сканирование и распознавание текста

21.10.2019

Добрый день.

Наверное, каждый из нас сталкивался с задачей, когда нужно перевести бумажный документ в электронный вид. Особенно это часто нужно делать тем кто учиться, работает с документацией, переводит тексты при помощи электронных словарей и т.д.

Не все сразу понимают одну вещь. После сканирования (пригона всех листов на сканере) у вас будут картинки формата BMP, JPG, PNG, GIF (могут быть и другие форматы). Так вот с этой картинки нужно получить текст - это процедура называется распознаванием. В таком порядке и будет изложение ниже.

1. Что нужно для сканирования и распознавания?

Для перевода печатных документов в текстовый вид, вам для начала нужен сканер и соответственно, "родные" программы и драйверы, которые с ним шли. При помощи них можно будет сканировать документ и сохранить его для дальнейшей обработки.

Можно воспользоваться и другими аналогами, но софт, который шел со сканером в комплекте, обычно работает быстрее и имеет больше опций.

В зависимости от того, какой у вас сканер - скорость работы может существенно различаться. Есть сканеры, которые могут получить картинку с листа за 10 сек., есть которые будут получать за 30 сек. Если сканируете книгу на 200-300 листов - думаю, не трудно подсчитать во сколько раз будет разница во времени?

2) Программа для распознавания

В нашей статье я буду показывать вам работу в одной из лучших программ для сканирования и распознавания абсолютно любых документов - ABBYY FineReader. Т.к. программа платная, то сразу дам ссылку и на другую - ее бесплатный аналог Cunei Form. Правда, я бы не стал их сравнивать, ввиду того, что FineReader выигрывает по всем параметрам, рекомендую все же попробовать именно ее.

ABBYY FineReader 11

Официальный сайт: http://www.abbyy.ru/

Одна из лучших программ в своем роде. Она предназначена для того, чтобы распознать текст на картинке. Встроено множество опций и функций. Может разобрать кучу шрифтов, поддерживает даже рукописные варианты (правда, лично не пробовал, думаю, хорошо вряд ли будет распознавать рукописный вариант, если только у вас не идеальный каллиграфический почерк). Более подробно о работе с ней будет рассказано ниже. Здесь же отметим, что в статье будет рассказано о работе в программе 11 версии.

Как правило, разные версии ABBYY FineReader не сильно отличаются друг от друга. Вы без труда сделаете то же самое и в другой. Главные отличия могут быть в удобстве, быстроте работы программы и ее возможностях. Например, более ранние версии отказываются открывать документ PDF и DJVU...

3) Документы для сканирования

Да, вот так вот, решил вынести документы отдельной графой. В большинстве случаев сканируют какие-нибудь учебники, газеты, статьи, журналы и пр. Т.е. те книги и ту литературу которая пользуется спросом. Я это к чему веду? Из личного опыта могу сказать, что многое, что вы захотите сканировать - возможно уже есть в сети! Сколько раз лично я экономил время, когда находил ту или иную книгу уже сканированную в сети. Мне оставалось только скопировать текст в документ и продолжить с ним работу.

Из этого простой совет - прежде чем что-то сканировать, проверьте, может уже кто-то отсканировал и вам не нужно терять свое время.

2. Параметры сканирования текста

Здесь я не будут рассказывать о ваших драйверах для сканера, программах, которые вместе с ним шли, ибо все модели сканеров разные, ПО тоже везде разное и угадать и тем более показать наглядно как выполнять операцию - нереально.

Но во всех сканерах есть одни и те же настройки, которые сильно могут повлиять на скорость и качество вашей работы. Вот о них таки как раз и поговорим здесь. Буду перечислять по порядку.

1) Качество сканирования - DPI

Во-первых, качество сканирования поставьте в опциях не ниже 300 DPI. Желательно даже выставить побольше, если это возможно. Чем выше показатель DPI - тем четче получиться ваша картинка, ну и тем самым, быстрее пройдет дальнейшая обработка. К тому же чем выше качество сканирования - тем меньше ошибок вам в последствии придется исправлять.

Оптимальный вариант обеспечивает, обычно, 300-400 DPI.

2) Цветность

Этот параметр очень сильно влияет на время сканирования (кстати, DPI тоже влияет, но те так сильно, и только когда пользователь ставит высокие значения).

Обычно выделяют три режима:

Черно-белый (отлично подойдет для простого текста);

Серый (подойдет для текста с таблицами и картинками);

Цветной (для цветных журналов, книг, в общем, документов, где важна цветность).

Обычно от выбора цветности зависит время сканирования. Ведь если документ у вас большой, то даже лишние 5-10 секунд на странице в целом выльются в приличное время...

3) Фотографии

Документ вы можете получить не только сканированием, но и сфотографировав его. Как правило, в этом случае у вас будут некоторые другие проблемы: искажение картинки, смазанность. Из-за этого может потребоваться более длительная дальнейшая правка и обработка полученного текста. Лично я не рекомендую пользоваться фотоаппаратами для этого дела.

Важно отметить, что не каждый такой документ получится распознать, т.к. качество сканирования у него может быть крайне низким...

3. Распознавание текста документа

После открытия в ABBYY FineReader картинки, программа, как правило, на автомате начинает выделять области и распознавать их. Но иногда она делает это не правильно. Для этого-то мы и рассмотрим выделение нужных областей вручную.

Важно! Не все сразу понимают, что после открытия документа в программе, слева в окне отображается исходный документ, в котором вы и выделяете различные области. После нажатия на кнопку "распознавания" программа в окне справа выведет вам готовый текст. После распознавания, кстати, целесообразно проверить текст на ошибки в том же самом FineReader.

3.1 Текст

Эта область используется для выделения текста. Картинки и таблицы нужно исключать из нее. Редкие и необычный шрифты придется вводить вручную...

Для выделения текстовой области, обратите внимание на панель в верхней части FineReader. Там есть кнопка "Т" (см. скриншот ниже, указатель мышки как раз на этой кнопке). Щелкаете по ней, затем на картинке ниже выделяете аккуратно прямоугольную область, в которой располагается текст. Кстати, в некоторых случаях нужно создавать текстовых блоков по 2-3, а иногда по 10-12 на страницу, т.к. форматирование текста может быть разным и одним прямоугольником всю область не выделить.

Важно отметить, что в текстовую область не должны попадать картинки! В дальнейшем это вам сэкономит кучу времени...

3.2 Картинки

Используется для выделения картинок и тех областей, которые тяжело распознать из-за плохого качества, или необычности шрифта.

На скриншоте ниже указатель мышки находится на кнопке, используемой для выделения области "картинка". Кстати, в эту область можно выделить абсолютно любую часть страницы, а FineReader вставит ее потом в документ как обычную картинку. Т.е. просто "тупо" скопирует...

Обычно эту область используют для выделения плохо отсканированных таблиц, для выделения нестандартного текста и шрифта, само-собой картинок.

3.3 Таблицы

На скриншоте ниже показана кнопка для выделения таблиц. Вообще, лично я ее использую крайне редко. Дело в том, что вам придется довольно рутинно рисовать (фактически) каждую линию на таблице и показывать что и как программе. Если таблица небольшая и в не очень хорошем качестве, я рекомендую для этих целей использовать область "картинка". Тем самым сэкономите кучу времени, а таблицу можно потом в Word сделать быстренько на основе картинки.

3.4 Ненужные элементы

Важно отметить. Иногда на странице есть ненужные элементы, которые мешают распознать текст, или вообще не дают вам выделить нужную область. Их можно при помощи "ластика" удалить вовсе.

Для этого переходим в режим редактирования изображения.

Выбираем инструмент "ластик" и выделяем ненужную область. Она сотрется и на ее месте будет белый лист бумаги.

Кстати, рекомендую использовать вам эту опцию как можно чаще. Старайтесь все текстовые области которые вы выделили, где вам не нужен кусок текста, или присутствуют любые ненужные точки, размытости, искажения - удалять ластиком. Благодаря этому распознавание будет быстрее!

4. Распознавание файлов PDF/DJVU

Вообще, этот формат распознавания не будет отличаться ничем другим от остальных - т.е. работать с ним можно так же как с картинками. Единственное, программа не должна быть слишком старой версии, если файлы PDF/DJVU у вас не открываются - обновите версию до 11.

Небольшой совет. После открытия документа в FineReader - он автоматически начнет распознавать документ. Часто в файлах PDF/DJVU определенная область страницы не нужна во всем документе! Чтобы удалить такую область на всех страницах сделайте следующее:

1. Зайдите в раздел редактирования изображения.

2. Включите опция "обрезки".

3. Выделите область, нужную вам на всех страницах.

4. Нажмите применить ко всем страницам и обрежьте.

5. Проверка ошибок и сохранение результатов работы

Казалось бы, какие еще могут быть проблемы, когда все области были выделены, затем распознаны - бери да сохраняй... Не тут то было!

Во-первых, нужна проверка документа!

Чтобы ее включить, после распознавания, в окне справа, будет кнопка "проверка", см. скриншот ниже. После ее нажатия программа FineReader будет автоматически показывать вам те области, где у программы возникли ошибки и она не смогла достоверно определить тот или иной символ. Вам останется только выбирать, либо вы согласны с мнением программы, либо вводите свой символ.

Кстати, в половине случаев, примерно, программа будет вам предлагать готовое правильное слово - вам останется толкьо мышкой выбрать нужный вариант.

Во-вторых, после проверки вам нужно выбрать формат, в который вы сохраните результат своей работы.

Здесь FineReader дает вам развернуться на полную катушку: можно просто передать информацию в Word один в один, а можно сохранить ее в одном из десятков форматов. Но хотелось бы выделить другой важный аспект. Какой формат бы не выбрали, более важно выбрать тип копии! Рассмотрим самые интересные варианты...

Точная копия

Все области, которые вы выделяли на странице в распознанном документе будут соответствовать точь в точь исходному документу. Очень удобный вариант, когда вам важно не потерять форматирование текста. Кстати, шрифты так же будут очень похожи на оригинал. Рекомендую при таком варианте передавать документ в Word, чтобы уже там продолжить дальнейшую работу.

Редактируемая копия

Этот вариант хорош тем, что вы получите уже форматированный вариант текста. Т.е. отступов с "километр", которые возможно были в исходном документе - вы не встретите. Полезная опция, когда вы будете значительно редактировать информацию.

Правда, не стоит выбирать, если вам важно сохранить стилистику оформления, шрифты, отступы. Иногда, если распознавание прошло не очень успешно - ваш документ может "перекосить" из-за измененного форматирования. В этом случае целесообразно выбрать точную копию.

Простой текст

Вариант для тех, кому нужен просто текст со странице без всего остального. Подойдет для документов без картинок и таблиц.

Раздел Познание

Познание: уровни и методы.

Познание - процесс деятельности человека, основным содержанием которого является отражение объективной реальности в его сознании, а результатом - получение но­вого знания об окружающем мире .

Субъект познания

Результат

Объект познания

Познаю­щий чело­век, наде­ленный волей и со­знанием, или кол­лектив

Все об­щество

Познавае­мый пред­мет, (про­цесс, яв­ление, внутреннее состояние человека)

Весь ок­ружаю­щий мир

Представители различных философских направлений по-разному отвечали на вопрос о возможности познания мира.

Агностицизм

(гр. agnostos -

Недоступный познанию)

Скептицизм

(гр. skeptikos - рассматривающий,

критикующий)

Оптимизм

(лат. optimus -

наилучший)

Отрицает полностью или частично возможность по-

знания мира, познание не дает достоверных сведений о мире

Не отрицая принципиальной возможности познания мира, выражает сомнение в

том, что все знания о мире носят достоверный характер

Утверждает принципиальную познаваемость мира,

принципиальную

возможность получения достоверныхзнаний о мире

Познание имеет два уровня (две стороны) - чувственное познание - осуществляется органами чувств (зрением, слу­хом, обонянием, осязанием, вкусом) и рациональное позна­ние - присуще только человеку, является более сложным способом отражения действительности, который осуществля­ется посредством мышления.

Формы чувственного познания

Ощущение - отражение отдельных свойств предмета, I явления, процесса, возникающее в результате их непосред-

Ственного воздействия на органы чувств.

Восприятие - чувственный образ целостной картины I предмета, процесса, явления, непосредственно воздейст-

Вующих на органы чувств.

Представление - чувственно-наглядный, обобщенный об­раз предмета, процесса, явления, сохраняемый и воспроиз­водимый в сознании и без непосредственного воздействия самих предметов познания на органы чувств.

Формы рационального познания

Понятие - мысль, утверждающая общие и существенные I свойства предмета, процесса, явления.

Суждение - мысль, утверждающая или отрицающая что-I либо о предмете, процессе, явлении.

Умозаключение (вывод) - мысленная связь нескольких суждений и выделение из них нового суждения.

По-разному рассматривается вопрос о месте чувственного и рационального познания.

Эмпиризм - единственным ис­точником всех наших знаний является чувственный опыт.

Рационализм - наши знания могут быть получены только с помощью ума, без опо­ры на чувства.

Чувственное познание

Рациональное познание

Непосредственность, выра­жающаяся в прямом воспроиз­ведении объекта

Наглядность и предметность возникающих в результате по­знания образов

Воспроизведение внешних сторон и свойств объектов

Опора на результаты чувст­венного познания

Абстрактность и обобщен­ность возникающих в резуль­тате познания образов

Воспроизведение объектов на основе внутренних закономер­ных связей и отношений

Истина - это знание, соответствующее своему пред­мету, совпадающее с ним.

Абсолютная истина - это исчерпывающее достовер­ное знание о природе, человеке и обществе; знание, которое никогда не может быть опровергнуто.

Относительная истина - это неполное, неточное зна­ние, соответствующее определенному уровню развития об­щества, который обусловливает способы получения этого знания; это знание, зависящее от определенных условий, места и времени его получения.

Объективная истина - это такое содержание знания, которое не зависит ни от человека, ни от человечества.

Критерии (измерители, показатели, то, что удостоверяет исти­ну и позволяет отличить ее от заблуждения) истины:

соответствие законам логи­ки;

соответствие ранее открытым законам на­уки;

практика;

про­стота, экономичность формы.

Заблуждение - это НЕсознательное искажение образа объекта, это содержание знания, не со­ответствующее реальности, но принимаемое за истину.

Ложь - это сознательное искажение образа объекта.

Знание - результат познания действительности, полученное человеком в ходе активного отражения объективных зако­номерных связей и отношений реального мира.

Виды знания

Наименование

Сущность

Житейское

Носит эмпирический характер. Базируется на здравом смысле и обыденном сознании.

Научное

достоверное обобщение фактов, облекается в форму отвле­ченных понятий и категорий, общих принципов и законов, которые зачастую приобретают край­не абстрактные формы (формулы, графики, схе­мы и т. д.)

Художествен­ное

Строится на образе. Искусство как форма художественного познания обладает спецификой: является образным и наглядным; использует особые способы воспроизведения окружающей действитель­ности, средства , при помощи которых происходит создание художественных образов (слово; звук; цвет и т. д.); большую роль в процессе познания играет воображение и фантазии познающего субъекта.

Иррациональ­ное

Не связано с рациональным мышлением и даже противоречит ему. Предметом являются эмо­ции, страсти, переживания, интуиция, воля, а также некоторые явления, например, аномаль­ные, характеризующиеся парадоксальностью и не подчиняющиеся законам логики и науки

Личностное

Зависимо от способностей субъекта и от особен­ностей его интеллектуальной деятельности

Научное познание

Научное познание - особый вид познавательной де­ятельности, направленный на выработку объективных , системно организованных и обоснованных знаний о природе, человеке и обществе.

Основными особенностями научного познания являются следующие:

Объективность добываемого знания;

Развитость понятийного аппарата (категориальность);

Рациональность, связанная с непротиворечивостью,

Системность;

До­казательность и проверяемость;

Высокий уровень обобщения знаний;

Универсальность;

Использование специальных способов и методов позна­вательной деятельности.

Научное познание имеет свои уровни, формы и методы .

Уровни научного познания

Формы научного познания

Методы научного познания

Эмпирический (выявление объек­тивных фактов)

Научный факт

Наблюдение, эксперимент, измерение, классифика­ция, система­тизация, опи­сание, сравне­ние

Теоретический (выявление закономерностей, внутрен­них связей)

Проблема

Гипотеза

Анализ и син­тез, дедукция и индукция,ана­логия, модели­рование, абст­рагирование, идеализация, формализация, математизация

Закон - объективная, существенная, всеобщая, повторяющаяся, устойчивая связь между явлениями и процессами.

Проблема - осознанная формулировка вопросов, возни­кающих в ходе познания и требующих ответа.

Гипотеза (гр. hypothesis - основа, предположение ) - на­учное предположение, сформулированное на основе ряда фак­тов, истинное значение которого неопределенно, носит ве­роятностный характер и нуждается в доказательстве, проверке , обосновании.

Теория - наиболее развитая форма научного знания, даю­щая целостное отображение закономерных и существен­ных связей определенной области действительности, система законов.

Метод (путь исследования) понимается как орудие, средство познания .

Наблюдение

Эксперимент (лат. - проба, опыт)

Целенаправленное и органи­зованное восприятие внеш­него мира, доставляющее первичный материал для на­учного исследования

Исследование какого-либо явле­ния путем активного воздействия на него при помощи создания новых условий, соответствую­щих целям исследования, или же через изменение течения процес­са в нужном направлении

Отсутствие преобладающего воздействия субъекта позна­ния на объект исследования

Наличие преобладающего воз­действия субъекта познания на объект исследования

Возможность использования приборов и инструментов

Создание необходимых условий, включая устранение всех мешаю­щих факторов; материальные воз­действия на объект или условия; измерения с применением соответ­ствующих технических устройств

К универсальным методам научного познания относятся анализ и синтез.

Анализ (гр. analysis - разложение) - процесс мысленно­го или фактического разложения целого на составные час­ти.

Синтез (гр. synthesis - соединение) - процесс мысленно­го или фактического воссоединения целого из частей.

Индукция (лат. inductio - наведение) - путь опытного изучения явлений, в ходе которого от отдельных фактор со­вершается переход к общим положениям. Отдельные фак­ты как бы наводят на общее положение.

Дедукция (лат. deductio - выведение) - доказательст­во или выведение утверждения (следствия) из одного или нескольких других утверждений (посылок) на основе зако­нов логики, носящее достоверный характер.

Универсальным методом научного познания является аналогия (гр. analogia - соответствие) - сходство нетожде­ственных объектов в некоторых сторонах, качествах, отношениях. В современной науке развитой областью система­тического применения аналогии выступает так называемая теория подобия, широко используемая в моделировании.

Моделирование - воспроизведение характеристик некоторого объек­та на другом объекте (модели), специально созданном для их изучения.

Абстракция (от лат. abstractio - отвлечение) - один из универсальных методов познания, заключающийся в мыс­ленном отвлечении от ряда свойств предметов и отноше­ний между ними и выделении какого-либо свойства или от­ношения.

Формализация (лат. forma - вид, образ) - уточнение со­держания познания, осуществляемое посредством того, что изучаемые объекты, явления, процессы сопоставляются с некоторыми материальными конструкциями, позволяю­щими выявлять и фиксировать существенные и закономер­ные стороны рассматриваемых объектов.

Математизация - использование различных способов измерения, позволяющих приписывать материальным объ­ектам и их свойствам определенные числа, а затем вместо трудоемкой работы с объектами действовать с числами по определенным математическим правилам.

«Свои выводы наука формулирует в____________(1), за­конах и формулах, вынося за скобки эмоциональное отноше­ние познающего_____________(2) к изучаемым явлени­ям. Все, что наука делает своим___________(3), она ис­следует со стороны закономерностей и_______(4). Научное

познание опирается на систему__________(5) и выраба­тывает свой собственный ___________(6), отличный от

обычного».

А)вопрос Е) теория

Б) предмет Ж) язык

В) проблема 3) субъект

Г) метод И) причина

Ответ: ЕЗБИГЖ.

Социальные науки, их классификация

Социальные науки - форма духовной деятельности лю­дей, направления на производство знаний об обществе.

Наиболее об­щие знания об обществе в целом призваны давать такие нау­ки, как философия и социология.

Важнейшие социальные науки

Наименование

Сущность

Социология (гр. societas - общество и гр. logos - уче­ние, слово)

Наука о закономерностях раз­вития и функционирования со­циальных систем как глобаль­ных (общество в целом), так и частных

Философия (гр. phileo - люблю и sophia - мудрость)

Наука о наиболее общих зако­нах развития природы, общест­ва и познания

История

Наука, изучающая прошлое че­ловеческого общества

Культурология (лат. cultu-га - возделывание, обраба­тывание и гр. logos - уче­ние, слово)

Комплексная гуманитарная наука, охватывающая всю сово­купность знаний о культуре

Политология (гр. polity - права гражданства, полити­ческий порядок и logos - учение,слово)

Наука, объектом изучения ко­торой является многообразие политической жизни (инсти­туты, структуры, культура, процессы, поведение людей и групп в политике) как отдель­ных обществ, так и мирового сообщества в целом

Правоведение

Наука, изучающая право как особую систему социальных норм и различные аспекты пра­воприменительной деятельности

Экономика (от гр. oikos - домашнее хозяйство и по-mos - правило)

Наука, которая исследует, как люди в условиях ограниченности ресурсов удовлетворяют посто­янно растущие потребности

Эстетика (гр. aisthetikos - чувствующий, чувственный)

Наука о закономерностях эсте­тического освоения человеком мира, о сущности и формах творчества по законам красоты

Этика (гр. ethos - привыч­ка, обычай)

Одна из древнейших теоретиче­ских дисциплин, объектом изу­чения которой является мораль

Социальное и гуманитарное знание

Социальное познание - процесс приобретения и разви­тия знаний о человеке и обществе.

Особенности социального познания

1. Субъект и объект познания совпадают .

2. Получаемое социальное знание всегда связано с инте­ресами индивидов-субъектов познания.

3. Социальное знание всегда нагружено оценкой , это цен­ностное знание. естествознание - «истины разума», обще­ствознание - «истины сердца».

4. Сложность объекта познания - общества, которое обладает разнообразием различных структур и находится в постоянном развитии. Поэтому установление социальных за­кономерностей затруднено.

5. Поскольку общественная жизнь изменяется очень бы­стро, то в процессе социального познания можно говорить об установлении только относительных истин.

6. Ограничена возможность применения такого метода научного познания, как эксперимент.

Описать и понять социальные явления позволяет пра­вильный подход к ним. Это означает, что социальное позна­ние должно опираться на следующие принципы :

Рассматривать социальную действительность в разви­тии;

Изучать общественные явления в их многообразных связях, во взаимозависимости;

Выявлять общее (исторические закономерности) и осо­бенное в общественных явлениях.

Интерпретация социального факта - это сложная процедура его истолкования, обобщения, объяснения.