Добрый день.
Наверное, каждый из нас сталкивался с задачей, когда нужно перевести бумажный документ в электронный вид. Особенно это часто нужно делать тем кто учиться, работает с документацией, переводит тексты при помощи электронных словарей и т.д.
Не все сразу понимают одну вещь. После сканирования (пригона всех листов на сканере) у вас будут картинки формата BMP, JPG, PNG, GIF (могут быть и другие форматы). Так вот с этой картинки нужно получить текст - это процедура называется распознаванием. В таком порядке и будет изложение ниже.
Для перевода печатных документов в текстовый вид, вам для начала нужен сканер и соответственно, "родные" программы и драйверы, которые с ним шли. При помощи них можно будет сканировать документ и сохранить его для дальнейшей обработки.
Можно воспользоваться и другими аналогами, но софт, который шел со сканером в комплекте, обычно работает быстрее и имеет больше опций.
В зависимости от того, какой у вас сканер - скорость работы может существенно различаться. Есть сканеры, которые могут получить картинку с листа за 10 сек., есть которые будут получать за 30 сек. Если сканируете книгу на 200-300 листов - думаю, не трудно подсчитать во сколько раз будет разница во времени?
2) Программа для распознавания
В нашей статье я буду показывать вам работу в одной из лучших программ для сканирования и распознавания абсолютно любых документов - ABBYY FineReader. Т.к. программа платная, то сразу дам ссылку и на другую - ее бесплатный аналог Cunei Form. Правда, я бы не стал их сравнивать, ввиду того, что FineReader выигрывает по всем параметрам, рекомендую все же попробовать именно ее.
ABBYY FineReader 11
Официальный сайт: http://www.abbyy.ru/
Одна из лучших программ в своем роде. Она предназначена для того, чтобы распознать текст на картинке. Встроено множество опций и функций. Может разобрать кучу шрифтов, поддерживает даже рукописные варианты (правда, лично не пробовал, думаю, хорошо вряд ли будет распознавать рукописный вариант, если только у вас не идеальный каллиграфический почерк). Более подробно о работе с ней будет рассказано ниже. Здесь же отметим, что в статье будет рассказано о работе в программе 11 версии.
Как правило, разные версии ABBYY FineReader не сильно отличаются друг от друга. Вы без труда сделаете то же самое и в другой. Главные отличия могут быть в удобстве, быстроте работы программы и ее возможностях. Например, более ранние версии отказываются открывать документ PDF и DJVU...
3) Документы для сканирования
Да, вот так вот, решил вынести документы отдельной графой. В большинстве случаев сканируют какие-нибудь учебники, газеты, статьи, журналы и пр. Т.е. те книги и ту литературу которая пользуется спросом. Я это к чему веду? Из личного опыта могу сказать, что многое, что вы захотите сканировать - возможно уже есть в сети! Сколько раз лично я экономил время, когда находил ту или иную книгу уже сканированную в сети. Мне оставалось только скопировать текст в документ и продолжить с ним работу.
Из этого простой совет - прежде чем что-то сканировать, проверьте, может уже кто-то отсканировал и вам не нужно терять свое время.
Здесь я не будут рассказывать о ваших драйверах для сканера, программах, которые вместе с ним шли, ибо все модели сканеров разные, ПО тоже везде разное и угадать и тем более показать наглядно как выполнять операцию - нереально.
Но во всех сканерах есть одни и те же настройки, которые сильно могут повлиять на скорость и качество вашей работы. Вот о них таки как раз и поговорим здесь. Буду перечислять по порядку.
1) Качество сканирования - DPI
Во-первых, качество сканирования поставьте в опциях не ниже 300 DPI. Желательно даже выставить побольше, если это возможно. Чем выше показатель DPI - тем четче получиться ваша картинка, ну и тем самым, быстрее пройдет дальнейшая обработка. К тому же чем выше качество сканирования - тем меньше ошибок вам в последствии придется исправлять.
Оптимальный вариант обеспечивает, обычно, 300-400 DPI.
2) Цветность
Этот параметр очень сильно влияет на время сканирования (кстати, DPI тоже влияет, но те так сильно, и только когда пользователь ставит высокие значения).
Обычно выделяют три режима:
Черно-белый (отлично подойдет для простого текста);
Серый (подойдет для текста с таблицами и картинками);
Цветной (для цветных журналов, книг, в общем, документов, где важна цветность).
Обычно от выбора цветности зависит время сканирования. Ведь если документ у вас большой, то даже лишние 5-10 секунд на странице в целом выльются в приличное время...
3) Фотографии
Документ вы можете получить не только сканированием, но и сфотографировав его. Как правило, в этом случае у вас будут некоторые другие проблемы: искажение картинки, смазанность. Из-за этого может потребоваться более длительная дальнейшая правка и обработка полученного текста. Лично я не рекомендую пользоваться фотоаппаратами для этого дела.
Важно отметить, что не каждый такой документ получится распознать, т.к. качество сканирования у него может быть крайне низким...
После открытия в ABBYY FineReader картинки, программа, как правило, на автомате начинает выделять области и распознавать их. Но иногда она делает это не правильно. Для этого-то мы и рассмотрим выделение нужных областей вручную.
Важно! Не все сразу понимают, что после открытия документа в программе, слева в окне отображается исходный документ, в котором вы и выделяете различные области. После нажатия на кнопку "распознавания" программа в окне справа выведет вам готовый текст. После распознавания, кстати, целесообразно проверить текст на ошибки в том же самом FineReader.
Эта область используется для выделения текста. Картинки и таблицы нужно исключать из нее. Редкие и необычный шрифты придется вводить вручную...
Для выделения текстовой области, обратите внимание на панель в верхней части FineReader. Там есть кнопка "Т" (см. скриншот ниже, указатель мышки как раз на этой кнопке). Щелкаете по ней, затем на картинке ниже выделяете аккуратно прямоугольную область, в которой располагается текст. Кстати, в некоторых случаях нужно создавать текстовых блоков по 2-3, а иногда по 10-12 на страницу, т.к. форматирование текста может быть разным и одним прямоугольником всю область не выделить.
Важно отметить, что в текстовую область не должны попадать картинки! В дальнейшем это вам сэкономит кучу времени...
Используется для выделения картинок и тех областей, которые тяжело распознать из-за плохого качества, или необычности шрифта.
На скриншоте ниже указатель мышки находится на кнопке, используемой для выделения области "картинка". Кстати, в эту область можно выделить абсолютно любую часть страницы, а FineReader вставит ее потом в документ как обычную картинку. Т.е. просто "тупо" скопирует...
Обычно эту область используют для выделения плохо отсканированных таблиц, для выделения нестандартного текста и шрифта, само-собой картинок.
На скриншоте ниже показана кнопка для выделения таблиц. Вообще, лично я ее использую крайне редко. Дело в том, что вам придется довольно рутинно рисовать (фактически) каждую линию на таблице и показывать что и как программе. Если таблица небольшая и в не очень хорошем качестве, я рекомендую для этих целей использовать область "картинка". Тем самым сэкономите кучу времени, а таблицу можно потом в Word сделать быстренько на основе картинки.
Важно отметить. Иногда на странице есть ненужные элементы, которые мешают распознать текст, или вообще не дают вам выделить нужную область. Их можно при помощи "ластика" удалить вовсе.
Для этого переходим в режим редактирования изображения.
Выбираем инструмент "ластик" и выделяем ненужную область. Она сотрется и на ее месте будет белый лист бумаги.
Кстати, рекомендую использовать вам эту опцию как можно чаще. Старайтесь все текстовые области которые вы выделили, где вам не нужен кусок текста, или присутствуют любые ненужные точки, размытости, искажения - удалять ластиком. Благодаря этому распознавание будет быстрее!
Вообще, этот формат распознавания не будет отличаться ничем другим от остальных - т.е. работать с ним можно так же как с картинками. Единственное, программа не должна быть слишком старой версии, если файлы PDF/DJVU у вас не открываются - обновите версию до 11.
Небольшой совет. После открытия документа в FineReader - он автоматически начнет распознавать документ. Часто в файлах PDF/DJVU определенная область страницы не нужна во всем документе! Чтобы удалить такую область на всех страницах сделайте следующее:
1. Зайдите в раздел редактирования изображения.
2. Включите опция "обрезки".
3. Выделите область, нужную вам на всех страницах.
4. Нажмите применить ко всем страницам и обрежьте.
Казалось бы, какие еще могут быть проблемы, когда все области были выделены, затем распознаны - бери да сохраняй... Не тут то было!
Во-первых, нужна проверка документа!
Чтобы ее включить, после распознавания, в окне справа, будет кнопка "проверка", см. скриншот ниже. После ее нажатия программа FineReader будет автоматически показывать вам те области, где у программы возникли ошибки и она не смогла достоверно определить тот или иной символ. Вам останется только выбирать, либо вы согласны с мнением программы, либо вводите свой символ.
Кстати, в половине случаев, примерно, программа будет вам предлагать готовое правильное слово - вам останется толкьо мышкой выбрать нужный вариант.
Во-вторых, после проверки вам нужно выбрать формат, в который вы сохраните результат своей работы.
Здесь FineReader дает вам развернуться на полную катушку: можно просто передать информацию в Word один в один, а можно сохранить ее в одном из десятков форматов. Но хотелось бы выделить другой важный аспект. Какой формат бы не выбрали, более важно выбрать тип копии! Рассмотрим самые интересные варианты...
Точная копия
Все области, которые вы выделяли на странице в распознанном документе будут соответствовать точь в точь исходному документу. Очень удобный вариант, когда вам важно не потерять форматирование текста. Кстати, шрифты так же будут очень похожи на оригинал. Рекомендую при таком варианте передавать документ в Word, чтобы уже там продолжить дальнейшую работу.
Редактируемая копия
Этот вариант хорош тем, что вы получите уже форматированный вариант текста. Т.е. отступов с "километр", которые возможно были в исходном документе - вы не встретите. Полезная опция, когда вы будете значительно редактировать информацию.
Правда, не стоит выбирать, если вам важно сохранить стилистику оформления, шрифты, отступы. Иногда, если распознавание прошло не очень успешно - ваш документ может "перекосить" из-за измененного форматирования. В этом случае целесообразно выбрать точную копию.
Простой текст
Вариант для тех, кому нужен просто текст со странице без всего остального. Подойдет для документов без картинок и таблиц.
Раздел Познание
Познание: уровни и методы.
Познание - процесс деятельности человека, основным содержанием которого является отражение объективной реальности в его сознании, а результатом - получение нового знания об окружающем мире .
Субъект познания | Результат | Объект познания |
||||
Познающий человек, наделенный волей и сознанием, или коллектив | Все общество | Познаваемый предмет, (процесс, явление, внутреннее состояние человека) | Весь окружающий мир |
Представители различных философских направлений по-разному отвечали на вопрос о возможности познания мира.
Агностицизм (гр. agnostos - Недоступный познанию) | Скептицизм (гр. skeptikos - рассматривающий, критикующий) | Оптимизм |
(лат. optimus - |
||
наилучший) |
||
Отрицает полностью или частично возможность по- знания мира, познание не дает достоверных сведений о мире | Не отрицая принципиальной возможности познания мира, выражает сомнение в том, что все знания о мире носят достоверный характер | Утверждает принципиальную познаваемость мира, принципиальную возможность получения достоверныхзнаний о мире |
Познание имеет два уровня (две стороны) - чувственное познание - осуществляется органами чувств (зрением, слухом, обонянием, осязанием, вкусом) и рациональное познание - присуще только человеку, является более сложным способом отражения действительности, который осуществляется посредством мышления.
Формы чувственного познания
Ощущение - отражение отдельных свойств предмета, I явления, процесса, возникающее в результате их непосред-
Ственного воздействия на органы чувств.
Восприятие - чувственный образ целостной картины I предмета, процесса, явления, непосредственно воздейст-
Вующих на органы чувств.
Представление - чувственно-наглядный, обобщенный образ предмета, процесса, явления, сохраняемый и воспроизводимый в сознании и без непосредственного воздействия самих предметов познания на органы чувств.
Формы рационального познания
Понятие - мысль, утверждающая общие и существенные I свойства предмета, процесса, явления.
Суждение - мысль, утверждающая или отрицающая что-I либо о предмете, процессе, явлении.
Умозаключение (вывод) - мысленная связь нескольких суждений и выделение из них нового суждения.
По-разному рассматривается вопрос о месте чувственного и рационального познания.
Эмпиризм - единственным источником всех наших знаний является чувственный опыт.
Рационализм - наши знания могут быть получены только с помощью ума, без опоры на чувства.
Чувственное познание | Рациональное познание |
Непосредственность, выражающаяся в прямом воспроизведении объекта Наглядность и предметность возникающих в результате познания образов Воспроизведение внешних сторон и свойств объектов | Опора на результаты чувственного познания Абстрактность и обобщенность возникающих в результате познания образов Воспроизведение объектов на основе внутренних закономерных связей и отношений |
Истина - это знание, соответствующее своему предмету, совпадающее с ним.
Абсолютная истина - это исчерпывающее достоверное знание о природе, человеке и обществе; знание, которое никогда не может быть опровергнуто.
Относительная истина - это неполное, неточное знание, соответствующее определенному уровню развития общества, который обусловливает способы получения этого знания; это знание, зависящее от определенных условий, места и времени его получения.
Объективная истина - это такое содержание знания, которое не зависит ни от человека, ни от человечества.
Критерии (измерители, показатели, то, что удостоверяет истину и позволяет отличить ее от заблуждения) истины:
соответствие законам логики;
соответствие ранее открытым законам науки;
практика;
простота, экономичность формы.
Заблуждение - это НЕсознательное искажение образа объекта, это содержание знания, не соответствующее реальности, но принимаемое за истину.
Ложь - это сознательное искажение образа объекта.
Знание - результат познания действительности, полученное человеком в ходе активного отражения объективных закономерных связей и отношений реального мира.
Виды знания
Наименование | Сущность |
Житейское | Носит эмпирический характер. Базируется на здравом смысле и обыденном сознании. |
Научное | достоверное обобщение фактов, облекается в форму отвлеченных понятий и категорий, общих принципов и законов, которые зачастую приобретают крайне абстрактные формы (формулы, графики, схемы и т. д.) |
Художественное | Строится на образе. Искусство как форма художественного познания обладает спецификой: является образным и наглядным; использует особые способы воспроизведения окружающей действительности, средства , при помощи которых происходит создание художественных образов (слово; звук; цвет и т. д.); большую роль в процессе познания играет воображение и фантазии познающего субъекта. |
Иррациональное | Не связано с рациональным мышлением и даже противоречит ему. Предметом являются эмоции, страсти, переживания, интуиция, воля, а также некоторые явления, например, аномальные, характеризующиеся парадоксальностью и не подчиняющиеся законам логики и науки |
Личностное | Зависимо от способностей субъекта и от особенностей его интеллектуальной деятельности |
Научное познание
Научное познание - особый вид познавательной деятельности, направленный на выработку объективных , системно организованных и обоснованных знаний о природе, человеке и обществе.
Основными особенностями научного познания являются следующие:
Объективность добываемого знания;
Развитость понятийного аппарата (категориальность);
Рациональность, связанная с непротиворечивостью,
Системность;
Доказательность и проверяемость;
Высокий уровень обобщения знаний;
Универсальность;
Использование специальных способов и методов познавательной деятельности.
Научное познание имеет свои уровни, формы и методы .
Уровни научного познания | Формы научного познания | Методы научного познания |
Эмпирический (выявление объективных фактов) | Научный факт | Наблюдение, эксперимент, измерение, классификация, систематизация, описание, сравнение |
Теоретический (выявление закономерностей, внутренних связей) | Проблема Гипотеза | Анализ и синтез, дедукция и индукция,аналогия, моделирование, абстрагирование, идеализация, формализация, математизация |
Закон - объективная, существенная, всеобщая, повторяющаяся, устойчивая связь между явлениями и процессами.
Проблема - осознанная формулировка вопросов, возникающих в ходе познания и требующих ответа.
Гипотеза (гр. hypothesis - основа, предположение ) - научное предположение, сформулированное на основе ряда фактов, истинное значение которого неопределенно, носит вероятностный характер и нуждается в доказательстве, проверке , обосновании.
Теория - наиболее развитая форма научного знания, дающая целостное отображение закономерных и существенных связей определенной области действительности, система законов.
Метод (путь исследования) понимается как орудие, средство познания .
Наблюдение | Эксперимент (лат. - проба, опыт) |
Целенаправленное и организованное восприятие внешнего мира, доставляющее первичный материал для научного исследования | Исследование какого-либо явления путем активного воздействия на него при помощи создания новых условий, соответствующих целям исследования, или же через изменение течения процесса в нужном направлении |
Отсутствие преобладающего воздействия субъекта познания на объект исследования | Наличие преобладающего воздействия субъекта познания на объект исследования |
Возможность использования приборов и инструментов | Создание необходимых условий, включая устранение всех мешающих факторов; материальные воздействия на объект или условия; измерения с применением соответствующих технических устройств |
К универсальным методам научного познания относятся анализ и синтез.
Анализ (гр. analysis - разложение) - процесс мысленного или фактического разложения целого на составные части.
Синтез (гр. synthesis - соединение) - процесс мысленного или фактического воссоединения целого из частей.
Индукция (лат. inductio - наведение) - путь опытного изучения явлений, в ходе которого от отдельных фактор совершается переход к общим положениям. Отдельные факты как бы наводят на общее положение.
Дедукция (лат. deductio - выведение) - доказательство или выведение утверждения (следствия) из одного или нескольких других утверждений (посылок) на основе законов логики, носящее достоверный характер.
Универсальным методом научного познания является аналогия (гр. analogia - соответствие) - сходство нетождественных объектов в некоторых сторонах, качествах, отношениях. В современной науке развитой областью систематического применения аналогии выступает так называемая теория подобия, широко используемая в моделировании.
Моделирование - воспроизведение характеристик некоторого объекта на другом объекте (модели), специально созданном для их изучения.
Абстракция (от лат. abstractio - отвлечение) - один из универсальных методов познания, заключающийся в мысленном отвлечении от ряда свойств предметов и отношений между ними и выделении какого-либо свойства или отношения.
Формализация (лат. forma - вид, образ) - уточнение содержания познания, осуществляемое посредством того, что изучаемые объекты, явления, процессы сопоставляются с некоторыми материальными конструкциями, позволяющими выявлять и фиксировать существенные и закономерные стороны рассматриваемых объектов.
Математизация - использование различных способов измерения, позволяющих приписывать материальным объектам и их свойствам определенные числа, а затем вместо трудоемкой работы с объектами действовать с числами по определенным математическим правилам.
«Свои выводы наука формулирует в____________(1), законах и формулах, вынося за скобки эмоциональное отношение познающего_____________(2) к изучаемым явлениям. Все, что наука делает своим___________(3), она исследует со стороны закономерностей и_______(4). Научное
познание опирается на систему__________(5) и вырабатывает свой собственный ___________(6), отличный от
обычного».
А)вопрос Е) теория
Б) предмет Ж) язык
В) проблема 3) субъект
Г) метод И) причина
Ответ: ЕЗБИГЖ.
Социальные науки, их классификация
Социальные науки - форма духовной деятельности людей, направления на производство знаний об обществе.
Наиболее общие знания об обществе в целом призваны давать такие науки, как философия и социология.
Важнейшие социальные науки
Наименование | Сущность |
Социология (гр. societas - общество и гр. logos - учение, слово) | Наука о закономерностях развития и функционирования социальных систем как глобальных (общество в целом), так и частных |
Философия (гр. phileo - люблю и sophia - мудрость) | Наука о наиболее общих законах развития природы, общества и познания |
История | Наука, изучающая прошлое человеческого общества |
Культурология (лат. cultu-га - возделывание, обрабатывание и гр. logos - учение, слово) | Комплексная гуманитарная наука, охватывающая всю совокупность знаний о культуре |
Политология (гр. polity - права гражданства, политический порядок и logos - учение,слово) | Наука, объектом изучения которой является многообразие политической жизни (институты, структуры, культура, процессы, поведение людей и групп в политике) как отдельных обществ, так и мирового сообщества в целом |
Правоведение | Наука, изучающая право как особую систему социальных норм и различные аспекты правоприменительной деятельности |
Экономика (от гр. oikos - домашнее хозяйство и по-mos - правило) | Наука, которая исследует, как люди в условиях ограниченности ресурсов удовлетворяют постоянно растущие потребности |
Эстетика (гр. aisthetikos - чувствующий, чувственный) | Наука о закономерностях эстетического освоения человеком мира, о сущности и формах творчества по законам красоты |
Этика (гр. ethos - привычка, обычай) | Одна из древнейших теоретических дисциплин, объектом изучения которой является мораль |
Социальное и гуманитарное знание
Социальное познание - процесс приобретения и развития знаний о человеке и обществе.
Особенности социального познания
1. Субъект и объект познания совпадают .
2. Получаемое социальное знание всегда связано с интересами индивидов-субъектов познания.
3. Социальное знание всегда нагружено оценкой , это ценностное знание. естествознание - «истины разума», обществознание - «истины сердца».
4. Сложность объекта познания - общества, которое обладает разнообразием различных структур и находится в постоянном развитии. Поэтому установление социальных закономерностей затруднено.
5. Поскольку общественная жизнь изменяется очень быстро, то в процессе социального познания можно говорить об установлении только относительных истин.
6. Ограничена возможность применения такого метода научного познания, как эксперимент.
Описать и понять социальные явления позволяет правильный подход к ним. Это означает, что социальное познание должно опираться на следующие принципы :
Рассматривать социальную действительность в развитии;
Изучать общественные явления в их многообразных связях, во взаимозависимости;
Выявлять общее (исторические закономерности) и особенное в общественных явлениях.
Интерпретация социального факта - это сложная процедура его истолкования, обобщения, объяснения.