Определение объемов различных носителей. Лекция: Система основных понятий. Что будем делать с полученным материалом

03.02.2019

Носители информации характеризуются информационной емкостью, то есть количеством информации, которое они могут хранить. Наиболее информационно емкими являются молекулы ДНК, которые имеют очень малый размер и плотно упакованы. Это позволяет хранить огромное количество информации (до 10 21 битов в 1 см 3), что дает возможность организму развиваться из одной-единственной клетки, содержащей всю необходимую генетическую информацию.

Термин «неструктурированные данные» часто используется для характеристики цифровых объектов, которые не содержат определенных структурных кодов или меток, или которые имеют структурные индикаторы, которые не соответствуют структуре концептуального объекта.

То, что вы видите, является концептуальным объектом. Затем рассмотрим два изображения ниже. Каждый из них отображает шестнадцатеричные значения байтов, которые кодируют начало документа. Не похоже на концептуальный объект. Точно не эквивалент концептуального документа. Оба содержат название статьи, но в остальном они существенно различаются. Таким образом, это два разных логических представления одного и того же концептуального объекта.

Пример 2. Определить объем генетической информации молекулы ДНК человека, которая состоит из около 6 миллиардов нуклеотидов четырех типов (A, G, T, C), которые являются знаками генетического алфавита.

Мощность генетического алфавита равна четырем, следовательно, каждый знак (нуклеотид) несет количество информации, которое можно определить по формуле I = log 2 N

Есть ли смысл в том, что мы можем сказать, что один из этих цифровых форматов является истинным или правильным логическим представлением документа? Объективным тестом будет вопрос о том, сохраняет ли цифровой формат документ в точности так, как он был создан. Основным критерием является то, является ли документ, который создается, когда цифровой файл обрабатывается правильным программным обеспечением, идентичен оригиналу. Фактически, каждый из этих кодировок, когда он обрабатывается программным обеспечением, которое распознает его тип данных, отобразит или распечатает документ в том формате, в котором он был создан.

I = log 2 4 = 2 бита

Объем генетической информации в ДНК человека составляет:

2 бита * 6 000 000 000 = 12 000 000 000 бит=1 500 000 000 байт=1,4 Гбайта

Современные микросхемы памяти позволяют хранить до 10 10 битов в 1 см 3 информации, однако это в 100 миллиардов раз меньше, чем в ДНК. Можно сказать, что современные технологии пока существенно проигрывают биологической эволюции.

Поэтому, если требование состоит в том, чтобы поддерживать контент, структуру и внешний вид исходного документа, подходит либо цифровой формат. В этом примере показаны два важных аспекта цифровых объектов, каждый из которых имеет значительные последствия для их сохранения. Во-первых, могут быть разные цифровые кодировки одного и того же концептуального объекта и что различные кодировки могут сохранять существенные характеристики концептуального объекта. Второй относится к базовой концепции цифрового сохранения.

Что касается первого из этих последствий, то возможность кодирования одного и того же концептуального объекта в различных цифровых форматах, одинаково подходящих для сохранения концептуального объекта, может быть расширена до более сложных типов объектов и даже в тех случаях, когда концептуальный объект не представленному человеку, но обнаруживается только на интерфейсе двух бизнес-приложений. Эти две системы должны совместно использовать этот объект интерфейса и в любых последующих действиях, связанных с этим изъятием, должны предоставить ту же информацию; однако нет необходимости, чтобы обе системы использовали идентичные базы данных для хранения информации.

Пример 3. Оперативная память компьютера состоит из ячеек, объем которых равен 1 байту. Какое количество ячеек оперативной памяти будет занято словом «информатика», записанным в формате Unicode.

В формате Unicode каждый символ кодируется двумя байтами, следовательно, количество занятых ячеек памяти будет 2 байта* 11 символов = 22 байта.

Отношения: где интересные вещи

Прежде чем рассматривать последствия для сохранения цифрового контента, мы должны более подробно изучить отношения между физическими, логическими и концептуальными объектами. Сложный характер цифрового объекта, обладающего различными физическими, логическими и концептуальными свойствами, порождает некоторые интересные соображения для цифрового сохранения, особенно в отношениях между свойствами любого объекта на этих трех уровнях. Связь между любыми двумя уровнями может быть простой. Но длинный текстовый отчет можно разбить на мастера и три поддокумента в формате текстовой обработки, оставив один концептуальный объект сохраненным в виде четырех логических объектов: отношения «один ко многим».

Однако если сравнивать информационную емкость традиционных носителей информации (книг) и современных компьютерных носителей, то прогресс очевиден:

Лист формата А4 с текстом (набран на компьютере шрифтом 12-го кегля с одинарным интервалом) – около 3500 символов

Страница учебника – 2000 символов

Гибкий магнитный диск – 1,44 Мб

Если файлы обработки текста полагались на внешние библиотеки шрифтов, для воспроизведения документа необходимы дополнительные цифровые объекты. Чтобы получить доступ к отчету, необходимо будет перекомпилировать мастер и вложенные документы, но это объединение может произойти только во время обработки и не влиять на сохранение логических или физических объектов. Это часто встречается в базах данных, где данные, поддерживающие приложение, обычно хранятся в нескольких таблицах. Любая форма, отчет или сохраненное представление, определенные в приложении, представляют собой логический объект, который определяет контент, структуру и, возможно, внешний вид класса концептуальных объектов, таких как форма заказа или ежемесячный отчет.

Оптический диск CD-R(W) – 700 Мб

Оптический диск DVD – 4,2 Гб

Флэш-накопитель – несколько Гб

Жесткий магнитный диск – сотни Гб

Таким образом, на дискете может храниться 2-3 книги, а на жестком магнитном диске или DVD – целая библиотека, включающая десятки тысяч книг.

Гибкий магнитный диск (ГМД)

Для того чтобы на диске можно было хранить информацию, диск должен быть отформатирован, то есть должна быть создана физическая и логическая структура диска.

Отношения «многие ко многим» могут также существовать между логическим и физическим уровнями; например, многие сообщения электронной почты могут храниться в одном файле, но вложения в сообщения могут храниться в других файлах. Чтобы сохранить цифровой объект, отношения между уровнями должны быть известны или познаваемы. Чтобы получить отчет, хранящийся в качестве ведущего и нескольких поддокументов, мы должны знать, что он хранится таким образом, и мы должны знать идентификаторы всех логических компонентов.

Чтобы получить конкретный заказ из торгового приложения, нам не нужно знать, где все или любые данные для этого заказа хранятся в базе данных; нам нужно только знать, как найти соответствующие данные, учитывая логическую структуру базы данных. Из этих наблюдений мы можем обобщить, что для сохранения цифрового объекта мы должны иметь возможность идентифицировать и извлекать все свои цифровые компоненты. Цифровыми компонентами объекта являются логические и физические объекты, необходимые для восстановления концептуального объекта.

Формирование физической структуры диска состоит в создании на диске концентрических дорожек, которые, в свою очередь, делятся на секторы. Для этого в процессе форматирования магнитная головка дисковода расставляет в определенных местах диска метки дорожек и секторов.



После форматирования гибкого диска 3,5" его параметры будут следующими (рис):

Эти компоненты не обязательно ограничиваются объектами, которые содержат содержимое документа. Цифровые компоненты могут содержать данные, необходимые для структуры или представления концептуального объекта. Спецификации отчета и формы в приложении базы данных необходимы для структурирования содержимого документов.

В дополнение к идентификации и извлечению цифровых компонентов необходимо правильно их обработать. Для доступа к любому цифровому документу сохраненные последовательности битов должны интерпретироваться как логические объекты и представлены как концептуальные объекты. Таким образом, цифровое сохранение - это не простой процесс сохранения физических объектов, а сохранение способности воспроизводить объекты. Следовательно, процесс цифрового сохранения неотделим от доступа к объекту. Вы не можете доказать, что вы сохранили объект до тех пор, пока не восстановите его в той или иной форме, которая подходит для использования человеком или для компьютерных системных приложений.

информационная емкость сектора - 512 байтов;

количество секторов на дорожке - 18;

дорожек на одной стороне - 80;

сторон - 2.

На гибком магнитном диске формата 3,5” минимальным адресуемым элементом является сектор емкостью 512 байт . Всего таких секторов 2880, из них для хранения данных отводится 2847 секторов, один сектор (1-ый) отводится для размещения загрузчика операционной системы и 32 сектора отводится для хранения каталога диска и таблицы размещения файлов FAT.

Чтобы сохранить цифровой объект, необходимо ли сохранить его физические и логические компоненты и их взаимосвязь без каких-либо изменений? Ответ, возможно, удивительно, что нет. Можно изменить способ кодирования концептуального объекта в одном или нескольких логических объектах и ​​храниться в одном или нескольких физических объектах без какого-либо негативного влияния на его сохранение. Например, текстовый отчет может содержать цифровую фотографию. Мы видели еще один пример этого в разных форматах, которые можно использовать для хранения и воспроизведения этой статьи.

Пример 4. Какое максимальное количество страниц текста, содержащего 60 символов в строке и 40 строк на странице, может содержать текстовый файл без символов форматирования (формат TXT), сохраненный в кодировке Windows на гибком магнитном диске?

Информационный объем гибкого диска, предназначенный для хранения данных, составляет 1,44 Мб

На самом деле, может быть полезно или даже необходимо изменить логические или физические характеристики для сохранения объекта. Еще более простой случай - это перенос мультимедиа. Цифровые носители устарели. Физические файлы должны быть перенесены на новый носитель; если нет, они станут недоступными и в конечном итоге пострадают от физического ухудшения старых СМИ. Миграция изменяет способ ввода данных физически и может улучшить сохранение, поскольку, например, методы обнаружения ошибок и коррекции физической надписи на цифровых носителях со временем улучшились.

Информационный объем страницы составляет:

1 байт * 60 * 40 = 2400 байт = 2,34 Кбайта

Максимальное количество страниц в текстовом файле, размещенном на гибком магнитном диске, составляет:

1423,5 Кбайт / 2,34 Кбайт = 608

Жесткий магнитный диск

Структура диска:

A дорожка

B геометрический сектор

C сектор дорожки

Обычно мы говорим, что изменение чего-то напрямую противоречит его сохранению. Возможность сохранения цифрового объекта при изменении его логического кодирования или физической надписи представляется парадоксальной и усугубляется тем фактом, что может быть полезно или даже необходимо внести такие изменения. Как мы можем определить, какие изменения допустимы и какие изменения наиболее выгодны или необходимы для сохранения? Технология создает возможности для изменения, но не может определить, какие изменения допустимы, полезны, необходимы или вредны.

D кластер

Кластер – в некоторых типах файловых систем логическая единица хранения данных в таблице размещения файлов, объединяющая группу секторов. Например, на дисках с размером секторов в 512 байт, 512-байтный кластер содержит один сектор, тогда как 4-килобайтный кластер содержит восемь секторов.

Как правило, это наименьшее место на диске, которое может быть выделено для хранения файла.

Конечный результат: аутентичные сохраненные документы

Чтобы сделать такие определения, мы должны рассмотреть цель сохранения. Какова цель цифрового сохранения? Для архивов, библиотек, центров обработки данных или любых других организаций, которым необходимо сохранять информационные объекты с течением времени, конечным результатом процесса сохранения должны быть аутентичные сохраненные объекты; то есть результаты процесса сохранения должны быть во всех существенных аспектах идентичными тем, что было в этом процессе. Акцент должен быть сделан на личность, но важный критерий «всех существенных аспектов».

Понятие кластер используется в файловых системах FAT и NTFS. Другие файловые системы оперируют схожими понятиями.

Файловая система – это способ организации данных на физических носителях информации (винчестеры, флешки и т.д.). Главной ее функцией является определение, каким образом на жестком диске будут записаны Ваши файлы и предоставления доступа операционной системе к ним.

Кодирование графической информации

Идеальная система сохранения будет нейтральным каналом связи для передачи информации в будущее. Этот канал не должен повреждать или изменять переданные сообщения каким-либо образом. Вы могли бы представить себе систему цифрового сохранения как черный ящик, в который вы можете поместить бит-потоки и из которого вы сможете снять их в любое время в будущем. Если система заслуживает доверия, любой документ или другой цифровой объект, сохраненный и извлеченный из системы, будет аутентичным.

Однако анализ предыдущих разделов показывает, что это не может иметь место для цифровых объектов. Процесс сохранения цифровых объектов принципиально отличается от процесса сохранения физических объектов, таких как традиционные книги или документы на бумаге. Для доступа к любому цифровому объекту мы должны извлекать сохраненные данные, восстанавливать, при необходимости, логические компоненты, извлекать или комбинировать битовые строки из физических файлов, восстанавливать любые отношения между логическими компонентами, интерпретировать любые синтаксические или презентационные метки или коды и вывод объекта в форме, подходящей для использования лицом или бизнес-приложением.

В свою очередь жесткий диск – это набор огромного количества кластеров (области диска определенного размера, основной функцией которых является хранения данных)

FAT – File Allocation Table, что переводится как: таблица размещения файлов. Максимальный размер тома в данной системе 128Гб, максимальный размер кластера – 64 кб.

На смену FAT пришла NTFS – New Technology File System – Файловая Система Новой Технологии. Максимальный размер кластера здесь – 4кб. Размер тома - 2ТБ.

Таким образом, невозможно сохранить цифровой документ как физический объект. Можно сохранить способность воспроизводить документ. Все, что существует в цифровом хранилище, не имеет такой формы, которая имеет смысл для человека или для бизнес-приложения. Сохранение информационного объекта в цифровой форме завершается только тогда, когда объект успешно выводится. Реальный объект не столько извлекается, сколько воспроизводится при обработке физических и логических компонентов с помощью программного обеспечения, которое распознает и правильно обрабатывает файлы и типы данных.

Один кластер может хранить данные только одного файла. То есть, если файл весит 3 кб, а файловая система - FAT32, то занимать такой файл на жестком диске будет 32 кб.

Вот еще один пример: файл, размером 8 кб будет полностью занимать 2 кластера в системе NTFS и 8 кб на жестком диске и один кластер в системе FAT32, но при этом аж 32 кб на жестком диске. Представьте, если таких файлов наберется много.

Отсюда следует вывод, что, если перевести жесткий диск на 80 Гб из FAT32 в NTFS, то можно освободить около 1 Гб свободного места.

Итак, минимальным адресуемым элементом жесткого диска является кластер , размер которого зависит от типа используемой таблицы размещения файлов FAT (или NTFS) и емкости жесткого диска. Таблица FAT16 позволяет адресовать 216 = 65536 кластеров, что приводит к большим размерам кластеров на жестких дисках большой емкости и нерациональному использованию дискового пространства.

Таблица FAT32 логически разбивает жесткий диск на кластеры, содержащие по восемь секторов. Таким образом, независимо от информационной емкости жесткого диска размер кластера составляет 4 Кбайта .

Пример 5. Какой информационный объем будет занимать текстовый файл, содержащий слово «информатика», сохраненный в кодировке Windows на гибком магнитном диске формата 3,5”, на жестком диске 50 Гбайт с FAT16 и с FAT32?

Информационный объем текста равен:

1 байт * 11 = 11 байт

На гибком диске этот файл будет занимать один сектор, т.е. 512 Кбайт.

На жестком диске с FAT16 файл будет занимать один кластер, объем которого равен:

50 Гбайт: 65536 = 800 Кбайт

На жестком диске с FAT32 файл будет занимать один кластер, объем которого равен 4 Кбайта.

Каждый файл на диске занимает определенное количество секторов (кластеров). Кластеры нумеруются и каталог диска содержит указание на начало файла (содержит номер первого кластера файла). Информация о последовательность кластеров (номера кластеров), в которых хранится файл, содержится в таблице FAT.

В процессе работы компьютера могут происходить сбои (зависание программ, внезапное отключение питания и др.) в результате происходит неправильное завершение работы приложений и операционной системы, что может приводить к повреждению отдельных кластеров и файлов. Могут появиться сбойные (нечитаемые) кластеры, в каталогах могут быть изменены имена файлов, а в таблицах FAT могут появиться нарушения в цепочках размещения файлов (некоторые цепочки могут быть оборваны, один и тот же кластер может принадлежать различным файлам и др.).

Для восстановления файловой системы используются специальные программы. В операционной системе Windows такой программой является служебная программа Проверка диска , которая автоматически запускается при загрузке Windows после неправильного завершения работы или может быть при необходимости запущена пользователем в произвольный момент (Пуск – Выполнить –cmd – chkdsk ).

С течением времени в процессе записи и удаления файлов происходит их дефрагментация, т.е. нарушается первоначальное размещение файлов в последовательно идущих друг за другом кластерах. В результате файлы могут быть размещены в кластерах, хаотически разбросанных по всему диску, что замедляет доступ к ним и может привести к преждевременному износу жесткого диска.

Рекомендуется периодически проводить дефрагментацию дисков, т.е. восстановление первоначального упорядоченного размещения файлов в последовательных секторах. Дефрагментация дисков осуществляется с помощью специальных программ, в состав входит служебная программа Дефрагментации.

Узнать размер кластера:

1. Запустить программу Дефрагментации – Анализ – Вывести отчет

2. Создать текстовый файл (txt)? Содержащий один символ, посмотреть в его свойствах, сколько места он занимает на диске – это размер кластера

1.4 Определение объёмов различных носителей информации

Если говорить об информации в целом, то измеряется она в байтах. Измерение в этих единицах началось с далёкого 1956 года. Тогда этой величины вполне хватало. Чтоб было понятней, о какой величине идёт речь, скажу Вам, что 1 байт = 1 символ. С развитием технологий увеличивался и объем информации, и измерять большой объем информации в байтах стало неудобно. Тогда появились приставки килобайт (КБ), мегабайт (МБ), гигабайт (ГБ), терабайт (ТБ) и т.д.

Сравним эти величины:

1 Кб (один килобайт) = 1024 байта, и это объем информации приблизительно в один печатный лист А4-го формата;

1 Мб (один мегабайт) = 1024 килобайта, и это объем информации уже приличного томика страниц на 600-700!

1 Гб (один гигабайт) = 1024 мегабайт, и это уже целая библиотека из 1024 книг по 600 страниц!

1 Тб (один терабайт) = 1024 гигабайта, этот объем информации сравним со средней Европейской библиотекой, где содержится около 8 миллионов книг. Для примера, в Российской государственной библиотеке находится около 43 миллионов единиц.

Носители информации характеризуются информационной емкостью, то есть количеством информации, которое они могут хранить. Наиболее информационно емкими являются молекулы ДНК, которые имеют очень малый размер и плотно упакованы. Это позволяет хранить огромное количество информации (до 1021 битов в 1 см3), что дает возможность организму развиваться из одной-единственной клетки, содержащей всю необходимую генетическую информацию.

Современные микросхемы памяти позволяют хранить в 1 см3 до 1010 битов информации, однако это в 100 миллиардов раз меньше, чем в ДНК. Можно сказать, что современные технологии пока существенно проигрывают биологической эволюции.

Однако если сравнивать информационную емкость традиционных носителей информации (книг) и современных компьютерных носителей, то прогресс очевиден. На каждом гибком магнитном диске может храниться книга объемом около 600 страниц, а на жестком магнитном диске или DVD - целая библиотека, включающая десятки тысяч книг.

Сравним объем и вид информации относительно носителей, на которые эту информацию можно записать.

- Дискета емкостью 1,44 Мб. Когда-то дискета была основным доступным носителем цифровой информации, т.к. записать на неё можно было действительно много чего. Теперь же дискеты используют в основном бухгалтера для хранения электронных ключей и подписей. Причина банальна – на дискете мало места для хранения современной информации. На дискету можно записать одну, две фотографии, сделанных на мобильном телефоне с 3х мегапиксельной камерой; пять, десять Word, Excel документов.

- Флэшка емкостью 1 Гб. На флэшку емкостью 1 Гб можно записать: один фильм, относительно неплохого качества; около 200 музыкальных файлов в формате.mp3; около 200 фотографий хорошего качества; множество документов и программ небольшого размера.

- CD диск емкостью 700 Мб. На CD диск можно записать: один фильм в формате.avi, в относительно хорошем качестве; около 150 музыкальных файлов в формате.mp3; около 150 фотографий хорошего качества; множество документов и программ небольшого размера.

DVD диск емкостью 4,7ГБ. На DVD диск можно записать: один фильм в формате DVD или HDTV; 4-5 фильмов в формате.avi хорошего качества; около 1200 музыкальных файлов в формате.mp3; около 1000 фотографий хорошего качества; оооочень много документов и программ.

- Винчестер емкостью 120 Гб. Тут, чтобы не расписывать до документов, сравню с количеством фильмов, которые можно записать на такой винчестер. Так вот, на винчестер емкостью 120 Гб можно записать 25 фильмов в DVD или HDTV качестве!

Для определения информационного объема, например учебника, будем использовать кодировку КОИ-8, в которой 1 символ кодируется 1байтом (8 битами). Для этого воспользуемся формулами:

Информационный объем страницы =

Количество символов в строке * Количество строк;

Информационный объем учебника =

Информационный объем страницы * Количество страниц.