вторник, 12 июля 2016 г.

Инструменты анализа форматов для архивистов, часть 1


Заметка профессионального разработчика программного обеспечения Гэри МакГэфа (Gary McGath - на фото) была опубликована 25 мая 2016 года на его блоге «Сумасшедшая наука о файловых форматах» (Mad File Format Science), который посвящён «файловым форматам, проверке структуры файлов, программному обеспечению для архивации и прочим странным вещам».

Обеспечить долговременную сохранность файлов не так легко - недостаточно просто записать их на носитель информации. Как достаточно тонко подметил сайт xkcd (см. http://xkcd.com/1683 ), здесь возникает ряд других проблем. Будет ли программное обеспечение будущего в состоянии читать сегодняшние файлы без потери информации? Если да, смогут ли люди определить, что эти файлы содержат и каково их  происхождение?

Электронные архивы и библиотеки хранят файлы для будущих поколений точно так же, как их физические аналоги хранят книги, фотографии и произведения искусства. Электронные учреждения несут похожую ответственность за обеспечение сохранности электронных документов. В некотором смысле электронные данные создают больше проблем, поскольку файловые форматы изменяются быстрее, чем естественные языки. С другой стороны, эффективное использование метаданных позволяет файлу «нести свою историю» вместе с собой.

По этим причинам важно иметь возможность в деталях определить особенности структуры файлов. Для этой цели недостаточно просто использовать команду "file" [в Linux], поэтому разработчики создали ряд инструментов с открытым исходным кодом для проверки качество поступающих в архивы документов. Эти инструменты анализируют файлы, сообщая о тех из них, которые явно повреждены или могут вызвать проблемы, а  также показывают, насколько подробно или сдержанно файлы описываю сами себя. Можно выделить следующие проблемные вопросы:
  • Точная идентификация формата: Недостаточно знать MIME-тип. Разница в версиях может иметь значение для совместимости программного обеспечения, к тому же для форматов устанавливаются различные "профили" - ограничения формата при использовании его для определенных целей. Например, PDF/A – это профиль формата PDF, требующий наличие у файла определенных структурных свойств и не допускающий внешних зависимостей. Формат PDF/A лучше подходит для целей архивного хранения (на это, собственно, указывает индекс A), чем большинство других разновидностей формата PDF.

  • Долговечность формата: Программное обеспечение, способное читать любой конкретный формат, постепенно морально устаревает, если нет достаточной заинтересованности в его обновлении. О том, какие форматы окажутся самыми долговечными, можно лишь гадать, но надёжнее делать ставку на открытые и широко распространенные форматы, чем на проприетарные или малоизвестные.

  • Строгая проверка соответствия спецификациям: Многие программные проекты следуют закону Постеля (Postel's Law): «Будьте либеральны в том, что Вы принимаете, и консервативны в том, что отправляете». Архивное программное обеспечение, однако, в этом отношении стоит по обе стороны баррикад. Оно принимает файлы для последующего их представления аудитории, которая в данный момент еще даже не существует. Это означает, что оно должно быть консервативно в отношении того, что  принимает.

  • Извлечение метаданных: Файл с большим количеством идентифицирующих метаданных, такой, как XMP или Exif, является боле подходящим кандидатом для принятия на архивное хранение, чем файл с минимальными метаданными. Архив становится намного полезнее, если предоставляет богатые метаданные, по которым можно ввести поиск.
Эти проблемы решаются рядом приложений с открытым исходным кодом, и о некоторых из них будет рассказано ниже. Большинство этих приложений создано разработчиками программного обеспечения, являющихся членами библиотечного сообщества и сообщества специалистов по обеспечению долговременной сохранности. Некоторые решения работают с небольшим количеством форматов,  но зато очень глубоко и детально; другие охватывают много форматов, но анализируют их не столь подробно. Если одни приложения просто идентифицируют файловые форматы, то другие также извлекают содержащиеся в файлах метаданные.

(Продолжение следует, см. http://rusrim.blogspot.ru/2016/07/2.html )

Гэри МакГэф (Gary McGath)

Источник: блог «Mad File Format Science»
https://lwn.net/Articles/688396/

Комментариев нет:

Отправить комментарий