четверг, 14 июля 2016 г.

Инструменты анализа форматов для архивистов, часть 3


(Продолжение, предыдущую часть см. http://rusrim.blogspot.ru/2016/07/2.html )

DROID и PRONOM

Архивистам часто нужно обрабатывать большие пакеты файлов, и им нужна общая картина того, с чем они имеют дело: им нужно знать, сколько имеется файлов в каждом из форматов, сколько подверженных риску файлов, какова статистика использования форматов по годам и месяцам, в какой мере используются старые версии форматов, и т.д. В этом эффективен такой инструмент, как DROID, который распространяют Национальные Архивы Великобритании по лицензии BSD. Главная задача данного инструмента - проверять и идентифицировать файлы при их вводе в архивную систему. DROID использует разработанную Национальными Архивами базу данных о форматах PRONOM, идентифицируя форматы файлов на основе их сигнатуры или «магического числа».

Хотя по функциям он похож на команду «file», DROID проводит более детальное различие между форматами. Например, PRONOM различает в рамках формата TIFF основанный на TIFF универсальный формат для цифровых фотокамер DNG, TIFF-FX для факсимильных изображений и файлы Exif, представляющие собой TIFF-метаданных в отсутствие изображения.

DROID хорош при обработке больших пакетов файлов. Анализ проводится в два этапа. Сначала пользователь «профилирует» набор файлов, собирая информацию о них в единый документ. В командной строке пользователь может указать фильтры, говорящие DROID о том, какие файлы следует профилировать. К сожалению, в языке фильтров сложно разобраться, а документация не столь полезна, как могла бы быть, но, к счастью, существует Google-группа ( https://groups.google.com/forum/#!forum/droid-list ), участники которой могут ответить на возникающие вопросы.

На втором этапе формируется отчет. Одна команда может выполнить сразу оба этапа. Вот относительно простой пример команды с фильтром, отбирающим только PDF-файлы, создающей отчет в виде CSV-файла:
    droid.sh -p "result1.droid" -e "result1.csv" -F "file_ext contains 'pdf'"
Проще запускать DROID через графический интерфейс. В этом случае профилирование и формирование отчета - отдельные этапы.

DROID мало занимается проверкой формата и извлечением метаданных, его сильной стороной является идентификация файловых форматов по их сигнатурам. Это ценно при обработке большого количества поступающих на архивное хранение файлов, с целью отсеять файлы в неподходящих форматах.

ExifTool

Иная направленность у инструмента ExifTool, разработанного Филом Харви (Phil Harvey, см.  http://owl.phy.queensu.ca/~phil/exiftool/ ). Его специальность - манипулирование метаданными и, несмотря на свое название, он знает о метаданных очень многих типов, а не только об Exif. Он может просматривать и модифицировать файлы, и способен на такие ловкие трюки, как назначение автора группе файлов или корректировка метки времени, относящейся к неправильному часовому поясу. Для архивистов он наиболее интересен своей способностью захватывать метаданные из файлов и сообщать о них.

Инструмент в основном «знает» об аудио-, видео- и графических форматах (но не только). Он проводит простую идентификацию формата по его сигнатуре, а также проверку структуры, достаточную для выделения метаданных в файле. ExifTool доступен по лицензии Perl.

Это многоцелевой программный инструмент, с широкими возможностями написания сценариев. Perl-приложения могут использовать его посредством конструкции Image::ExifTool. Другой программный код может использовать интерфейс командной строки инструмента в качестве API, используя флаги -@ и –stay open для передачи команд через стандартное устройство ввода или через файл аргументов. Кроме того, прилагаемая библиотека поддерживает использование интерфейса командной строки в программах на языке C ++.

ExifTool рассматривает все свойства и метаданные файла в качестве «тегов». Команда может запросить конкретные теги или их группы. Приведенная ниже команда выдаст тип файла, MIME-тип и обычное расширение формата:
    exiftool -filetype -mimetype -filetypeextension sample.png
Выдача команды будет выглядеть следующим образом (если предположить, что это действительно PNG-файл):
    File Type                    : PNG
    MIME Type               : image/png
    File Type Extension     : png
Поддерживается ряд вариантов экспорта результатов, в том числе в файлы формата HTML, RDF XML, JSON и в простой текст. Выходные данные могут быть отсортированы, и для некоторых тегов есть варианты форматирования.

(Окончание следует, см. http://rusrim.blogspot.ru/2016/07/4.html )

Гэри МакГэф (Gary McGath)

Источник: блог «Mad File Format Science»
https://lwn.net/Articles/688396/

Комментариев нет:

Отправить комментарий