суббота, 14 мая 2011 г.

США: Конференция MARAC Spring 2011: Новые инструменты для решения проблем, связанных с электронными документами – часть I

Данная статья, написанная Бонни Ведл (Bonnie Weddle),  была опубликована на блоге «l'Archivista» 7 мая 2011 года.

Бонни Ведл, электронный архивист Архивов штата Нью-Йорк

На первой сессии весенней Средне-Атлантической конференции региональных архивов 2011 года (Mid-Atlantic Regional Archives Conference, MARAC) в центре внимания были три исследовательских проекта в области электронных документов, спонсируемых Национальными Архивами США. Все они интригующие и обещающие облегчить работу многим электронным архивистам.

Питер Баджси (Peter Bajscy) из Национального центра по прикладному применению суперкомпьютеров (National Center for Supercomputing Applications, NCSA) подробно рассказал об облачных решениях, которые он и его коллеги разработали для того, чтобы справиться с проблемами, связанными с ростом числа и сложности файловых форматов, нарастающими объемами электронных документов, увеличивающейся сложностью аппаратного и программного обеспечения сложности и негарантированной поддержкой проприетарного (коммерческого) программного обеспечения. У меня не было возможности лично опробовать эти инструменты, но я, конечно, сделаю это при первой же возможности. Это:

Реестр программного обеспечения, используемого для конверсии (Conversion Software Registry, http://isda.ncsa.uiuc.edu/NARA/csrAbout.html ): Реестр и свободно доступный инструмент поиска, позволяющие пользователям, решающим задачу преобразования (конверсии) файлов из одного формата в другой, указать формат документов, с которыми они работают, и желаемый формат для длительного сохранения, а затем просмотреть список соответствующих инструментов для конверсии. В реестре сейчас описано более 2000 программных продуктов.

Система «Полиглот» (Polyglot, http://isda.ncsa.uiuc.edu/NARA/conversion.html ): облачный инструмент конверсии с открытым программным кодом, который можно использовать для работы секретной и конфиденциальной информацией.

Система Versus (в разработке): инструмент, сравнивающий оригинальные и преобразованные (конвертированные) версии одного и того же электронного объекта – объекты могут быть как простые, так и сложные - и оценивающий имевшие место потери информации. Результаты таких сравнений могут быть использованы для выбора того способа обеспечения долговременной сохранности, использование которого приводит к наименьшим потерям.

Баджси и его команда также заинтересованы в разработке универсальной программы просмотра файлов (Universal File Viewer) – облачной службы, обеспечивающей предварительный просмотр файлов, закодированных в любом формате.

Баджси также предложил аудитории подумать над рядом вопросов:
  • Его команда способна обеспечить, в среднем, 1537 конверсий файлов в час (при 50% использовании однопроцессорной виртуальной машины и её 50% виртуальной полезной загрузке). Удовлетворяет ли такая скорость конверсии потребностям архивов?

  • Со сколькими файловыми форматами приходится работать каждому из участников?

  • Будет ли востребована универсальная программа просмотра файлов?

  • Жизнеспособен ли подход, когда сами данные определяют выбор файлового формата для длительного хранения (data-driven file format selection)?

  • Является ли допустимым подходом для оценки того, правильно ли сформирован файл, использование анализа на робастность по отношению к программному обеспечению (т.е. не окажется ли выяснение того, какое количество прикладных программ способно открыть данный файл более практичным способом определения «правильности» файла, чем его проверка на соответствие спецификациям формата)?

  • Чем может быть полезна управляемая данными (data-driven) оценка качества функциональных средств ввода/вывода, имеющихся у программного продукта?
Затем Уильям Андервуд (William Underwood) из Технологического научно-исследовательского института Джорджии (Georgia Tech Research Institute) рассказал о своей работе над новыми инструментами для определения файловых и типов документов, и для извлечения метаданных.

Архивистам нужно уметь определять форматы файлов для решения ряда задач:
  • Для проверки соблюдения соглашений о передаче данных на архивное хранение и соответствия переданных файлов сведениям в передаточных описях,
  • Для чтения / воспроизведения файлов,
  • Для преобразования файлов в стандартные форматы или форматы для длительного хранения,
  • Для извлечения информации из файлов-архивов (таких, как .zip, .arc),
  • Для восстановления паролей и расшифровки, а также для восстановления поврежденных файлов.
В некоторых случаях для идентификации неизвестных форматов можно использовать внешние идентификаторы (например, расширения файлов, MIME-типы). Однако иногда внешних идентификаторов недостаточно, а популярные аналитические инструменты (такие, как команда file в Linux и используемый ею реестр сигнатур типов файлов - magic file) имеют ряд ограничений: их выдача иногда неоднозначна; затем, они проверяют как типы файлов, так и выходные метаданные, и точность определения набора символов и языка текстовых файлов у них далека от идеальной.

Андервуд и его коллеги стремятся улучшить команду file в ОС Linux и используемый ею реестр сигнатур, с тем, чтобы они выдавали сигнатуры форматов, которые можно было бы  сравнить с сигнатурами известных файловых форматов. На данный момент, ими определено примерно 850 сигнатур файловых форматов и собраны образцы около 700 различных типов файловых форматов. Они также создали базу данных сигнатур, которую, как впоследствии отметил модератор сессии Марк Конрад (Mark Conrad), передали в Национальные Архивы Великобритании разработчикам реестра файловых форматов PRONOM. Эти сигнатуры  были включены в созданное Национальными Архивами Великобритании программное обеспечение с открытым исходным кодом «Друид» (Droid), служащее для идентификации форматов.

Андервуд и его коллеги также тестируют новые методы распознавания типов документов и извлечения описательных метаданных. Основное внимание они уделяют унаследованным документам, форматы которых не соответствуют XML-описаниям типа документа. Они изучают интеллектуальную форму (т.е. структуру) этих документов, затем строят «интеллектуальные грамматики» для каждого типа документа (например, для меморандумов), и используют интеллектуальные методы для извлечения имен, дат и других элементов метаданных.

По ходу доклада Андервуд отметил, что после того, как он и его коллеги извлекли эти метаданные, они могут написать правила, позволяющие нам создавать описания на уровне отдельных объектов (item-level descriptions). Далее, они могут написать правила, дающие возможность на основе этих описаний создавать описания дел, а затем и групп дел. Меня действительно поразило это заявление, из которого следует, что автоматизация способна привести к некоторым весьма интригующим - и для многих, тревожным - изменениям в практике составления архивных описаний.

Андервуд и его команда надеются применить метод индукции к образцам определенного вида документов, автоматически выработать «документную грамматику» и расширить возможности своих методов извлечения, с тем, чтобы они включали физические элементы документарной формы (например, шрифты) и документные грамматики физических форм. Всё это очень интересно!

(Окончание следует)

Бонни Ведл (Bonnie Weddle)

Источник: блог l'Archivista
http://larchivista.blogspot.com/2011/05/marac-spring-2011-new-tools-to-address.html?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+ArchivesBlogs+%28ArchivesBlogs%29

Комментариев нет:

Отправить комментарий