среда, 13 августа 2014 г.

Как работает электронный архив Управления государственных документов штата Новый Южный Уэльс, Австралия


Статья Ричарда Лехейна (Richard Lehane), электронного архивиста Управления государственных документов штата Новый Южный Уэльс, была опубликована 28 июля 2014 года на сайте Управления, посвящённом инициативе «Выдержать проверку временем – защитить наше электронное будущее» (Future Proof – Protecting our digital future).

Фото: Denise Carbonell

Прямо сейчас группа «Электронного архива» Управления государственных документов австралийского штата Новый Южный Уэльс переходит от проектной работы над созданием электронного архива к его эксплуатации в штатном режиме. В рамках этого перехода мы публикуем наши методологию и процедуры, открываем доступ общественности к электронным архивам посредством пилотных проектов и приглашаем органы исполнительной власти штата налаживать с нами контакты для того, чтобы инициировать проекты миграции. Мы намерены в максимальной степени делиться информацией о нашем подходе к обеспечению сохранности электронного контента и о поддерживающих его инструментах и технологиях. В данном сообщении описываются некоторые из принятых нами ключевых технологических решений.

Вероятно, основной отличительной чертой используемого Управлением подхода к обеспечению сохранности электронных документационных систем является его гибкость. Вместо создания охватывающей все процессы от начала до конца тесно интегрированной системы с фиксированными правилами архивации электронных объектов, мы на основе проектного подхода разработали методологию, которая, по нашему мнению, применима для проведения миграции в электронный архив любой государственной документационной системы. В интересах поддержки такого открытого подхода к электронной архивации, мы предпочтительно использовали небольшие, простые и гибкие инструменты, которые можно использовать совместно для достижения целей различных проектов миграции.

Хранение

Весь контент Электронного архива - данные и метаданные - хранится в промасштабированной сетевой системе хранения данных (Network Attached Storage, NAS) EMC Isilon ( http://russia.emc.com/storage/isilon/isilon.htm ). Преимущество этой системы в том, что она позволяет абстрагироваться от таких вопросов управления хранилищами, как целостность потока битов, безопасности, масштабируемость, резервное копирование и восстановление в случае катастроф. Поскольку она внешне выглядит как простая сетевая файловая система, мы получаем все эти возможности, не будучи привязанным к определенному способу хранения файлов (например, к системе управления электронными активами или к системе хранения с контентной адресацией).

Такой «непредубеждённый» характер файловой системы хранения может быть как благословением, так и проклятием. В отсутствие структурированного подхода файловые системы могут стать сильно захламленными. Для организации файловой системы Электронного архива мы использовали протокол Pairtrees for Object Storage (  https://confluence.ucop.edu/display/Curation/PairTree - в рамках данного протокола группа файлов может быть ассоциирована с идентификатором, который отображается в файловой системе как дерево поддиректорий с именами максимум из двух букв – Н.Х.), разработанный Электронной библиотекой Калифорнии (California Digital Library) . Этот протокол включает схему создания для индивидуальных электронных объектов уникальных иерархических структур папок на основе глобально-уникальных идентификаторов (UUID).

В этих уникальных папках мы храним оригинальные электронные объекты, все их дополнительные версии (созданных для целей обеспечения долговременной сохранности или для удобства доступа), извлеченный текст, метаданные и изображения для предварительного просмотра в соответствии с очень простой схемой, показанной на этом изображении.

Метаданные

Одним из основных файлов, которые мы храним вместе электронным объектом, является файл метаданных с именем "metadata.json". Этот файл содержит:
  • Оригинальные метаданные, поступившие вместе с электронным объектом;

  • Дополнительные метаданные, которые были созданы автоматически или вручную в целях дальнейшего описания электронных объектов;

  • Ссылки на поддерживаемую Управлением государственных документов модель государственного аппарата штата во времени (это записи в нашем основном каталоге, см. http://search.records.nsw.gov.au/ ). Эти ссылки обеспечивают контекст для сохраняемых в Электронном архиве документных систем и помогают отыскивать информацию;

  • Ссылки на правила доступа и решения судьбы документов (уничтожения либо передачи на архивное хранение), выпущенные Управлением;

  • Метаданные, нужные для обеспечения долговременной сохранности, процессные метаданные и метаданные, фиксирующие сведения о последовательности ответственного хранения.
Отражая открытость нашего общего подхода, схема этих файлов метаданных сама является открытой: с течением времени она может обновляться, чтобы охватить разнообразные оригинальные метаданные, поступающие в результате выполнения различных проектов. Эту эволюционирующую схему мы называем реестром метаданных (  http://www.records.nsw.gov.au/digitalarchives/metadata/ ). Реестр метаданных включает пользовательский интерфейс, а также очень простой служебный интерфейс, который представляет собой просто JSON-схему (  http://json-schema.org/ ), хранящуюся в публичном Git-репозитории ( см. https://github.com/srnsw/metadata ). Реестр обновляется просто путем внесения изменений в данные, находящиеся в этом хранилище.

Одна из проблем, присущих эволюционирующей схеме метаданных, связана с её хранением в базе данных с тем, чтобы её можно было использовать для выполнения запросов и подготовки отчетов. Большинство реляционных баз данных, поддерживающих язык запросов SQL, рассчитаны на работу с фиксированной, редко меняющейся схемой. Именно поэтому мы используем документно-ориентированную базу данных MongoDB (  http://www.mongodb.org/ ) разряда NoSQL (трактуется как «не совсем SQL» или «не SQL» - Н.Х.) в качестве вторичного хранилища для метаданных (в качестве первичного средства хранения метаданных используются файлы metadata.json на диске). MongoDB поддерживает хранение материалов вроде JSON-документов с динамической схемой и отлично подходит для наших нужд. Мы используем её в сочетании с поисковым сервером Apache Solr (  http://lucene.apache.org/solr/ ), поддерживающим полнотекстовой поисковый индекс и фасетный поиск по контенту Электронного архива.

Действия по обеспечению долговременной сохранности


Наш подход к выполнению действий, необходимых для обеспечения долговременной сохранности сродни подходу к метаданным: он контролируемый, но гибкий. У нас имеется «Реестр путей обеспечения сохранности» (preservation pathways registry, http://www.records.nsw.gov.au/digitalarchives/pathways ), который, как и реестр метаданных, может с течением времени обновляться с тем, чтобы отразить различные решения по обеспечению сохранности, принятые в ходе различных проектов. При выполнении проектов миграции мы оцениваем риски для долговременной сохранности и требования по доступу к файловым форматам, охватываемым этим проектом. Если принимается решение о преобразовании в иной файловый формат, то оно документируется в реестре путей обеспечения сохранности. Для однозначной идентификации файловых форматов мы используем поддерживаемый Национальными Архивами Великобритании реестр файловых форматов PRONOM ( http://apps.nationalarchives.gov.uk/PRONOM/Default.aspx )  и инструмент DROID ( http://www.nationalarchives.gov.uk/information-management/manage-information/policy-process/digital-continuity/file-profiling-tool-droid/ ). В зависимости от потребностей различных проектов, мы используем дополнительные инструменты, такие как Apache Tika ( http://tika.apache.org/ - инструмент контент-анализа, способный извлекать метаданные и контент из различных объектов – Н.Х.) и Exiftool (  http://www.sno.phy.queensu.ca/~phil/exiftool/ - инструмент для чтения и модификации метаинформации из файлов разнообразных форматов – Н.Х.) для более детального определения свойств электронных объектов.

Проекты миграции

Везде, где это было возможно, мы использовали существующие средства, а не создавали свои собственные. В рамках проектов миграции в электронный архив для управления рабочими процессами (workflow), планирования задач и поддержки коллективной работы мы используем систему Basecamp ( https://basecamp.com/ ). С каждым завершенным проектом увеличиваются наши знания и растет пул повторно используемых решений и практики. Помимо ведения реестров метаданных и путей обеспечения сохранности, мы сохраняем информацию о том, как мы преодолевали конкретные проблемы обеспечения долговременной сохранности, какие полезные инструменты и прочие ресурсы нашли, в вики-системе Confluence ( https://www.atlassian.com/software/confluence ). Для управления самостоятельно разработанным кодом мы используем JIRA ( https://www.atlassian.com/software/jira ) - также продукт фирмы Atlassian, и мы все свои наработки, насколько это возможно, выкладываем на Github (  https://github.com/srnsw/ ).

Ричард Лехейн (Richard Lehane)

Источник: сайт архивно-документационной службы штата Новый Южный Уэльс, Австралия
http://futureproof.records.nsw.gov.au/how-we-do-digital-archiving-at-state-records-nsw/ 

1 комментарий:

  1. Вобще-то молодцы! Есть настойчивое желание более детально изучить их опыт.

    ОтветитьУдалить