вторник, 25 ноября 2008 г.

Конверсия коллекции электронных документов датских Национальных Архивов

Тезисы доклада Кирстен Вилладсен Кристмар (Дания) на предстоящей в декабре конференции DLM-форума в Тулузе (Франция)

Главная тема данного доклада - обеспечение долговременной сохранности электронных документов.

Государственный архив Дании - первое архивное учреждение в мире, которое завершает конверсию своей коллекции электронных документов. Основные результаты:
  • стратегия конверсии работает в реальной жизни,

  • конверсия может быть выполнена в полуавтоматическом режиме.
Датская стратегия обеспечения долговременной сохранности электронных документов основана на том, что документы передаются на хранение в платформенно-независимых форматах,  и время от времени проводится  преобразование (конверсия) данных в современные форматы.

Государственные органы передают электронные документы в датские Национальные Архивы с начала 1970-х годов. В 2005 году Департамент культуры предоставил Национальным Архивам внеочередной грант в 2 миллиона евро на преобразование всех электронных документов, переданных на хранение до 2000 года, в ныне используемые стандартные форматы для  долговременного хранения. Эта часть коллекции состоит из извлечений из разного рода баз данных, когда данные структурированы в файлах и на уровне полей данных. Используемый в настоящее время подход к сохранению таких данных предусматривает, что структурированные таким образом данные преобразуются:
  • в реляционные структуры,
  • с использованием стандартизированного набора символов,
  • с использованием стандартизированных представлений, например, дат,
и этот процесс электронным образом документируется.

В рамках этого гранта также проводится оцифровка коллекции фильмов и звукозаписей датского Государственного архива.

Преобразованию подлежали 1292 массивов данных, извлеченных из систем управления базами данных государственных органов, в т.ч. из систем электронного документооборота. До конверсии общий объём коллекции составлял 1024 гигабайта. Данные были переданы на хранение в платформенно-независимых форматах, но с использованием различных наборов символов и различных структур, включая иерархические структуры баз данных. Некоторые данные были упакованы. Нужно было также провести конверсию 1,800 звукозаписей и 200 видеофрагментов.

Для завершения проекта потребовалось четыре года. В 2005 году был подготовлен детальный план проекта и составлен его бюджет. В 2006 году шла подготовка выполнению конверсии, которая  включала:
  • Реструктуризацию данных;

  • Регистрацию данных в Daisy - архивной базе данных датских Государственных архивов. База Daisy доступна на сайте www.sa.dk ;

  • Оцифровку документации, переданной вместе с данными;

  • Создание XML-схемы для описания исходных данных, включая их структуру, наборы символов и т.д.;

  • Создание компьютерной программы под названием KonVold. Используя XML-схему, KonVold может конвертировать большинство исходных данных в текущие  форматы для долговременного хранения. Тем не менее, в некоторых случаях пришлось написать небольшие вспомогательные программы  для предварительной конверсии данных.
Собственно конверсия началась в конце 2006 года. Её выполняли шесть временных сотрудников, имеющих опыт в области ИТ-технологий, но не владеющих навыками программирования.  Им помогали один-два программиста, а также  архивист с более чем 30-летний опытом работы в данной области. Управлял проектом работавший полный рабочий день менеджер проекта.

К началу июня 2008 года конверсию прошли около 80% данных, и, как и планировалось, завершение проекта ожидается в конце этого года. Проект развивался почти так, как и было запланировано. Благодаря использованию программы KonVold, стало возможным преобразовать больше данных, чем предполагалось. Среди данных, которые не удалось конвертировать, в основном были плохо документированные или совсем не документированные данные.

Кирстен Вилладсен Кристмар (Kirsten Villadsen Kristmar),
Национальные Архивы Дании

Источник: сайт конференции DLM-форума
http://www.dlm2008.com/img/pdf/villadesn_ab_gb.pdf

Дополнительная информация из доклада Юна Ёнеямы (Yun Petersen Yoneyama) "Creating Access to Electronic Records: Two-Level Approach" (из сб. трудов конференции)

В настоящее время в Национальных  Архивах Дании хранится свыше 3000 «выдержек» из баз данных.

Задача проекта по обеспечению доступа к электронным архивным документам – базам данных (TGP, задуман в 2005, развёрнут в 2006) – проработка и создание системы доступа к электронным документам.

В датском законодательстве, формат электронных документов в деталях установлен исполнительным приказом (министерский приказ 342 от 11 марта 2004 г.). Приказ определяет, каким образом подлежащие архивному хранению документы передаются в государственные архивы. Описывается структура, допустимые файловые форматы, наборы символов и т.д. Данные передаются в «плоских» файлах, а метаданные – в ряде вспомогательных файлов. Один из вспомогательных файлов содержит структурную информацию, описывающую, как воссоздать базу данных с тем же содержимым.

Ограничения: доступ не через Интернет, а из читального зала; поддержка только текущей версии стандарта. Последнее ограничение не составило проблем, т.к. параллельно шёл проект «Конверсии формата и структуры» (FSK), результаты которого дали возможность конвертировать более старые архивные документы в текущий формат.

Национальные Архивы Дании используют в отношении баз данных стратегию конверсии, поэтому сохраняются только данные и структура, а не оригинальная ИТ-система.

В рамках проекта была создана система для доступа к архивным электронным документам – базам данных. Модуль безопасности различает свободно доступные документы, а также документы, доступные только архивистам и выдаваемые. При выдаче документа доступ может предоставляться ко всему документу, к его части, через предопределенные средства поиска – либо может предоставляться доступ только к документации по базе данных.

Пользовательская часть системы (по имени Sofia) представляет собой модульную структуру, в которой на настоящий момент есть 5 доступных пользователям модулей, и ещё 2 модуля для администраторов. Помимо двух поисковых модулей, мы разработали модули доступа к оригинальной документации, к метаданным, а также к заметкам, сделанным при предварительной подготовке архивного документа к доступу. Система Sofia доступна со всех ПК внутренней сети, а также через «тонкий клиент» в большинстве читальных залов. Помимо Sofia, в ходе проекта были разработаны вспомогательные программы для администрирования пользователей, для загрузки баз данных и др.

В общем, система позволяет получить доступ к любому архивному документу, который может быть восстановлен в виде базы данных. К этой категории относится большинство из более чем 3000 собранных Национальными Архивами Дании архивных электронных документов. Исключением являются оцифрованные аудио и видеозаписи.

Модуль для систем управления досье

Первый поисковый модуль, созданный нами, был модуль для систем управления досье (МСУД). Он дает пользователям простой интерфейс подачи запросов, разработанный таким образом, чтобы им легко могло пользоваться большинство пользователей.

МСУД разработан так, чтобы поддерживать известные, используемые ныне варианты работы с системами определенного типа. Данные аутентичны, но средства поиска ни коим образом не пытаются эмулировать оригинальные системы. Наоборот, система спроектирована как универсальное приложение, способное работать с целым классом систем – системами управления досье [судя по всему, речь идет о содержимом электронных картотек-реестров]. Этот класс систем был выбран из-за того, что в Национальных Архивах собрана большая коллекция данных из подобных систем, и есть понятные потребности в их использовании. Основной сценарий – поиск определенного досье, когда неизвестен его номер. Вспомогательный сценарий – экспертиза ценности бумажных документов, зарегистрированных в этих системах, поскольку соответствующие бумажные документы в ближайшее время будут проходить экспертизу ценности.

Используя такой подход, оказалось возможным написать одну программу, которая позволяет работать с любой из систем такого класса, и поддерживает основные варианты поиска.

Системы управления досье использовались с середины 80-х годов, и это были стандартные продукты, выпускавшиеся узким кругом разработчиков. Существует всего несколько (9 основных) видов таких систем, соответствующих большинству заархивированных баз данных. Системы управления досье использовались для регистрации документов и формирования их в дела (досье). Более старые системы содержат только регистрационные данные, в то время как более новые также могут хранить сохраненные или отсканированные электронные документы.

Модуль предлагает стандартный набор поисковых полей, независимо от номенклатуры полей, использовавшейся в оригинальной системе. Точно также стандартизированы поля при выдаче результатов поиска. В итоге модуль может использоваться для работы с группой из 600 заархивированных баз данных. Стандартизация полей облегчает освоение системы и не требует переучивания при работе с другой базой данных.

Рис.1 Интерфейс модуля для систем управления досье

Интерфейс модуля для систем управления досье в системе Sofia представляет собой простую машину поиска (см. рис. 1). Чтобы использоваться в датской государственной администрации, системы управления досье должны поддерживать одни и те же основные виды связей между классификационной схемой и досье, и между досье и документами. Стандартизация полей возможно из-за однотипности подобных базовых связей. Технически, все поля для каждого архивного документа - базы данных описаны в XML-файле. Каждое поле в XML-файле указывает на поле в модели базы данных, и ему присвоен тип данных, который описывает, какие поисковые операции поддерживаются для данного поля. Например, для текстовых полей поддерживается поиск с использованием символов-заместителей; для полей типа «дата» - поиск в диапазоне дат.

Рис.2 Форма поиска

Рис.3 Форма вывода результатов поиска

На рис.3 показано, в каком виде выдаются результаты поиска. Каждому документу соответствует отдельная строка; досье, содержащему несколько документов, соответствует несколько строк. Можно сокращения объёма выдачи использовать фильтры, когда будут видны только досье (или даже только рубрики классификационной схемы).

Архивисты пользуются данным модулем с момента выпуска первой версии системы Sofia в марте 2008 года. Они нашли его полезным  для решения тех задач, на которые он был рассчитан. Простота пользовательского интерфейса в данном случае является плюсом – многие пользователи отмечали, что система настолько проста, что с самого начала её использования они могут получать полезные результаты.

Доступ на основе модели

Для обработки архивного документа – базы данных при подготовке её к доступу, мы разработали метод организации доступа на основе модели. В качестве модели верхнего уровня мы разработали типовую архивную модель системы управления досье.

Модель содержит наиболее часто встречающиеся виды полей, и их взаимосвязи, используемые государственными органами Дании. В каком-то смысле, архивные модели отражают то, что архивист предполагает обнаружить в архивной базе данных определенного типа, вне зависимости от особенностей её структуры и наименования сохраненных полей данных.

Типовая модель затем уточняется, и создаются модели, специфические для систем определенного вида, по одно для каждого вида систем, использованных для создания архивных баз данных. В этих моделях описывается, где расположены определенные данные.

Рис.4 Типовая модель системы управления досье

Типовая модель системы управления досье – очень простая, состоит из 3 основных элементов (классификационная схема, досье и документ), а также трёх вспомогательных элементов (см. рис.4). Все поля данных, которые могут быть полезны для поиска и извлечения досье и документов, могут быть распределены по этим трем элементам.

Подготовка к доступу архивных баз данных систем управления досье

Архивные базы данных систем управления досье не могут быть использованы в соответствующем специализированном модуле без проведения определенной подготовительной работы. В идеальном мире, специфической модели было бы достаточно для подключения архивного документа-базы данных к системе доступа. На практике, архивист проводит подготовительные операции, использую специфическую модель скорее в качестве шаблона, а не готового ответа на вопрос о том, где располагаются данные.

В ходе подготовительной работы устанавливается соответствие между полями модели и полями заархивированной системы управления досье. При этом архивисту приходится смотреть и на сами сохраненные данные. Например, полезные данные иногда распределены по нескольким полям; или же записаны в совсем другом поле. Например, текстовое описание досье часто расположено в поле «Название», однако иногда поле полные данные для поиска можно найти в поле «Комментарий». Даже тогда, когда два агентства пользуются одним и тем же программным обеспечением, данные могут располагаться в различных местах, из-за различий в практике использования систем агентствами.

Результатом подготовительной работы является набор представлений (views) базы данных, где каждое представление описывает, где находятся данные для элементов модели. В модели это записано на языке SQL в виде индивидуальных поисковых запросов, которые модуль умеет комбинировать в сложные запросы.

Обычно на подготовку доступа к базе данных требуется два-три дня. Вся процедура, которая включает извлечение документа-базы данных из системы долговременного хранения, выполнение подготовительных операций и контроль качества, обычно занимает неделю.

Модуль для работы с регистром

Чтобы преодолеть определенные ограничения и недостатки модуля для систем управления досье, в версии Sofia 1.1 (ноябрь-декабрь 2008 г.) был разработан ещё один поисковый модуль – модуль для работы с регистром (далее – МР). Мотивацией для его создание было желание дать пользователям возможность проводить собственные варианты поиска про заархивированной базе данных, но чтобы при этом не требовалось знания SQL. Модуль МР более сложен для пользователей.

Анализ опыта практической работы с архивными базами показал, что нужны и доступ к документации, и возможность выполнения запросов. Вместо доступа к оригинальной документации был реализован доступ к структуре метаданных и к описаниям таблиц и их элементов. При этом поддерживается возможность отбора нужных таблиц для включения в запросы.

Нужные таблицы, а затем и поля таблиц отбираются путем перетаскивания их мышью. После того, как поля для поиска отобраны, они используются так же, как и обычна поисковая форма.

При работе с МР модулем подготовительной работы для обеспечения доступа не требуется.

Выводы

В конце 2008 года четырёхлетний проект завершается. Создана программная система с дружественным пользователю интерфейсом, способная работать с большой группой заархивированных баз данных (структурированных с соответствии с датским архивным стандартом для электронных документов). Отработан простой и эффективный метод подготовки баз для доступа через систему.

Дополнительная информация из доклада Яна Сёренсена (Jan Dalsten Sorensen) «Пересмотр стандартов передачи электронных документов» (Revising the Standards for Digital Transfers) (из сб. трудов конференции)

Передача ЭД началась в начале 1970-х годов. Конверсия в форматы для длительного хранения выполняется агентствами.

Текущие правила передачи ЭД действуют с 2000 года (с минимальными поправками в 2002 и 2004 году). За это время – 1300 передач данных.

Принципы разработки новых правил
  • Принцип системо-независимости
  • На основе стандартов ISO, W3C и др.
  • Учитывают технологическое развитие, опыт в т.ч. зарубежный
  • Вопросы стоимости передачи (как для архива, так и для агентства), сбалансированность распределения расходов с учетом операций по обеспечению долговременной сохранности
  • Повышения качества процесса передачи
  • Правила должны адекватно поддерживаться существующими технологиями
Что регламентируется:
  • Форматы документов
  • Форматы данных и наборы символов (кодировки)
  • Структура «архивной версии» (=SIP/AIP)
  • Документация и метаданные
  • Терминология
  • Требования по уведомлению и согласованию
Практическая реализация
  • Выпускается министерский приказ
  • Разрабатывается инструментарий тестирования и другие инструменты
  • Руководства по внешнему использованию. Возможность для агентств скачать гипотетический пример и «поиграть» с ним (пример описан в руководстве)
  • Руководства и процедуры по внутреннему использованию
  • Обучение
  • Новые правила начнут действовать с 2010 года … а затем весь процесс начнется сначала!

Комментариев нет:

Отправить комментарий