понедельник, 18 июля 2011 г.

Проблемы архивации баз данных: Подкаст Джеймса Лепена и Кевина Эшли

Данная статья известного британского консультанта и педагога в области управления документами Джеймса Лепена (James Lappin – на фото) была опубликована на его блоге «Thinking Records» (Думая о документах) 9 июля 2011 года.

Считается, что между областью «структурированных данных», сидящих в строках и столбцах баз данных, и областью «неструктурированных данных» (документы, изображения и т.д.) существует глубокая пропасть. На самом деле эти две области взаимосвязаны. Каждая система управления документами содержит внутри себя базу данных, в которой поддерживаются метаданные о хранящихся в системе объектах. Возможность мигрировать / извлекать / обеспечивать сохранность документов ничего не дает, если одновременно не мигрируются / извлекаются / сохраняются метаданные, хранящиеся в базе данных.

В прошлую пятницу я беседовал с Кевином Эшли (Kevin Ashley – на фото), директором Центра компетенции по сохранению электронных материалов (Digital Curation Centre, http://www.dcc.ac.uk/ ), о данном направлении деятельности и о проблемах, связанных с архивированием баз данных. Запись продолжительностью 44 минуты доступна по адресу http://talkingrecords.libsyn.com/ . Прямая ссылка на MP3-файл: http://traffic.libsyn.com/talkingrecords/The_challenges_of_archiving_databases.mp3 (22 Мб).

Архивисты столкнулись с проблемой архивирования баз данных раньше, чем перед ними встала задача архивирования электронных документов из системы управления документами. Так получилось просто потому, что организации начали использовать вычислительные мощности для хранения структурированных данных раньше, чем для создания и хранения документов. В начале 1980-х годов Кевин был уже участвовал в попытках спасения данных из унаследованных баз данных, предпринимавшихся Советом по научно-исследовательской деятельности при правительстве Великобритании (UK Government Research Council – их несколько, каждый из советов специализируется по определенным отраслям науки и техники – Н.Х.).

В 1997 году Кевин руководил созданием Национального электронного архива баз (наборов) данных (National Digital Archive of Datasets, NDAD, http://www.nationalarchives.gov.uk/documentsonline/datasets.asp ). Этот новаторская служба созданная по контракту с Национальными Архивами Великобритании (называвшимися тогда Управлением государственных документов - Public Record Office), была открыта в 1998 году.

В то время в организациях было широко распространено мнение, что базы данных относятся к сфере деятельности ИТ-специалистов и специалистов по управлению данными, а не профессионалов по работе с документами (специалистов по управлению документами и архивистов). На практике архиву NDAD потребовались знания и навыки представителей всех этих трех профессий. Кевин отметил, что архивисты внесли огромный вклад в создание NDAD, поскольку они знали, как составлять соглашения с организациями-источниками комплектования, и как захватывать контекст базы данных (кто её создал, зачем, каким образом, для чего она использовалась, и т. д.).

Национальные Архивы Великобритании потребовали от NDAD использовать стандарт архивного описания ISAD(G) при каталогизации баз данных. Я спросил Кевина, трудно ли было адаптировать ISAD(G) для описания структурированных данных (стандарт изначально был ориентирован на описание дел и документов). Кевин ответил, что ISAD(G) был весьма полезен и очень хорошо подходил для описания баз данных.

Отвечая на вопрос, легче или труднее архивировать используемые сейчас организациями базы данных, по сравнению с теми, что применялись в 1990-х годах, Кевин сказал, что проблемы тогда были иными. Сегодня отдельную базу данных организации легче понять, и из неё проще извлечь данные, чем из аналогичных баз данных в 1990-х годах. В настоящее время проблема заключается в том, что базы данных организации, как правило, интегрированы друг с другом. Например, все или почти все такие базы могут использовать справочник сотрудников организации в качестве хранилища информации о своих пользователях. Как только предпринимается попытка заархивировать данных из одной базы, тут же встает вопрос об архивации данных из всех других баз данных, с которыми данная база взаимодействует.

Я спросил Кевина, не приведут ли такие инициативы, как проект «открытых данных» на сайте http://data.gov.uk/ и в целом движение в сторону взаимосвязанных данных / семантического интернета к уменьшению роли архивистов в деле предоставления публичного доступа к государственным базам данных. Кевин на это сказал, что организации крайне редко делают всю базу данных публично доступной через Интернет. Обычно общественности открывается доступ к производной базе данных, содержащей лишь подмножество данных из той базы, которой пользуется сам государственный орган. Поэтому никуда не исчезает роль архивистов в обеспечении сохранности тех баз данных, с использованием которых на самом деле принимались решения государственными органами.

Кевин рассказал об одной из давних проблем при обеспечении долговременной сохранности электронных материалов - задаче избежать зависимости от конкретного программного приложения и обеспечить возможность экспорта информации (будь то структурированные данные в базе данных, сообщения электронной почты в почтовой системе либо документы в СЭД) из соответствующего программного приложения, когда оно уже больше не используется организацией. Меня заинтересовала имеющаяся здесь параллель с недавно опубликованным стандартом управления документами MoReq2010.

MoReq2010 был написан исходя из того, что контент программного приложения, как правило, сохраняет свою ценность после того, как само приложение вышло из употребления, и, следовательно, ключевым свойством любого приложения должна быть способность экспортировать данные, объекты и метаданные в виде, который другое приложение способно понять. Уже после того, как мы закончили запись подкаста, мы поняли, что между проектами NDAD и MoReq2010 есть связь в лице Ричарда Блейка (Richard Blake), недавно ушедшего на пенсию члена руководства Национальных Архивов Великобритании. Ричард активно участвовал как в создании архива NDAD в 1990-х, так и в написании в этом году - совместно с Йоном Гардом (Jon Garde), Ричардом Джеффри-Куком (Richard Jeffrey-Cook) и др. - спецификаций MoReq2010.

По словам Кевина, Ричард считает, что одной из слабостей ранних спецификаций требований к электронных системам управления документами (таких, как спецификации PRO/TNA 2002 года, разработанные Национальными Архивами Великобритании) было то, что, хотя все соответствующие им EDRM-системы хранят метаданные таким образом, что они могут быть экспортированы, однако различные системы хранят метаданные по-своему, и поэтому организации трудно мигрировать из EDRM-системы одного производителя в другую. Именно этот опыт повлиял на решение очень точно определить в MoReq2010, как системы должны сохранять метаданные, с тем, чтобы метаданные из одного MoReq2010-соответствующей системы могли быть поняты любой другой MoReq2010-соответствующей системой.

Джеймс Лепен (James Lappin)

Источник: блог «Thinking records»
http://thinkingrecords.co.uk/2011/07/09/the-challenges-of-archiving-databases-podcast-with-kevin-ashley/

Дополнительная информация: О Национальном архиве баз данных можно прочитать в статье электронного архивиста Лондонского университета Патриции Слимен (Patricia Sleeaman), доступной по адресу http://journals.sfu.ca/archivar/index.php/archivaria/article/view/12483/13600

Комментариев нет:

Отправить комментарий