Кто не идёт вперед, тот идёт назад: Опыт Национальной библиотеки Австралии по созданию базы знаний для целей обеспечения долговременной сохранности электронных материалов

понедельник, 11 сентября 2017 г.

Опыт Национальной библиотеки Австралии по созданию базы знаний для целей обеспечения долговременной сохранности электронных материалов

Статья сотрудников отдела обеспечения долговременной сохранности Национальной библиотеки Австралии в Канберре Гарета Кея (Gareth Kay), Лайбора Коуфела (Libor Coufal) и Марка Пирсона (Mark Pearson) под названием «Поддержка практики обеспечения долговременной сохранности эмпирическими исследованиями: База знаний по вопросам долговременной сохранности Национальной библиотеки Австралии» (Backing up digital preservation practice with empirical research: The National Library of Australia’s Digital Preservation Knowledge Base), объёмом 17 страниц, 11 августа 2017 года вышла в свет в электроном варианте в публикуемом издательством Sage журнале «Александрия: Журнал по национальным и международным вопросам библиотечного дела и информатики» (Alexandria: The Journal of National and International Library and Information Issues).

Публикация доступна на платной основе, но у меня есть возможность познакомить читателей с текстом вводной части статьи:

Национальная библиотека Австралии (National Library of Australia. NLA, https://www.nla.gov.au/ ) осуществляет на постоянной основе проект создания базы знаний, детально описывающей, среди прочего, взаимосвязи между программными приложениями и файловыми форматами – эта информация в настоящее время отсутствует в существующих технических реестрах.

Проект включает подробные эмпирические исследования, в рамках которых изучаются возможности избранных программных приложений в отношении определенных файловых форматов. Исследование ориентировано преимущественно на файловые форматы, поскольку главной долгосрочной целью является способность обеспечить доступ к контенту, хранящемуся в электронных файлах. Наибольший приоритет отдается тем файловым форматам, присутствие которых было выявлено в электронных коллекциях библиотеки, и именно они находятся в фокусе исследований, однако попутно собирается информация также и о других форматах.

Для каждого основного абстрактного типа контента (графические изображения, текстовые документы, видео, электронные таблицы, карты и т.д.) мы изучаем возможности избранных программных приложений в отношении взаимосвязанных с ними файловых форматов. Такие приложения по своей природе могут быть как свободно доступными, так и коммерческими (проприетарными).

Такие сведения, как даты выпуска, версии, поддержка поставщика, статус лицензирования и зависимости, регистрируются как для форматов, так и для программных приложений. Ввиду существующих деловых потребностей, собранные в ходе исследования данные первоначально записываются в полуструктурированном формате в содержащий несколько рабочих таблиц Excel-файл. Параллельно с эмпирической работой идёт разработка прототипа графовой базы данных (graph database - разновидность баз данных с реализацией сетевой модели в виде графа и его обобщений, см. https://ru.wikipedia.org/wiki/Графовая_база_данных - Н.Х.), вместе с разработкой программных модулей, способными импортировать данные из Excel-файла).

Хотя Excel не является подходящей платформой для промышленной эксплуатации базы знаний, ее использование на этапе разработки имеет некоторые преимущества. Во-первых, это позволяет нам быстро продвигаться вперед, не затрачивая изначально слишком много времени и усилий на разработку базовой модели данных и системы управления базой данных. Во-вторых, по мере того, как улучшается наше понимание предметной области улучшается посредством практического взаимодействия с ней, мы можем экспериментировать с изменениями в нашей модели данных при незначительных затратах. Когда мы сталкиваемся с аспектами взаимоотношения файловых форматов и программного обеспечения, которые мы рассматриваем как потенциально важные для принятия в будущем решений по вопросам обеспечения долговременной сохранности, но для которых в настоящее время текущая итерация модели не обеспечивает структурированного способа документирования, у нас есть возможность соответствующим образом адаптировать модель.

Двумя очень полезными побочными продуктами эмпирической работы являются растущий набор файлов в различных форматах и их версиях, содержащих известный контент, который мы создали сами и который мы можем с пользой применять для тестирования возможностей пакета программ; а также растущую коллекцию образов виртуальных машин для средств виртуализации, созданных для различных ныне используемых и устаревших операционных систем.

База знаний нейтральна по отношению к системам и стратегиям, т.е. она должна поддерживать нашу работу независимо от того, какую систему обеспечения долговременной сохранности мы используем, не отдавая предпочтения какой-либо одной стратегии сохранности перед другими. Долгосрочной стратегической целью является создание машиночитаемых баз знаний, которые помогут нам

определиться с уровнем нашей поддержки различных файловых форматов;

проанализировать материалы в составе электронной коллекции Национальной библиотеки на предмет рисков для их сохранности; и

спланировать и выполнить действия по обеспечению долговременной сохранности электронных объектов, будь то миграция или эмуляция, в соответствии с документированными намерениями по обеспечению сохранности этих объектов.

Структура статьи следующая:

Краткое содержание
Введение
Контекст
База знаний Национальной библиотеки по вопросам долговременной сохранности
Набор материалов для тестирования и рейтингования
Графовая база данных
Выводы

В выводах авторы отмечают следующее:

База знаний Национальной библиотеки по вопросам долговременной сохранности
(NLA Digital Preservation Knowledge Base) - это не просто еще один исследовательский проект; она реально используется для поддержки повседневной практики обеспечения электронной сохранности в Национальной библиотеке. Благодаря содержащейся в базе знаний информации, мы можем начать информирование хранителей коллекций о «здоровье» их коллекций и о существующих рисках для их сохранности.

Наша электронная система хранения Preservica находится в промышленной эксплуатации с октября 2016 года, и мы в настоящее время ведем приём обязательных экземпляров электронных публикаций, но в скором времени в систему начнет поступать большее количество изначально-электронного контента из других источников, как опубликованного, так и неопубликованного. При этом разнообразие файловых форматов, с которыми нам придётся иметь дело, будет стремительно возрастать, - и в той же степени будет возрастать важность базы знаний.

На сегодняшний день раздел взаимосвязей базы знаний содержит более 12 тысяч записей пар «файловый формат» – «программное обеспечение», из которых 2525 - для приоритетных форматов, из них 1327 были протестированы. В общей сложности было установлено соответствие между 32 семействами приоритетных файловых форматов (с их многочисленными версиями) и программным обеспечением из набора в 130 наименований. Мы, однако, по сути дела только начали эту работу: потребуется больше таких соответствий по мере того, как в наших коллекциях будут идентифицированы новые приоритетные файловые форматы, а также станут доступными для сопоставления новые программные приложения или их версии.

По ходу работы по установлению взаимосвязей небольшие, инкрементные изменения и усовершенствования постоянно вносились в процессы. Как только мы начали смотреть на данные, мы выделили качество данных как одну из проблем, что привело к включению в систему регулярно выполняемых процессов обеспечения качества.

Кроме того, в настоящее время проводится более формальный анализ, в рамках которого более целостно рассматриваются текущие процессы и базовая модель данных. Мы хотим

убедиться в адекватности того, как определяются функциональные взаимосвязи, и выяснить, нужно ли зафиксировать дополнительные функциональные взаимоотношения;

стандартизовать названия файловых форматов, чтобы устранить неоднозначности и улучшить согласованность;

переработать поле примечаний по поводу обеспечения долговременной сохранности, который в настоящее время представляет собой текст в свободном формате, с тем, чтобы сделать его гораздо более структурированным; и

расширить другие разделы базы знаний, которые были недостаточно развиты из-за того, что главное внимание было сосредоточено на разделе взаимосвязей.

Хотя результаты данного проекта уже дадут Национальной библиотеке практическую отдачу, мы также хотели бы изучить возможность предоставления доступа к базам знаний и материалам тестирования для более широкого сообщества специалистов по обеспечению долговременной сохранности. Это позволило бы нам, в свою очередь, получить обратную связь, которая помогла бы устранить существующие пробелы, улучшить продукт и даже найти заинтересованные стороны, которые могли бы добавить свои собственные данные в базу знаний.

База знаний будет дополнять и расширять информацию из других технических реестров и, в конечном итоге, может стать частью более крупной экосистемы электронной сохранности, такой, как предлагаемый Технический реестр по вопросам обеспечения электронной сохранности (NSLA Digital Preservation Technical Registry) ассоциации национальных библиотек и библиотек штатов Австралии (National and State Libraries of Australia, NSLA – объединяет 10 ведущих библиотек Австралии и Новой Зеландии – Н.Х.).

Источник: издательство Sage
http://journals.sagepub.com/doi/pdf/10.1177/0955749017724630

Кто не идёт вперед, тот идёт назад

понедельник, 11 сентября 2017 г.

Опыт Национальной библиотеки Австралии по созданию базы знаний для целей обеспечения долговременной сохранности электронных материалов

Комментариев нет:

Отправить комментарий

Dr Natasha Khramtsovsky

Обо мне: Наташа Храмцовская / Dr Natasha Khramtsovsky

Поиск по блогу / Search this blog

Искать по блогу / Search this blog 2

Архив блога / Blog Archives

Используйте теги / Click the tags!

География моих читателей (RU)

Постоянные читатели

Кто не идёт вперед, тот идёт назад

понедельник, 11 сентября 2017 г.

Опыт Национальной библиотеки Австралии по созданию базы знаний для целей обеспечения долговременной сохранности электронных материалов

Комментариев нет:

Отправить комментарий

Dr Natasha Khramtsovsky

Обо мне: Наташа Храмцовская / Dr Natasha Khramtsovsky

Поиск по блогу / Search this blog

Искать по блогу / Search this blog 2

Архив блога / Blog Archives

Используйте теги / Click the tags!

География моих читателей (RU)

Постоянные читатели

понедельник, 11 сентября 2017 г.