понедельник, 11 сентября 2017 г.

Опыт Национальной библиотеки Австралии по созданию базы знаний для целей обеспечения долговременной сохранности электронных материалов


Статья сотрудников отдела обеспечения долговременной сохранности Национальной библиотеки Австралии в Канберре Гарета Кея (Gareth Kay), Лайбора Коуфела (Libor Coufal) и Марка Пирсона (Mark Pearson) под названием «Поддержка практики обеспечения долговременной сохранности эмпирическими исследованиями: База знаний по вопросам долговременной сохранности Национальной библиотеки Австралии» (Backing up digital preservation practice with empirical research: The National Library of Australia’s Digital Preservation Knowledge Base), объёмом 17 страниц, 11 августа 2017 года вышла в свет в электроном варианте в публикуемом издательством Sage журнале «Александрия: Журнал по национальным и международным вопросам библиотечного дела и информатики» (Alexandria: The Journal of National and International Library and Information Issues).

Публикация доступна на платной основе, но у меня есть возможность познакомить читателей с текстом вводной части статьи:
Национальная библиотека Австралии (National Library of Australia. NLA, https://www.nla.gov.au/ ) осуществляет на постоянной основе проект создания базы знаний, детально описывающей, среди прочего, взаимосвязи между программными приложениями и файловыми форматами – эта информация в настоящее время отсутствует в существующих технических реестрах.

Проект включает подробные эмпирические исследования, в рамках которых изучаются возможности избранных программных приложений в отношении определенных файловых форматов. Исследование ориентировано преимущественно на файловые форматы, поскольку главной долгосрочной целью является способность обеспечить доступ к контенту, хранящемуся в электронных файлах. Наибольший приоритет отдается тем файловым форматам, присутствие которых было выявлено в электронных коллекциях библиотеки, и именно они находятся в фокусе исследований, однако попутно собирается информация также и о других форматах.

Для каждого основного абстрактного типа контента (графические изображения, текстовые документы, видео, электронные таблицы, карты и т.д.) мы изучаем возможности избранных программных приложений в отношении взаимосвязанных с ними файловых форматов. Такие приложения по своей природе могут быть как свободно доступными, так и коммерческими (проприетарными).

Такие сведения, как даты выпуска, версии, поддержка поставщика, статус лицензирования и зависимости, регистрируются как для форматов, так и для программных приложений. Ввиду существующих деловых потребностей, собранные в ходе исследования данные первоначально записываются в полуструктурированном формате в содержащий несколько рабочих таблиц Excel-файл. Параллельно с эмпирической работой идёт разработка прототипа графовой базы данных (graph database - разновидность баз данных с реализацией сетевой модели в виде графа и его обобщений, см. https://ru.wikipedia.org/wiki/Графовая_база_данных - Н.Х.), вместе с разработкой программных модулей, способными импортировать данные из Excel-файла).

Хотя Excel не является подходящей платформой для промышленной эксплуатации базы знаний, ее использование на этапе разработки имеет некоторые преимущества. Во-первых, это позволяет нам быстро продвигаться вперед, не затрачивая изначально слишком много времени и усилий на разработку базовой модели данных и системы управления базой данных. Во-вторых, по мере того, как улучшается наше понимание предметной области улучшается посредством практического взаимодействия с ней, мы можем экспериментировать с изменениями в нашей модели данных при незначительных затратах. Когда мы сталкиваемся с аспектами взаимоотношения файловых форматов и программного обеспечения, которые мы рассматриваем как потенциально важные для принятия в будущем решений по вопросам обеспечения долговременной сохранности, но для которых в настоящее время текущая итерация модели не обеспечивает структурированного способа документирования, у нас есть возможность соответствующим образом адаптировать модель.

Двумя очень полезными побочными продуктами эмпирической работы являются растущий набор файлов в различных форматах и их версиях, содержащих известный контент, который мы создали сами и который мы можем с пользой применять для тестирования возможностей пакета программ; а также растущую коллекцию образов виртуальных машин для средств виртуализации, созданных для различных ныне используемых и устаревших операционных систем.

База знаний нейтральна по отношению к системам и стратегиям, т.е. она должна поддерживать нашу работу независимо от того, какую систему обеспечения долговременной сохранности мы используем, не отдавая предпочтения  какой-либо одной стратегии сохранности перед другими. Долгосрочной стратегической целью является создание машиночитаемых баз знаний, которые помогут нам
  • определиться с уровнем нашей поддержки различных файловых форматов;

  • проанализировать материалы в составе электронной коллекции Национальной библиотеки на предмет рисков для их сохранности; и

  • спланировать и выполнить действия по обеспечению долговременной сохранности электронных объектов, будь то миграция или эмуляция, в соответствии с документированными намерениями по обеспечению  сохранности этих объектов.
Структура статьи следующая:
Краткое содержание
Введение
Контекст
База знаний Национальной библиотеки по вопросам долговременной сохранности
Набор материалов для тестирования и рейтингования
Графовая база данных
Выводы
В выводах авторы отмечают следующее:
База знаний Национальной библиотеки по вопросам долговременной сохранности
(NLA Digital Preservation Knowledge Base) - это не просто еще один исследовательский проект; она реально используется для поддержки повседневной практики обеспечения электронной сохранности в Национальной библиотеке. Благодаря содержащейся в базе знаний информации, мы можем начать информирование хранителей коллекций о «здоровье» их коллекций и о существующих рисках для их сохранности.

Наша электронная система хранения Preservica находится в промышленной эксплуатации с октября 2016 года, и мы в настоящее время ведем приём обязательных экземпляров электронных публикаций, но в скором времени в систему начнет поступать большее количество изначально-электронного контента из других источников, как опубликованного, так и неопубликованного. При этом разнообразие файловых форматов, с которыми нам придётся иметь дело, будет стремительно возрастать, - и в той же степени будет возрастать важность базы знаний.

На сегодняшний день раздел взаимосвязей базы знаний содержит более 12 тысяч записей пар «файловый формат» – «программное обеспечение», из которых 2525 - для приоритетных форматов, из них 1327 были протестированы. В общей сложности было установлено соответствие между 32 семействами приоритетных файловых форматов (с их многочисленными версиями) и программным обеспечением из набора в 130 наименований. Мы, однако, по сути дела только начали эту работу: потребуется больше таких соответствий по мере того, как в наших коллекциях будут идентифицированы новые приоритетные файловые форматы, а также станут доступными для сопоставления новые программные приложения или их версии.

По ходу работы по установлению взаимосвязей небольшие, инкрементные изменения и усовершенствования постоянно вносились в процессы. Как только мы начали смотреть на данные, мы выделили качество данных как одну из проблем, что привело к включению в систему регулярно выполняемых процессов обеспечения качества.

Кроме того, в настоящее время проводится более формальный анализ, в рамках которого более целостно рассматриваются текущие процессы и базовая модель данных. Мы хотим
  • убедиться в адекватности того, как определяются функциональные взаимосвязи, и выяснить, нужно ли зафиксировать дополнительные функциональные взаимоотношения;

  • стандартизовать названия файловых форматов, чтобы устранить неоднозначности и улучшить согласованность;

  • переработать поле примечаний по поводу обеспечения долговременной сохранности, который в настоящее время представляет собой текст в свободном формате, с тем, чтобы сделать его гораздо более структурированным; и

  • расширить другие разделы базы знаний, которые были недостаточно развиты из-за того, что главное внимание было сосредоточено на разделе взаимосвязей.
Хотя результаты данного проекта уже дадут Национальной библиотеке практическую отдачу, мы также хотели бы изучить возможность предоставления доступа к базам знаний и материалам тестирования для более широкого сообщества специалистов по обеспечению долговременной сохранности. Это позволило бы нам, в свою очередь, получить обратную связь, которая помогла бы устранить существующие пробелы, улучшить продукт и даже найти заинтересованные стороны, которые могли бы добавить свои собственные данные в базу знаний.

База знаний будет дополнять и расширять информацию из других технических реестров и, в конечном итоге, может стать частью более крупной экосистемы электронной сохранности, такой, как предлагаемый Технический реестр по вопросам обеспечения электронной сохранности (NSLA Digital Preservation Technical Registry) ассоциации национальных библиотек и библиотек штатов Австралии (National and State Libraries of Australia, NSLA – объединяет 10 ведущих библиотек Австралии и Новой Зеландии – Н.Х.).
Источник: издательство Sage
http://journals.sagepub.com/doi/pdf/10.1177/0955749017724630

Комментариев нет:

Отправить комментарий