среда, 30 августа 2017 г.

Канада: Проект, который поможет историкам добраться до сокровищ, таящихся в заархивированных веб-страницах


Данная заметка была опубликована 5 июля 2017 года на сайте Йоркского университета (York University), Канада.

Йоркский университет совместно с университетом Ватерлоо (University of Waterloo) получил грант Фонда Эндрю У. Меллона (Andrew W. Mellon Foundation) на то, чтобы сделать петабайты исторического интернет-контента доступными для ученых и всех тех, кто заинтересован в исследовании недавнего прошлого.

Грант на сумму 611 тысяч канадских долларов поддерживает проект «Освобожденные от оков архивы» (Archives Unleashed), в рамках которого будут разрабатываться инструменты поиска и анализа веб-архивов, с тем,  чтобы позволить ученым и библиотекарям получать доступ, обмениваться и исследовать недавнюю историю - с первых дней Всемирной паутины (World Wide Web). Проект также поддерживается щедрыми неденежными и финансовыми взносами таких организаций, как Start Smart Labs, Compute Canada, Библиотека Йоркского университета (York University Libraries) и факультета искусств университета Ватерлоо.

Ник Рюэст (Nick Ruest, см. фото справа), библиотекарь цифровых активов Йоркского университета и ведущий разработчик проектов, говорит, что для электронных историков это будет изменение тектонического масштаба. «Системы, которые мы создаем, резко понизят входной барьер для студентов, исследователей, библиотекарей и архивистов, желающих использовать в своей работе веб-архивы», - говорит Рюэст. «Критически важно, чтобы эти системы существовали, - с тем, чтобы больше исследователей могли по-настоящему изучать это изобилие данных веб-архивации».

«Мы хотим освободить от оков коллекции веб-архивов, дав возможность ученым и кураторам систематически фильтровать, объединять, анализировать и визуализировать контент», - говорит профессор Иэн Миллиган (Ian Milligan, на фото слева), руководитель проекта и эксперт в области электронной истории факультета истории университета Ватерлоо. «Сам колоссальный объем культурной информации, сформировавшийся он-лайн за последние 20 лет, открывает интереснейшие возможности для историков, политологов, социологов и других ученых».

«Интернет-архив» (Internet Archive) – это базирующаяся в Сан-Франциско некоммерческая организация, которая начала свою деятельность в 1996 году и в настоящее время хранит более 30 тысяч терабайт - или 30 петабайт - архивного контента, ошеломляющий объём онлайн-данных, которое продолжает расти экспоненциально. В то время как публичные учреждения, такие, как университетские библиотеки, сотрудничают с «Интернет-архивом» с целью сбора веб-сайтов, представляющих институциональный или научный интерес, современные инструменты поиска в веб-архивах для большинства людей сложны в использовании и часто требуют предварительного знания конкретных URL-адресов, - объясняет Миллиган. «Ученые отправляют запрос на архивные данные и получают файлы в форматах, которые они могут не понимать. Для многих это очень медленный поиск, страница за страницей. Так что барьер для входа в сферу электронной истории действительно высок».

Получение доступа и проведение анализа крупных веб-архивов в настоящее время является непосильной задачей для большинства исследователей в сфере гуманитарных и социальных наук. Миллиган и другие руководители проекта – Рюэст и профессор Джимми Линь (Jimmy Lin), руководитель кафедры им. Дэвида Черитона (David R. Cheriton) на факультете компьютерных наук им. Черитона, стремятся изменить эту ситуацию.

Трехлетний проект «Освобожденные от оков архивы» имеет три основных направления: во-первых, будет создан программный инструментарий для применения современной инфраструктуры аналитики больших данных для научного анализа веб-архивов. Во-вторых, инструментальный набор будет размещён в облачной среде, которая станет единым порталом, через который ученые смогут вводить свои коллекции и выполнить ряд видов анализов одним щелчком мыши. Наконец, такие мероприятия, как дататоны (datathons) - или хакатоны (hackathons) – позволят создать сплоченное и устойчивое сообщество пользователей, объединяя вместе членов «ядра» проектной команды с библиотекарями, архивистами и другими заинтересованными исследователями.

«Единственный способ справиться с громадными объёмами типичных веб-архивов - это распределить задачи обработки по компьютерным кластерам. Для таких компаний, как Google и Facebook, наличие подобной инфраструктуры воспринимается как нечто само собой разумеющееся легионами специалистов по обработке данных. Одна из целей этого проекта заключается в том, чтобы передать эти возможности в руки историков и других ученых-гуманитариев, - говорит Линь. Проект предполагается реализовать на базе платформы обработки данных Apache Spark; и, в свою очередь, все разработанные в ходе проекта инструменты будут выпущены под открытой лицензией и сделаны доступными для сообщества.

В конечном счете, результаты научного анализа будут использоваться для визуализаций, которые позволят исследователям интерактивно изучать данные – примером может быть сеть гиперссылок между сайтами. «Сетевые визуализации помогут Вам понять, на какие новостные источники имели тенденцию давать ссылки на своём сайте политические партии в ходе последних выборов», - говорит Миллиган. «Или, всякий раз, когда консерваторы говорили о Джастине Трюдо (Justin Trudeau – премьер-министр Канады – Н.Х.), Вы можете узнать, какие рода слова и прилагательные они использовали».

Рюэст собирается основное своё внимание обратить на создание полномасштабного решения, включающего каноническую реализацию облака, обеспечение безопасности системы и разработку интерфейса как для поставщиков данных, так и для пользователей.

Проект также будет стремиться расширить партнерские отношения с такими учреждениями, как университеты и государственные ведомства. «Мы действительно хотим дать нашим канадским партнерам возможность взять свои богатые библиотечные коллекции и сделать их доступными - доступными для поиска, с возможностью скачивания данных и со средствами интерактивного изучения контента», - говорит Миллиган. «В последующие десятилетия всё большее число историков, библиотекарей, правоведов, политологов, социологов - всех, кто хочет работать с большими наборами данных – получит отдачу от этого проекта, имея возможность реально раскрыть потенциал своих веб-архивов».

Источник: сайт Йоркского университета
http://yfile.news.yorku.ca/2017/07/05/project-helps-historians-unlock-treasures-buried-in-archived-web-pages/

1 комментарий: