О предпосылках оцифровки и публикации исходных данных

Важность публикации исходных данных в научных исследованиях в последнее время осознается все больше и ряд международных программ работают над разработкой политики и стандартов в этой области. Исходными данными для исследований в области биоразнообразия могут быть списки видов, таблицы с данными о находках видов или описания, выполненные на пробных площадях, записи голосов, видео, фотографии и другая информация, послужившая исходным материалом для написания статьи или имеющая научную ценность сама по себе (Penev et al., 2017).

Выдвинуто 4 основных принципа (FAIR), которым должна соответствовать современная публикация данных. Данные должны быть:

  • Доступны для поиска (Findable)
  • Доступны для загрузки пользователем на локальный компьютер (Accessible)
  • Совместимы (Interoperable)
  • Доступны для повторного использования (Re-usable)

Публикация исходных данных в открытом доступе дает целый ряд преимуществ: полученные данные могут быть использованы третьим лицом для перепроверки результатов; данные могут быть востребованы для решения другого рода задач, не поставленных в исходной работе; локальные массивы данных могут быть интегрированы в общие базы; открытые данные увеличивают возможности кооперации и сотрудничества между исследователями; создается дополнительная возможность распространения информации о результатах работы и ее цитирования другими исследователями (Penev et al., 2017).

Существует четыре основных способа публикации исходных данных:

  1. Электронное приложение к статье онлайн-журнала (является менее предпочтительным, поскольку в этом случае затруднен поиск и обращение к материалам, сомнительна перспектива их долговременного хранения)
  2. Размещение на специальных онлайн-ресурсах с получением идентификатора цифрового объекта – DOI (при этом в статье приводится ссылка на данные)
  3. Отдельная публикация с описанием исходных данных в формате статьи о данных, при этом сами данные должны быть сохранены как в предыдущем пункте.
  4. Публикация исходных данных внутри статьи в специализированных журналах, где предусмотрен такой формат (например, Biodiversity Data Journal).

Для размещения массивов исходных данных о биологическом разнообразии (второй и третий способ публикации) существуют специальные ресурсы для хранения и публикации данных, но можно воспользоваться и любыми системами долговременного хранения. Первые предпочтительны для биологических данных, так как кроме функции хранения выполняют еще роль интеграции данных в общий ресурс с вытекающими отсюда полезными свойствами. Например, четыре наиболее распространенных типа исходных данных должны быть опубликованы на следующих ресурсах:

  • Списки видов (Checklist Data) – GBIF
  • Наборы данных об отдельных находках (Occurrence Data) – GBIF
  • Данные обследования на пробных площадях и учетов (Sampling event Data) – GBIF
  • Молекулярные последовательности – GenBank, European Nucleotide Archive, Barcode of Life Data Systems и др.

Формат статьи о данных (data paper) поддерживается рядом современных журналов и разработан специально для описания исходных данных, а не результатов, полученных на их основе, как в обычных научных статьях. Статья о данных включает описание методов сбора данных, географическую привязку, и другие метаданные. Такая статья должна обязательно иметь ссылку на опубликованный в специальном ресурсе массив данных, и присвоенный ему идентификатор цифрового объекта – DOI. В России нам известно две статьи формата data paper: 1) о базе данных находок Борщевика Сосновского Heracleum sosnowskyi (Chadin et al., 2017), опубликованная в разделе Data Papers журнала Phytokey; 2) об учетах макромицетов верховых болот (Filippova, Lapshina, 2019, Biodiversity data journal).

С принципами цитирования массивов исходных данных, опубликованных тем или иным способом, можно ознакомиться в статье L. Penev’а с соавторами (Penev et al., 2017) и на странице GBIF.

Список журналов, публикующих статьи формата Статья о данных на сайте GBIF


Политическое основание

Важным основанием для организации международных программ по интеграции данных о биологическом разнообразии является Конвенция о Биологическом разнообразии (Convention on Biological Diversity, CBD), ратифицированная Россией в 1995 г. В статье 17 Конвенции постулируется необходимость объединения усилий всех стран для оценки собственных биологических ресурсов. Очевидно, что изучение биологического разнообразия на мировом уровне или уровне крупных регионов возможно только благодаря согласованным действиям многих стран (Canhos et al., 2004). В 2010 г. Стороны Конвенции приняли Стратегический план в области сохранения и устойчивого использования биоразнообразия на 2011-2020 гг. вместе с целевыми задачами (так называемые Айтинские задачи, Aichi Biodiversity Targets). Целевая задача 19 из этого списка направлена на усовершенствование, совместное использование и применение знаний, научных данных и технологий в области изучения биоразнообразия. Выполнение этой задачи невозможно без оцифровки биологических коллекций и открытия данных о распространении видов и динамике их ареалов.


Смотрите также доклад семинара «Публикация данных в глобальной информационной системе по биоразнообразию — GBIF» (16 октября 2015 г.)

Дмитрий Щигель, Global Biodiversity Information Facility, Secretariat


Материалы этой страницы составлены на основе статьи:

Филиппова Н.В., Филиппов И.В., Щигель Д.С., Иванова Н.В., Шашков М.П. 2017. Информатика биоразнообразия: мировые тенденции, состояние дел в России и развитие направления в Ханты-Мансийском Автономном Округе // Динамика окружающей среды и глобальные изменения климата. Т. 8. No. 2. С. 46-56. URL: http://dx.doi.org/10.17816/edgcc8246-56

%d такие блоггеры, как:
search previous next tag category expand menu location phone mail time cart zoom edit close