Инструкции по публикации данных

GBIF является глобальным информационным порталом, куда стекаются данные со всего мира, через непосредственную публикацию в GBIF или в других промежуточных узлах (национальных, региональных или тематических).

Процесс публикации данных в GBIF можно разделить на 4 основных этапа:

  • Регистрация организации в GBIF
  • Регистрация в Integrated Publishing Toolkit (IPT)
  • Подготовка наборов данных одного из четырех типов в формате DwC
  • Загрузка метаданных и наборов данных в IPT

Подробнее о публикации данных см. также на Российском сайте GBIF

Или на сайте GBIF — Quick guide to publishing data through GBIF.org


Регистрация в GBIF

Зарегистрироваться в GBIF может любая организация, имеющая в своем распоряжении биологические коллекции или другие данные о биологическом разнообразии, и пожелавшая сделать эти данные открытыми для международного сообщества.

Чтобы пройти регистрацию, нужно заполнить регистрационную форму (https://www.gbif.org/become-a-publisher). Все поля заполняются на английском языке. Заявка рассматривается Секретариатом, после чего организация одобряется участниками GBIF. Как правило, это занимает 1–2 недели.

Чтобы упростить процесс заполнения формы, мы подготовили таблицу с соответствующими полями переведенными на русский и примерами зарегистрированных заповедников ХМАО. Скачав таблицу, вы должны заполнить поля на английском, а затем перенести информацию в выше указанную форму.

Форма регистрации в GBIF с переводом на русский и примерами (xls)

Для каждой организации на портале автоматически создается отдельная веб-страница, где размещается информация о ней и об опубликованных наборах данных. Все данные об организации вносятся на основе информации регистрационной формы, изменить их можно, связавшись с Секретариатом через helpdesk@gbif.org.  Примеры аккаунтов, зарегистрированных в GBIF в Югре:


Регистрация в IPT

Во время регистрации, кроме подтвержения Секретариатом, организация получает логин и пароль для подключения к программному обеспечению для публикации данных Integrated Publishing Toolkit (IPT) (https://www.gbif.org/ipt). Это ПО устанавливается на сервере, и поскольку далеко не все организации имеют сервера, то существует несколько установок «общего пользования» на территории России, которые предоставляют свои IPT. Мы пользуемся установкой в Институте математических проблем биологии — филиал ИПМ им. М.В. Келдыша РАН (Пущино), администратором которой является Шашков Максим. Для подключения к северу, нужно выслать логин и пароль Максиму, и он создаст соответствующий аккаунт для вашей организации. Вот так, например, выглядит набор данных загруженный в аккаунт Малой Сосьвы на IPT.

Администратор IPT ИМПБ РАН Максим Шашков, Max.carabus@gmail.com, Институт математических проблем биологии — филиал ИПМ им. М.В. Келдыша РАН, Пущино

См. также руководство установки и пользования IPT на сайте GBIF (англ.  + видео)


Подготовка наборов данных

Наконец, все шаги регистрации выполнены, и у вас появляется возможность опубликовать набор данных в GBIF. Первый вопрос, что можно и нужно опубликовать? На самом деле каждый биолог имеет огромное количество данных нуждающихся в публикации, но хранящихся на локальных носителях: таблиц, баз данных коллекций, аннотированных списков, чеклистов, и т.д.

Как это большое количество разнообразных данных объединить в одном ключе для того, чтобы все могли этим пользоваться и можно было это объединить в одной системе? Решением является использование общего формата данных Darwin Core (DwC) и общих типов таблиц (наборов данных, data sets).

GBIF поддерживает 4 типа наборов данных (см. также на сайте GBIF):

  • Метаданные, т.е. только описание данных (Metadata only). Например, можно опубликовать реестр гербария, не открывая пока сами данные (если они еще не готовы или открывать их неправомерно), или описание метаданных всех коллекций, которые содержатся в организации, или список библиографических источников, которые содержат определенные аннотированные списки, и пр.
  • Список видов (Checklist Data). С этой категорией все хорошо знакомы, это например чеклисты или аннотированные списки видов животных и растений на территорию заповедников и других ООПТ. Также в этой категории могут быть опубликованы таксоны, отсутствующие в таксономическом дереве GBIF (например эндемичные для Сибири виды).
  • Данные об отдельных находках (Occurrence Data). Эта категория включает более детальные данные о находках видов, где вместе с фактом нахождения указывается ее точная координата и другие детали. В этом формате представлены все базы данных коллекций, гербариев, фунгариев и пр. Это также могут быть данные локальных ревизий территории, где выявлены списки видов с их координатами, например база данных по результатам обследования территории в ходе экспедиции.
  • Данные обследований на пробных площадях и мониторинга (Sampling Event Data). К этой категории относятся все варианты количественных учетов, от геоботанических описаний до результатов зимних маршрутных учетов, отбор проб зообентоса, учеты птиц, и другие количественные данные.

Кроме стандартизации таблиц (типов наборов данных), важно чтобы все-все они заполнялись с использованием одинаковых названий столбцов и в едином формате. Для хранения данных по биоразнообразию в едином формате был разработан стандарт с собственным названием Darwin Core (DwC).

Например, у вас есть ваша собственная таблица с записями о находках растений сделанная в ходе обследования территории. У этой таблицы есть свои поля, как ТаксонГде и Когда собрано, Кто собрал и Кто определил, и т.д. Все эти поля заполнены в каком-то виде данными, например Таксон заполнен по системе Черепанова, Дата в формате ДД. ММ.ГГ, Координата в формате DD MM SS и т.д. Чтобы сделать эту таблицу совместимой с той, что используется в GBIF, ее столбцы нужно переименовать и содержимое отформатировать в соответствии с требованием каждого термина Darwin Core. Процесс форматирования таблицы может занять разное время, в зависимости от того как изначально таблица была подготовлена. Если заполнение таблицы идет с нуля, имеет смысл сразу создать шаблон в формате DwC. На семинарах по подготовке и публикации данных обычно много времени уделяется такому форматированию таблиц, что позволяет начинающим на практике освоить азы и ускорить процесс публикации. Но можно это изучить и самостоятельно, воспользовавшись шаблонами и ссылками.

Три таких шаблона с переводом на русский и примерами мы подготовили для обучающих целей. Собственно они являются основой для загрузки данных в GBIF. То есть, выбрав соответствующий тип набора данных, нужно заполнить таблицу воспользовавшись одним из шаблонов. Это минимальный набор полей, если нужны дополнительные – можно использовать весь словарь DwC.


Загрузка набора данных и метаданных в IPT

Наконец, собственно набор данных подготовлен, и вы готовы загрузить его в систему. Для этого нужно зайти в ваш аккаунт на IPT и пройти в нем процедуру загрузки таблиц и описания полей метаданных.

Инструкция для загрузки подготовленных таблиц и заполнения полей метаданных в IPT (будет загружена).

При достаточном опыте эта процедура не сложная и может занимать около получаса, при условии что все информация была заранее подготовлена. Важно, чтобы набор данных был опубликован с достаточным количеством метаданных (описание методики отбора проб, географии, авторов, и других вещей), которые позволят правильно его идентифицировать и использовать по назначению различным пользователям.

Для примера, вот так выглядит опубликованный набор данных геоботанических описаний болот, сделанный в заповеднике Малая Сосьва. Разные параграфы текста: Description, Purpose, Temporal scope, Geographical scope – это все те метаданные, которые нужно заполнить при загрузке набора в IPT. Чтобы облегчить процедуру заполнения многочисленных полей метаданных, мы подготовили таблицу, где поля и примечания к ним переведены на русский, а также есть три примера их заполнения (заполняются на английском или на русском по выбору):

Шаблон для заполнения полей метаданных при загрузке набора данных в IPT. Собственно можно заполнить эту таблицу, а затем уже перенести информацию в соответствующие ячейки при загрузке данных в IPT.

%d такие блоггеры, как:
search previous next tag category expand menu location phone mail time cart zoom edit close