Бюджетная оцифровка малых гербариев

Потоковому сканированию и оцифровке информации с этикеток гербариев посвящено большое количество публикаций. Насколько нам известно, полных рекомендаций еще не существует на русском языке, однако опыт коллег по оцифровке ряда крупных гербариев России отражен в статьях (список литературы в конце поста).

Чтобы упростить процесс оцифровки малых гербариев, мы подготовили чек-лист, на который можно опираться перед началом работы.

Основной инструмент в оцифровке гербария – гербарный сканер, однако он имеет большую стоимость и часто не по силам малым коллекциям. Можно воспользоваться отправкой гербария на сканирование в другой институт – например, гербарий МГУ – опыт подобной оцифровки в рамках грантов РФФИ существует в нескольких гербариях в России.

Листья и мхи под сканером: почему Цифровой гербарий МГУ так важен для  мировой науки | Русское географическое общество
Оцифровка гербария МГУ, фото из статьи, которую саму стоит посмотреть с чудесными видео

Заменить сканер фотоаппаратом можно, но нужно понимать, что из-за аберраций объектива будет небольшая потеря качества. Для небольших коллекций, впрочем, это может быть не критично. Далее приводим алгоритм именно такой оцифровки гербария с помощью фотоаппарата.

Пример оцифрованной по этому алгоритму части коллекции гербария ЮГУ (GBIF dataset).

Устройство рабочего места для фотографирования

  • При использовании фотоаппарата установить его над листом под углом 90 градусов (использовать штатив или другой держатель)
  • Если используется штатив, то лист удобно размещать на низком столике, для удобства оперирования камерой без специальных лестниц или стула (в среднем в зависимости от объектива расстояние между столиком и камерой = 50 см)
  • Объектив подходит портретный (широкоугольные объективы имеют большую аберрацию по краю, а длиннофокусные нужно ставить очень высоко и очень жестко)
  • Высота размещения фотоаппарата над столиком такая, чтобы лист занимал максимально большое пространство в видоискателе (так наиболее оптимально используется матрица)
  • Разрешение лучше ставить максимальное и формат RAW. Нужно проверить, соответствует ли разрешение вашего фотоаппарата порогу качества сканирования гербария (300 dpi). Как это сделать: DPI – dots per inch – число пикселей на дюйм, в случае формата А3 это будет 11.69 дюймов по короткой стороне и 16.53 по длинной. Нам нужно разрешение 300 точек на дюйм: 11,69 * 300 = 3507 пикселей по короткой стороне и 16.53 * 300 = 4959 по длинной стороне. ИТОГО: минимальное разрешение фотографии при фотографировании гербария должно быть 3500 х 4960 пикселей (сразу после фотографирования можно создать легкую копию для ускорения работы по оцифровке)
  • Кроме смонтированного гербарного листа на столике должны размещаться: масштабная линейка, цветовая и черно-белая шкала. Иногда еще размещают название коллекции или логотип, или они написаны на линейках. Цветовую шкалу можно приобрести онлайн в одном из магазинов. Мы подготовили шаблоны масштабной линейки с логотипом, которые можно скачать, поправить название организации, и распечатать на плотной небликующей бумаге в нескольких экземплярах, чтобы менять по мере старения
  • Освещение на столике очень важно. Оно должно быть нейтральным (дневной свет), мягким (можно использовать софтбокс или светорассеивающую ткань), достаточно интенсивным. Например, в нашем гербарии используется две светодиодные лампы по 30 Вт (с двух сторон от столика), покрытые софтбоксами
  • Соответственно интенсивности освещения должна быть подобрана выдержка и ISO. Конечно, большой выдержкой и ISO можно воспользоваться и вытянуть слабое освещение. Однако не стоит использовать слишком большую выдержку (потеря резкости) и ISO (появление муара). Диафрагму лучше сузить для увеличения глубины резкости.

На фотографиях: 1 — рабочее место для фотографирования из подпиленного стула + стекла с приклеенной на него длинной шкалой (по ней выравниваем лист), двух ламп, двух софтбоксов на штативах и камеры на штативе; 2 — установка положения камеры, чтобы захватить ровно лист; 3 — готовое изображение.

Подготовка гербария к фотографированию (штрихкоды)

  • Гербарий для сканирования должен быть смонтирован
  • Внесен ли гербарий в электронный каталог и имеет индивидуальные номера, или нет? В зависимости от этого различаются следующие шаги
  • Если весь гербарий уже внесен в электронный каталог (базу данных) и имеет индивидуальные номера:
    • Можно импортировать каталог в Specify и распечатать этикетки со штрихкодами (штрихкод кодирует акроним гербария + номер образца)
    • Штрихкоды можно заказать в типографии, обсудив формат штрихкода и кодируемого номера. Или можно печатать штрихкоды самостоятельно на обычной бумаге и разрезать (потом приклеить ПВА на лист), для этого можно освоить разные плагины в офисе или код в Ubuntu для генерации штрихкодов (мы использовали последний)
    • Наклеить соответственно этикетки и/или штрихкоды, так каждый лист получит дополнительный элемент быстрого распознавания через штрихкод-сканер
    • Или можно не делать штрихкоды, если ваша коллекция небольшая и номера можно просто считывать и переписывать при необходимости вручную
    • Если все листы имеют номера (и по желанию, штрихкоды), можно перейти к сканированию
  • Если гербарий еще не имеет индивидуальных номеров (или есть вероятность, что они частично повторяются) и нет электронной базы данных. В этом случае предстоит полная оцифровка коллекции, включая сканирование изображений, затем оцифровка и внесение в базу данных информации с этикеток:
    • Наклеить на каждый лист индивидуальные номера (или штрихкоды). Это создаст привязку сделанных фотографий к их последующему описанию в базе данных и будет использоваться при оцифровке информации с этикеток. Штрихкод также пригодится в будущем при инвентаризации гербария, штрихкод-сканер значительно сокращает время на переписывание перечня номеров.
    • Теперь можно перейти к сканированию.

На фотографиях: 1 — кот в гербарии ЮГУ приступает оцифровке, гербарий рассортирован по годам (до этого лежал как попало в разных углах), подготовлен к монтажу; 2 — здесь мы вкладываем штрихкоды в не смонтированные образцы, чтобы оценить предварительно общее количество их для последующих работ, они буду приклеиваться после монтажа; 3 — общий вид стола во время подготовки гербария к монтажу.

Потоковое фотографирование гербария в Югорском университете

Оцифровка этикеток после того, как гербарий отсканирован

  • Нам предстоит перенести информацию с этикеток гербария в базу данных, то есть оцифровать этикетки, делать это со сканов удобнее (и сохраннее для гербария), чем с физических листов
  • Для переноса данных из этикетки в таблицу можно просто открыть слева — таблицу, а справа — просмотрщик фотографий, и начать читать и вносить данные. Или воспользоваться специальным ПО, которое будет показывать в одном окне фото, а в другом — форму для заполнения этикетки, плюс ряд инструментов для отбора этих этикеток по номерам (такое ПО можно написать самостоятельно или воспользоваться Specify или другими инструментами для менеджмента коллекций)
  • Оцифровку этикеток очень важно оптимизировать, иначе это может растянуться на долгие годы. Например, есть алгоритм ИСТРА, открытый в гербарии МГУ, он заключается в следующем:
    • Сначала вбиваем в базу информацию всего трех колонок этикетки: каталожный номер, автор сбора, дата сбора
    • После того, как данные по этим полям для всего гербария будут введены, можно будет упростить ввод данных по другим полям:
      • В одну дату один коллектор собирал гербарий, скорее всего, с одного места. Поэтому все, что касается местонахождения, можно вводить пачками, отсортировав таблицу по этим двум полям (дата и коллектор)
      • Геопривязку, соответственно, удобнее делать по той же сортировке (или в пределах одной административной единицы)
      • Дата сбора и дата определения (как минимум у первичных определений) чаще всего совпадает, отсортировав по дате вы можете быстро это проверить, и заполнить поля «кто определил», «когда определил»
  • Упростить работу по вводу данных этикетки может создание цифрового слоя (OCR). Для этого нужно обратиться к IT-сотрудникам (использовать ПО для распознавания текста, например Tesseract Software).

Геопривязка образцов по географическому описанию

Старые образцы не имеют координат в описании места сбора, но это необходимое поле в сегодняшних базах данных. Поэтому координату нужно определить по описанию местоположения в этикетке. Методиками и алгоритмам геопривязки посвящены отдельные труды, и подробнее мы останавливаться здесь на этом не будем.

Поздравляем, теперь гербарий оцифрован

И наконец, у вас есть заполненная частично или полностью база данных коллекции и изображения. Все это нужно загрузить в ПО Specify, воспользовавшись видео-инструкциями по загрузке данных и изображений. Для первой загрузке обратитесь за техподдержкой. Когда загрузка будет выполнена, мы автоматически создадим выгрузку коллекции на портал GBIF, где также будут отображаться сделанные сканы изображений.

Полезные источники по теме оцифровки гербариев и небольших коллекций в целом

  • Barkworth ME, Murrell ZE. The US Virtual Herbarium: working with individual herbaria to build a national resource. ZooKeys. 2012(209):55. URL https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3406466/
  • Hackett, R. A., M. W. Belitz, E. E. Gilbert, and A. K. Monls. 2019. A data management workfow of biodiversity data from the field to data users. Applications in Plant Sciences 7(12): e11310. doi:10.1002/aps3.11310
  • Harris KM, Marsico TD. Digitizing specimens in a small herbarium: A viable workflow for collections working with limited resources. Applications in plant sciences. 2017 Apr;5(4):1600125. URL https://bsapubs.onlinelibrary.wiley.com/doi/full/10.3732/apps.1600125
  • iDigBio Wiki resources: Collections Digitization Workflows URL https://www.idigbio.org/wiki/index.php/Collections_Digitization_Workflows
  • iDigBio Wiki resources: Digitization Resources URL https://www.idigbio.org/wiki/index.php/Digitization_Resources
  • Kovtonyuk Nataliya. (2020, October). Master class on herbarium digitization. Presented at the «Plant diversity: status, trends, conservation concept», Novosibirsk, Russia: Zenodo. http://doi.org/10.5281/zenodo.4282737 [презентация]
  • Khoreva M, Belyaeva I, Kovtonyuk N, Han I, Vokhmina O (2020). Salix pseudopentandra in the Herbarium (MAG) of the Institute of Biological Problems of the North, Far East Branch RAS. Version 1.5. Institute of the biological problems of the North FEB RAS. Occurrence dataset https://doi.org/10.15468/ms9q2t accessed via GBIF.org on 2021-03-13. [набор данных гербария]
  • Nieva de la Hidalga A, Rosin PL, Sun X, Bogaerts A, De Meeter N, De Smedt S, Strack van Schijndel M, Van Wambeke P, Groom Q (2020) Designing an Herbarium Digitisation Workflow with Built-In Image Quality Management. Biodiversity Data Journal 8: e47051. https://doi.org/10.3897/BDJ.8.e47051
  • Seregin, Alexey & Stepanova, Nina. (2020). MHA Herbarium: Eastern European collections of vascular plants. Biodiversity Data Journal. 8. e57512. 10.3897/BDJ.8.e57512.
  • Seregin, Alexey & Ахметжанова, А & Баландина, Т & Gamova, Natalia & Дудов, С & Дудова, К & Шведчикова, Н. (2019). Коллекции Гербария МГУ. 10.13140/RG.2.2.31602.86721. [презентация]
  • Seregin, Alexey. (2017). Digital Herbarium of Moscow State University: The Largest Russian Biodiversity Database. Biology Bulletin. 44. 584–590. 10.1134/S1062359017060103.
  • Seregin, Alexey. (2017). Digitisation of the Moscow University Herbarium (MW). 10.13140/RG.2.2.11201.97122. [видеозапись презентации]
  • Seregin, Alexey. (2018). Moscow Digital Herbarium: how it works?. 10.13140/RG.2.2.29516.10886. [презентация]
  • Seregin, Alexey. (2018). Moscow Digital Herbarium: OCR-mining of the text data for the Russia’s largest biodiversity database. 10.13140/RG.2.2.22579.68647. [презентация]
  • Seregin, Alexey. (2018). Цифровой гербарий МГУ: информационная система и контент (полное описание в скриншотах). 10.13140/RG.2.2.16225.97121. [документ]
  • Seregin, Alexey. (2018). Цифровой гербарий Московского университета: как это работает? [презентация]
  • Seregin, Alexey. (2019). Herbarium in Digital Era. 10.13140/RG.2.2.36657.33120. [презентация]
  • Seregin, Alexey. (2019). Moscow Digital Herbarium: a global approach through the regional actions. 10.13140/RG.2.2.21353.44644. [презентация]
  • Seregin, Alexey. (2019). Региональные порталы Цифрового гербария МГУ: Москва, Краснодарский край, Тульская область. 10.13140/RG.2.2.33497.67683. [презентация]
  • Seregin A. P. Making the Russian flora visible: fast digitisation of the Moscow University Herbarium (MW) in 2015 // Taxon. 2016. № 1 (65). C. 205–207.
  • Seregin A. P. The largest digital herbarium in Russia is now available online! // Taxon. 2018. № 2 (67). C. 463–467.
  • Seregin, Alexey. (2020). Moscow Digital Herbarium: a consortium since 2019. Taxon. 67. 10.1002/TAX.12228.
  • Tegelberg R, Mononen T, Saarenmaa H. High‐performance digitization of natural history collections: automated imaging lines for herbarium and insect specimens. Taxon. 2014 Dec;63(6):1307-13. URL https://onlinelibrary.wiley.com/doi/abs/10.12705/636.13
  • Tulig M, Tarnowsky N, Bevans M, Kirchgessner A, Thiers BM. Increasing the efficiency of digitization workflows for herbarium specimens. ZooKeys. 2012(209):103. URL https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3406470/
  • Хорева М.Г. 2020 Региональный гербарий (MAG) перед вызовами современной эпохи. Материалы III Национальной конференции с международным участием «Информационные технологии в исследовании биоразнообразия», с. 531-533.
%d такие блоггеры, как:
search previous next tag category expand menu location phone mail time cart zoom edit close