Отличает клен от клевера и понимает, как фермеру уберечь свой урожай
Ученые совместно с Yandex Cloud разработали систему на базе искусственного интеллекта, которая отслеживает распространение растений. Рассказываем, как работает технология и зачем она нужна в науке и сельском хозяйстве. Кстати, вы тоже можете поучаствовать.
От объема растений — продовольственных, лекарственных, кормовых — зависит ассортимент аптек и магазинов, а также цены на товары. А фермерам хотелось бы, чтобы урожай не уничтожили сорняки. Мы в АлтГУ разработали лабораторию, в которой можно строить прогнозы по распространению растений на любой территории. Рассказываю, с чего всё начиналось, чего мы достигли и что будем развивать дальше.
Как и зачем биологи начали классифицировать данные
В биологических коллекциях ученых и натуралистов-любителей можно найти и материалы 500-летней давности. Накоплением данных занимались давно, но только в последние десятилетия их начали обрабатывать. Тогда информация из таблиц, записей и личных компьютеров стала переходить в онлайн.
Чтобы собрать все материалы в одном месте, в 1999 году по заказу ОЭСР была создана Глобальная информационная система по биоразнообразию (Global Biodiversity Information Facility, GBIF). Сейчас в ней более 2 млрд записей.
Помимо коллекций ученых, один из источников данных для GBIF — платформа iNaturalist, на которую натуралисты и ученые загружают фотографии растений и животных с геопривязкой. Любитель может добавить фото и предположить, что это за вид, далее соответствие оценивается с помощью компьютерного зрения, а в конце определение проверяет ученый-биолог. Сегодня на платформе GBIF собрано более 72 тысяч баз данных.
Ученые используют эти данные в исследованиях и научных работах, чтобы изучать определенный вид, оценивать его популяцию и угрозу исчезновения, строить эволюционные теории.
Зачем все эти данные кому-то, кто не биолог
Прогнозы по поведению растений и животных нужны и государственным службам, и фермерам, и любителям природы.
Системе здравоохранения важно понимать, как распространяются инфекционные и вирусные организмы, а фитосанитарному контролю — как ведут себя инвазионные виды, такие как борщевик и колорадский жук. Для продовольственного планирования необходима оценка биоресурсов: сколько урожая будет в этом году.
В перспективе возможно введение лицензий на сбор растений на определенной территории — по аналогии с разрешением на охоту. Это особенно актуально для компаний, которые изготавливают фитосборы и собирают дикорастущие, в том числе лекарственные, растения.
Еще прогнозная модель поможет пожарному надзору. Чтобы оценить, как будет распространяться огонь и какие виды пострадают, важно знать, какая растительность в очаговом районе и на территориях вокруг.
Фермеры могут использовать систему для борьбы с агрессивными видами растений. Аллергикам стоит смотреть за распространением аллергена при планировании отпуска и выборе места для жизни. Любители отдыха на природе могут строить маршруты, опираясь на прогнозы о том, где они встретят то или иное растение.
Наша разработка: от коллекций на полках до виртуальной лаборатории
Мы собирали коллекцию алтайских растений — «Гербарий ALTB» — последние 30 лет. По величине она занимает четвертое место среди российских вузов.
К GBIF университет присоединился в 2017 году и с тех пор внес в систему 50 571 запись и соответствующее ей изображение гербарного листа. И это пока чуть более 10% всей коллекции АлтГУ.
Горная система Алтая и Саян входит в 200 ключевых экорегионов мира. На площади, составляющей всего 10% территории, сосредоточено 90% биоразнообразия планеты. При этом сейчас на карте GBIF Россия бледнее многих других регионов: это значит, что у нас пока цифровизовано очень мало данных. Надеюсь, что полный перенос коллекций вуза в цифровое облако GBIF изменит карту и Алтай еще сильнее загорится красной точкой.
В этому году в АлтГУ начался первый большой проект с применением методов информатики биоразнообразия — по фиторазнообразию Алтайской горной страны. Мы автоматизировали инвентаризацию конспектов растений и повысили точность карт для современных ареалов. Наша оцифрованная коллекция стала самой большой в мире по этой территории.
И наконец, на основе больших данных мы начали работать над системой, которая позволяет предсказывать распространение растений на определенной территории.
Как система выглядит сейчас
В виртуальной лаборатории можно отслеживать распространение растений на любой территории. Для анализа достаточно загрузить датасет — свой или из GBIF.
Пока система рассчитана на научных сотрудников. Например, им нужно выявить реальный и потенциальный ареал обитания ценного алтайского растения красный корень. Для этого они загружают уже имеющиеся данные о местонахождении этого вида.
Далее откроется карта с точками, где обитает этот вид в природе. Пользователи выбирают территорию, которую хотят исследовать, и система моделирует по ней потенциальный ареал обитания.
Ученые сами выбирают прогнозную модель и метод генерации фоновых точек.
При прогнозе модель учитывает накопленные данные по разным территориям: самая высокая и самая низкая температура, влажность, осадки, тип почвы. Коллекции данных, на которых обучалась система, тоже можно выбрать.
Результат появляется в виде тепловой карты:
Каждый пиксель соотносится с неким значением от 0 до 1 — это вероятность произрастания данного вида на территории. Например, 0,3 — 30% — маловероятно, а 1 — 100% — вероятность встречи с видом крайне высока.
На такой инфографике можно рассмотреть, в каких регионах встречается растение и по каким точкам это моделировалось.
Для работы с данными мы используем облачную платформу Yandex Cloud. В частности, храним там датасеты для обучения алгоритма. Для визуализации аналитики пока пользуемся бесплатными системами — возможно, заменим их на Yandex DataLens.
В Австралии существовал похожий проект по прогнозированию биоразнообразия и климата — BCCVL (Biodiversity and Climate Change Virtual Lab). Теперь на его основе появится другая платформа для экологического моделирования — EcoCommons. Отличие нашей системы в том, что, помимо визуализации на карте, она может оценить, какую территорию занимает вид. То есть 90%-ная встречаемость — это сколько в квадратных километрах.
Как система будет работать в будущем
Мы упростим сервис так, чтобы им мог пользоваться кто угодно. Например, точки присутствия вида будут загружаться из GBIF — фермеру или путешественнику не придется самостоятельно искать и загружать датасеты.
Пользователю нужно будет ввести название растения — узнать его можно через iNaturalist. Возможно, в дальнейшем мы добавим идентификацию по фотографии в свою систему. Далее пользователь выберет территорию, по которой ему нужен прогноз. Например, можно задать определенный радиус от своего местоположения или указать любой другой регион.
Такие функции появятся в приложении для любителей, которое мы планируем разработать через полтора года. А в браузерной версии будут расширенные возможности для профессионалов.
Зачем ученым помощь любителей
Как объект изучения для биолога ценен любой материал — даже тот, которому 500 лет. Но вот для биомоделирования нужно понимать актуальную картину, поэтому ученых интересуют образцы флоры и фауны с точными координатами, собранные за последние 30−50 лет. Их гораздо меньше, и почти все они были оцифрованы в первые годы. Поэтому в начале 2010-х стало поступать меньше данных из виртуальных коллекций. Новый всплеск начался с появлением платформы iNaturalist, когда данными смогли делиться даже любители. Чтобы этот процесс продолжался и жители России активно пополняли такие базы данных, необходимо их вовлекать и обучать.
В 2020 году я разработал онлайн-курс по методам сбора и обработки биологических данных. На него могут прийти как биологи, так и просто все неравнодушные. А посмотреть, как устроена настоящая лаборатория и как ученые собирают данные в поле, можно в режиме VR в нашем видео на YouTube.
Подписывайтесь на блог Yandex Cloud, чтобы узнавать еще больше новостей и историй об IT и бизнесе.
Другие истории наших партнеров и клиентов, которые активно читают наши подписчики:
в общем это все не для обычных людей
Сейчас система, правда, больше для научных сотрудников. Но команда сейчас много работает, чтобы ее упростить и сделать доступной для каждого, кто хочет обнаружить лютик на своем огороде
3 года назад была в Украине, недалекоот Мариуполя. Там местный агрохолдинг обрабатывал земли. Дроны для полива, тракторы на дстанционном управлении, подход просто обалденный. Так что технологии и агрохолдинг стали очень близки друг к другу
А что там теперь?
Глобальная информационная система по биоразнообразию (Global Biodiversity Information Facility, GBIF)Ого, удобненько. Можно посмотреть, что там растет у врага и ударить по самым слабым местам сельского хозяйства. Да и биотеррористам будет интересно ознакомиться.