10 лучших опенсорсных инструментов аннотирования для компьютерного зрения

Наша компания знает важность подбора качественных инструментов разметки и аннотирования изображений для создания точных и полезных массивов данных. В нашем блоге можно найти серию статей Tools we love, в которой мы подробно рассматриваем некоторые из наших любимых инструментов аннотирования, а также выбранные нами лучшие инструменты аннотирования за 2019, 2020 и 2021 годы.

В процесса роста сферы аннотирования изображений мы наблюдаем увеличение количества опенсорсных инструментов, позволяющих любому размечать изображения бесплатно и пользоваться широким набором функций. В этой статье мы расскажем о десяти лучших опенсорсных инструментах аннотирования для машинного зрения!

Наш самый любимый опенсорсный инструмент для разметки — это Label Studio компании Heartex Inc. В статье за 2021 год мы рассказывали об enterprise-версии этого инструмента, потому что были впечатлены его гибкостью и широким набором функций для активного обучения и совместной работы. Оперсорсная версия этого инструмента работает со всеми типами данных, например, с аудио, текстом, изображениями, видео и временными последовательностями.

Она поддерживает широкий набор типов аннотирования, включая классификацию изображений, распознавание объектов, семантическую сегментацию. Работает практически с любым типом данных, например, с аудио, изображением, текстом и HTML, а также имеет уникальную настройку конфигурации под названием Labeling Config, при которой можно спроектировать собственный UI. Версия имеет множество функций автоматизации на основе алгоритмов, в том числе опцию предварительной разметки, которая может предварительно размечать данные на основании готовой модели машинного обучения. Наконец, нам нравится в ней то, что у неё есть активное сообщество пользователей и очень активный канал в Slack, где можно обменяться советами или отправить вопрос команде разработчиков.

Вторая платформа в этом списке — это Diffgram. Про Diffgram мы тоже рассказывали в серии Tools we love, когда эта платформа ещё была платной. С весны 2021 года Diffgram стала полностью опенсорнсой платформой с опциональными платными managed-сервисами и enterprise-поддержкой. Мы полностью поддерживаем такой переход и очень рады, что платформа стала доступной большему количеству пользователей.

Она выделяется тем, что являясь платформой для аннотирования, также имеет различные функции управления массивами данных и рабочими процессами. Она поддерживает практически все типы пространственных аннотаций на изображениях и в видео, в том числе ограничивающие прямоугольники, кубоиды, сегментацию и ключевые точки. Её функция семантической сегментации предоставляет различные инструменты, например, автоматическое определение границ, комбинированные формы, преобразование точек в полные многоугольники. Кроме того, её функция аннотирования видео поддерживает интерполяцию и разметку последовательностей, например, отслеживание событий и объектов.

LabelIMG — ещё один очень популярный опенсорсный и бесплатный инструмент разметки изображений. На самом деле, это был первый инструмент разметки, который мы использовали в 2017 году; он существенно упростил нашу работу благодаря своему простому и интуитивно понятному интерфейсу, а также тому, что для обеспечения максимальной безопасности данных он может работать офлайн.

Кроме того, его можно установить в практически любую операционную систему: Windows, Linux, Ubuntu и Mac OS, а его Python-библиотеку также можно использовать в Anaconda или Docker. Однако единственный способ разметки в нём — это ограничивающие прямоугольники; именно поэтому это отличный инструмент для первого раза, но его может оказаться недостаточно для более сложных проектов. Он может сохранять аннотации в виде файлы XML в формате PASCAL VOC, а также в форматах YOLO и CreateML.

Computer Vision Annotation Tool (CVAT) — это опенсорсное ПО, разработанное компанией Intel. Хотя его UI не самый интуитивно понятный, он имеет очень мощные и современные функции, и при этом работает в Chrome. Он по-прежнему является одним из основных инструментов, которые мы и наши клиенты используют для разметки, учитывая, что он гораздо быстрее, чем множество других инструментов, доступных на рынке.

Он обеспечивает распознавание объектов, классификацию изображений, сегментацию и аннотирование изображений при помощи прямоугольников, многоугольников, линий и ключевых точек. CVAT даже предоставляет различные функции автоматизации наподобие копирования и переноса объектов, отслеживания и интерполяции объектов при помощи TensorFlow OD API. В CVAT легко организовать совместную работу, можно разделять и делегировать задачи.

ImageTagger — это опенсорсная онлайн-платформа для совместной разметки изображений. Эта платформа разработана Никласом Фидлером с факультета информатики Гамбургского университета специально для потребностей Robot World Cup; она спроектирована таким образом, чтобы сама процедура разметки была как можно более интуитивно понятной и быстрой.

Инструмент позволяет размечать массивы изображений при помощи ограничивающих прямоугольников, многоугольников, линий и ключевых точек. У него есть опции управления проектами и функции, помогающие с QA, например, предварительная загрузка изображений, выгрузка существующих меток и верифицирование меток. Кроме того, поскольку ImageTagger делает упор на совместную работу, инструмент обеспечивает возможность крупномасштабной совместной работы над разметкой массивов изображений при помощи разделения разметчиков на команды.

LabelMe — это опенсорсный инструмент, считающийся классикой отрасли. Этот инструмент, разработанный в 2008 году Массачусетским технологическим институтом для создания каноничного массива данных LabelMe, можно использовать как онлайн, так и офлайн. Он может работать в операционных системах Windows, Ubuntu и Mac вместе с Python launcher. LabelMe обеспечивает аннотирование изображений и видео при помощи многоугольников, прямоугольников, окружностей, линий, ключевых точек, а также позволяет выполнять как семантическую сегментацию, так и сегментацию экземпляров.

Кроме того, он обеспечивает классификацию при помощи инструмента аннотирования флагов изображений, а также функцию очистки, и имеет настраиваемый UI. Также он позволяет экспортировать семантическую сегментацию и сегментацию экземпляров в форматах VOC и COCO. Однако он практически не имеет функций управления проектами, поскольку не предназначен для совместной разметки. Вместо этого у него есть интеграция с Mechanical Turk для удобного аутсорсинга ручного процесса разметки.

VGG Image Annotator, также известный под названием VIA, разработан Visual Geometry Group Оксфордского университета. Это довольно простой инструмент аннотирования, в котором можно вручную размечать изображения, аудио и видео — и это один из наших любимых инструментов, который мы продолжаем регулярно использовать. Он очень прост в установке и использовании, его можно применять как офлайн-приложение в любом браузере с поддержкой HTML.

VIA может выполнять разметку такими элементами, как прямоугольники, окружности, эллипсы, многоугольники, ключевые точки и линии. VIA поддерживает экспорт в CSV и JSON, а также ограниченные функции управления проектами, например, назначение одному аннотатору нескольких задач и отслеживание прогресса при помощи простого, но удобного UI.

Make Sense — это относительно новая опенсорсная платформа аннотирования. Выпущенная летом 2019 года Петром Скальски платформа имеет потрясающий UI и удобные возможности аннотирование с дополнительными функциями распознавания объектов и изображений. Для знакомства с платформой перейдите на её сайт, перетащите изображение, после чего можно сразу приступать к аннотированию. Сайт не сохраняет изображения онлайн, а значит, не возникает и проблем с конфиденциальностью.

Make Sense поддерживает ограничивающие прямоугольники, ключевые точки, линии и многоугольники; она даже использует модели AI для автоматизации некоторых задач аннотирования, например, модель SSD, предварительно обученную на массиве данных COCO, и модель PoseNet, которую можно использовать для определения позы человека и ключевого тела на изображении или в видео. В настоящее время Make Sense не имеет функций управления проектами и API.

COCO Annotator Джастина Брукса разработан при помощи Vue.js — опенсорсного фронтендного JavaScript-фреймворка с моделью model–view–view для создания пользовательских интерфейсов и одностраничных приложений. Это веб-инструмент для сегментации изображений, предназначенный для помощи в разработке и обучении моделей распознавания объектов, локализации и распознавания ключевых точек.

Разметку массивов данных можно выполнять при помощи кривых произвольной формы, многоугольников и ключевых точек; также он имеет функции для разметки сегментов изображений, отслеживания экземпляров объектов и даже позволяет размечать объекты с разделёнными видимыми частями в одном экземпляре, эффективно сохраняя и экспортируя аннотации в формат COCO. COCO annotator также поддерживает аннотирование изображений при помощи частично обученных моделей и имеет мощные инструменты выделения, например, DEXTR, MaskRCNN и Magic Wand. Наконец, он предоставляет систему аутентификации пользователей для обеспечения безопасности.

Наш последний участник — это опенсорсная платформа, которая больше не обновляется. Раньше Dataturks был платным сервисом, который в 2018 году приобретела Walmart, после чего разработка платформы разметки была остановлена и теперь она свободно доступна на GitHub. Она совершенно бесплатна, несмотря частые упоминания о платных дополнительных функциях при использовании ПО. Похоже, она долгое время не развивалась, но всё равно остаётся надёжным опенсорсным инструментом аннотирования. Она позволяет командам асинхронно работать над различными типами аннотаций, включая изображения, видео, текст и NER.

При аннотировании изображений она позволяет отрисовывать многоугольники произвольной формы для генерации масок изображений с целью сегментации, а также поддерживает классификацию изображений при помощи меток-многоугольников и ограничивающих прямоугольников. Она даже имеет функцию визуального отслеживания объектов: пользователь может нарисовать ограничивающий прямоугольник вокруг объекта в определённых кадрах видео, после чего инструмент автоматически выполнит интерполяцию между этими точками. Dataturks может экспортировать данные в форматы VOC, Tensorflow и Keras.

Понравилась статья? Еще больше информации на тему данных, AI, ML, LLM вы можете найти в моем Telegram канале “Роман с данными”

Как подготовиться к сбору данных, чтобы не провалиться в процессе?
Как работать с синтетическими данными в 2024 году?
В чем специфика работы с ML проектами? И какие бенчмарки сравнения LLM есть на российском рынке?

Обо всем этом читайте в “Роман с данными”

Автор оригинала: humansintheloop.org

#разметкаданных

10 лучших опенсорсных инструментов аннотирования для компьютерного зрения

1. Label Studio

2. Diffgram

3. LabeIImg

4. CVAT

5. ImageTagger

6. LabelMe

7. VIA

8. Make Sense

9. COCO Annotator

10. Dataturks