Чему научились камеры в смартфонах за прошедший год и как это повлияет на будущее мобильной съёмки

Комментарии специалистов из ABBYY, Sloy, Redmadrobot, «ВКонтакте» и «Одноклассников».

Синтез «софта» и «железа» помог смартфонам заменить для большинства людей фотоаппарат. Уже сегодня на телефонах объективы «видят» в темноте, снимки улучшает искусственный интеллект (ИИ), а дополненная реальность превращает камеру в мощный инструмент, который обещает в будущем поменять наше взаимодействие с окружающим миром.

IKEA

Redmadrobot спросил у специалистов по работе с ИИ из ABBYY, Sloy, Redmadrobot, «ВКонтакте» и «Одноклассников», почему объективов с каждым годом становится только больше, как работают алгоритмы нейросетей для обработки снимков и какие возможности для мобильного творчества появятся в наших руках в ближайшем будущем.

Камера в смартфоне — самая популярная в мире. Это стало основной причиной, почему производители тратят львиную долю усилий на апгрейд фото- и видеорежимов. В 2018 году смартфонов продали в сто раз больше, чем камер — 1,4 млрд штук против 15 млн.

По словам руководителя отдела мобильных продуктов ABBYY Игоря Акимова, камеры современных смартфонов унаследовали возможности от профессионального оборудования.

Например, они могут снимать с помощью разных объективов (широкоугольного, портретного, макро и других), используют лёгкий зум, быстро наводят фокус, умеют делать боке и так далее.

Даже чтобы отсканировать и распознать данные из паспорта, посадочного талона или визитной карточки, бывают полезны несколько камер.
Например, при съёмке визитки в ABBYY Business Card Reader приходится подносить смартфон близко к документу, на фото из-за этого часто видно тень от руки.
Используя «портретную» двойную камеру, мы можем получить более качественную картинку с меньшими искажениями. А это значит, что данные можно извлечь быстрее и без ошибок.
Игорь Акимов, руководитель отдела мобильных продуктов ABBYY

Как правило, лучше всего система из нескольких камер работает в тех случаях, когда приложение для камеры создаётся под конкретную модель смартфона. Так, например, поступает компания Apple.

По словам Android-разработчика из Redmadrobot Ильи Войцеховского, одна из главных сложностей в использовании камеры в Android — большое количество производителей телефонов. У каждого свой модуль камеры со специальным драйвером, из-за чего смартфон может вести себя непредсказуемо.

У некоторых устройств при фокусировке может отработать вспышка. Или «фонарик» может выключиться после снимка. Приходится добавлять обработки, чтобы везде работало более-менее одинаково.
Например, в Nexus 5X, камера которого перевёрнута (видимо, с целью уместить всё на плате), иногда фото и видеосъёмка происходят вверх ногами. Это заставляет делать дополнительные проверки на совпадение угла поворота камеры и телефона. Сам столкнулся с этим явлением, когда сканировал кредитную карту в популярных приложениях.
Другая сложность заключается в том, что мы не всегда имеем доступ к API, который использует производитель, а значит, и к некоторым возможностям камеры. Но это может поменяться благодаря новым требованиям Android.
Илья Войцеховский, Android-разработчик в Redmadrobot

Работать в одной связке камерам помогает API — интерфейс прикладного программирования, упрощающий разработку ПО. По словам разработчика Sloy Вячеслав Гилевича, в iOS API камер обновляют каждый год.

В iOS API камер за последние несколько лет коренным образом не менялось, но с каждым годом добавляют новые интересные мелочи. В этом году добавили возможность снимать видео с нескольких камер одновременно.
Вячеслав Гилевич, разработчик Sloy

А на платформе Android доступ через API к нескольким камерам для разработчиков открыли в 2018 году, начиная с операционной системы "Pie".

Руководитель команды Android-разработки «ВКонтакте» Олег Смирнов рассказывает, что Google выпустила уже три версии API, и в каждой есть свои ошибки, но это верный способ помочь разработчикам, работающим с камерами.

Google давно сделала API для работы с камерой. Даже две версии — Camera и Camera2. Во второй они хотели учесть ошибки первой, но там появились свои. Разработчики под Android до сих пор используют оба варианта в своих приложениях.
В 2019 году Google представила третье API — CameraX. Правда, этот API ещё в альфа-версии. Компания хочет максимально привлечь производителей Android-устройств развивать его — они могут распространять свои фото и видео-эффекты в рамках этого API.
Я очень надеюсь, что нам не придётся одновременно поддерживать все три варианта для работы с камерой, и Google сделает всё, чтобы упростить жизнь разработчикам.
Олег Смирнов, руководитель команды Android-разработки «ВКонтакте»

Несмотря на ошибки, плюсы от API есть уже сейчас. Если раньше разработчики получали доступ только к одной камере, то теперь могут работать со всеми, что установлены в смартфоне. Инструменты для работы с несколькими камерами открывают большие возможности для улучшения пользовательского опыта.

До и после открытия API для доступа к нескольким камерам Medium

Например, с помощью API разработчики расширяют возможности работы с широкоугольной селфи-камерой на некоторых Android-смартфонах. Они встраивают возможность «отдалить» масштаб фото и вместить больше людей на снимке, с помощью переключения фронтальной камеры — с обычной на широкоугольную.

Другая популярная вещь — это измерение глубины. Получив доступ к двум камерам, можно уже точнее оценивать глубину предметов. Самое распространённое применение — портретный режим или боке.
Илья Войцеховский, Android-разработчик в Redmadrobot

Слаженная работа нескольких камер проявляет себя не только во время фото, но и в видео. Александр Кондрашов — тревел-блогер, и каждый день работает с камерой. По его словам, он снимает на разные DSLR и экшен-камеры, такие как GoPro 8. Но несмотря на свой богатый арсенал, блогер часто снимает на iPhone.

Последний iPhone сильно удивил в плане качества съёмки. Во-первых, широкоугольный объектив — стало очень удобно снимать. Также у записи на выходе очень хороший звук. И зум есть, хоть он и цифровой, но его вполне хватает, чтобы что-то снять. А ещё у камеры хорошая стабилизация.
Если человек хочет начать снимать блог или просто что-то снимать, достаточно купить себе последний iPhone. Ну и микрофон. Мы сейчас живём в эру, когда для того, чтобы стать контент-мейкером, не нужны операторы и куча техники дорогой, можно просто купить смартфон и попробовать себя в роли видеооператора или блогера.
Александр Кондрашов, предприниматель, инвестор, тревел-блогер

Про универсальность смартфона рассказывает и менеджер продукта сервиса «Фото» в «Одноклассниках» Артём Алимов.

По мере развития смартфонов, «железо» камер в них также стремительно совершенствуется. Вместо десятков настроек выдержки, диафрагмы и светочувствительности, сейчас мы можем без потери качества получить такой же результат за пару кликов.
Теперь, когда у любого человека в кармане полноценный фотоаппарат, паттерны поведения в сети меняются вслед за ростом производительности камер. Каждый может стать профессиональным фотографом, не приобретая при этом дорогостоящего оборудования.
Артём Алимов, менеджер продукта сервиса «Фото» в «Одноклассниках»

При создании видео, сегодня наибольшее внимание уделяют цифровой стабилизации, замедленной съёмке в 240 кадров в секунду, и скоростной съёмке.

Apple

По словам главы Redmadrobot Data Lab Юрия Чайникова, первые проявления ИИ в фотосъёмке наблюдались ещё в цифровых фотоаппаратах.

В те далёкие годы, автофокус на лице и красные глаза, были реальной проблемой. Вычислительные мощности процессоров были на порядки меньше и работающие сегодня методы были недоступны.
Приходилось выкручиваться. Каскад Хаара (способ распознавания классов объектов с большой скоростью работы — Redmadrobot) — как вычислительно дешёвый способ определения лиц для автофокуса, был в своё время прорывом.
Качество съёмки в современном телефоне определяется не только качеством и количеством камер, а в значительной степени силой и разнообразием алгоритмов обработки.
Юрий Чайников, генеральный директор Redmadrobot Data Lab

Пример работы Каскада Хаара YouTube

Одновременная работа двух-трёх объективов в смартфоне и анализ с помощью ИИ позволяет сегодня определять не просто лица, но и замечать на них даже микродвижения.

По словам Олега Смирнова, несколько лет назад запуск ИИ на мобильном телефоне казался фантастикой, а сегодня технология перевернула возможности постобработки фото и видео.

Google и Apple сделали свои удобные библиотеки для работы с ИИ. Запускаются они в несколько десятков строк кода.
Уже сегодня смартфоны индексируют с помощью нейросетей наши фото, подобно поисковику Google. Информации много, фото много, а ИИ помогает всё структурировать.
Олег Смирнов, руководитель команды Android-разработки «ВКонтакте»

Один из примеров «улучшения» фото при постобработке — режим Deep Fusion в iPhone. Он работает как пиксельная доработка и «дорисовывает» микро-контраст изображения, понимая, где это делать нужно, а где — нет.

Кроме Deep Fusion, в 2019 году Apple анонсировала ещё два режима съёмки:

Smart HDR. HDR существует достаточно давно, он позволяет делать фотографии c оптимальной яркостью. Приставка Smart означает, что телефон определяет лица и подстраивает нужный уровень яркости кожи.
Night Mode. Последние модели iPhone научились делать хорошие фотографии в темноте.

По словам руководителя iOS-разработки в Redmadrobot Ивана Вавилова, производителям смартфонов проще вложиться в программное улучшение фото, чем пытаться добавить железо уровня профессиональных камер в ограниченный размер корпуса. Поэтому, в последнее время сильно развивается специализированное ПО.

Самое заметное из того, что добавилось в iPhone в 2019 году — это третья камера. Теперь можно сделать широкоугольное фото. На предыдущей модели был доступен двухкратный зум, теперь, с учётом широкоугольной камеры — четырёхкратный.
Все алгоритмы работают похожим образом — делается несколько фотографий с разными параметрами, а потом с помощью алгоритмов ML (machine learning — Redmadrobot) устраняются недостатки, фото на выходе состоит из лучших частей каждого из входных.
То есть, сегодня новшеств больше в программной прослойке, нежели в аппаратной. Хотя от широкоугольной камеры вряд ли кто-то откажется.
Для разработчика поменялось немного — добавили возможность одновременной работы двух камер, обработку портретных фото для отделения волос, кожи, зубов, что понадобится для наложения эффектов, масок на отдельные части лица.
Иван Вавилов, руководителя iOS-разработки в Redmadrobot

По словам Ильи Войцеховского, большой прорыв в мобильной фотографии сейчас происходит благодаря вычислительной фотографии.

Например, большой популярностью пользуется техника комбинирования кадров. Для этого делается целая серия кадров, в каждом из которых немного меняется какой-то параметр, например — экспозиция. Так рождаются HDR (high dynamic range) фотографии.

Интересный пример комбинирования кадров — это Super Res Zoom от Google. Снято с «приближением» фото обычно получается размытым, потому что не во всех камерах используется оптическое увеличение. Используя технику комбинирования кадров и модель машинного обучения, можно сделать более чёткий снимок на дальнем расстоянии, даже с обычными линзами.
Для этого камера снимает ряд кадров, каждый из которых имеет некоторый сдвиг (рука человека всё-таки немного двигается). Затем модель выбирает образцовый снимок, на основании которого будут дополняться детали.
Далее, если модель уверена, что деталь корректно соотносится с объектом на исходном снимке, и при этом нет искажений от наложения кадров, то они совмещаются на одном фото. Это позволяет избежать размытия от движения, раздваивания объектов или неправильно склеенных регионов фото.
Илья Войцеховский, Android-разработчик в Redmadrobot

Пример работы Super Res Zoom

Чётких снимков помогает добиться не только Super Res Zoom, но и технология OIS (optical image stabilization) — оптическая стабилизация, при которой быстрое движение камеры компенсирует небольшие движения смартфона. Это помогает сделать более долгую выдержку без размытия.

В некоторых смартфонах на Android проблему с размытием решают с помощью HDR+ от Google — делают ряд снимков с коротким временем экспозиции. Затем снимки комбинируются в одно фото.

Ночной режим также строится на HDR+, но с более долгой выдержкой. Именно поэтому это занимает большее время и часто на экране смартфона появляется сообщение о том, что нужно держать камеру неподвижно, или поставить ее на штатив.

Также для ночной съёмки у Google есть технология night sight, которая решает интересную проблему — ночью сложно вычислить, какого цвета должно быть итоговое фото.
Для этой задачи задействовали машинное обучение (так называемый “learning based auto white balance” — автоматический баланс белого на основе машинного обучения), обученная модель сама подбирает наиболее подходящие цвета.
Результатом может быть, например, менее “жёлтое” фото — больше похожее на то, что видит человеческий глаз.
Илья Войцеховский, Android-разработчик в Redmadrobot

Чтобы научить ИИ «улучшать» фотографии, разработчики используют два подхода: обучение «с учителем» и обучение «без учителя».

Например, можно взять снимок с высоким разрешением, «огрубить» его до более низкого разрешения, а потом объявить его «источником», а хороший — целью работы нейросетки. И тренировать её на таких парах, пока не научится. Это обучение «с учителем».
Аналогичным образом — когда мы хотим сделать алгоритм, превращающий снимок в более приятную версию. Здесь нам приходится так или иначе спрашивать реальных людей, что им нравится больше, а что меньше.
Юрий Чайников, генеральный директор Redmadrobot Data Lab

ИИ помогает не только «улучшать» фото, но умеет и полностью менять его. В этом случае применяется компьютерное зрение. Из мощных инструментов для работы с этой технологией, Игорь Акимов выделяет API от Huawei или Apple, c помощью которых создают приложения для самых разных задач.

Сегодня есть инструменты, с помощью которых пользователи могут «накладывать» макияж неотличимый от реального (Voir), замазывать некрасивый фон (например, для конференц-звонка), увеличивать разрешение фото в 9 раз без потери качества, убирать с фотографии лишние объекты, и так далее.
ИИ помогает и в улучшении продуктивности. В последней версии ABBYY FineScanner мы научились автоматически находить в галерее изображения только с нужным текстом, не учитывая все лишние картинки. Например, найти изображение паспорта в большом документе, при необходимости можно всего несколько секунд.
Игорь Акимов, руководитель отдела мобильных продуктов ABBYY

Развитие приложений с дополненной реальностью (AR) — одна из причин, почему количество камер в смартфонах увеличивается, а их устройство становится сложнее.

Появился тренд на 2–3–4 камеры в смартфоне. Они позволяют определять глубину кадра, но менее точно, чем это делают камеры Time-of-Flight (ToF). Последние позволяют гораздо точнее определять глубину кадра, и создавать огромное количество эффектов.
Вячеслав Гилевич,
разработчик Sloy

Про ToF-камеры рассказывает и Игорь Акимов. По его словам, в будущем они станут окном в мир дополненной реальности.

Для улучшения возможностей AR нужны «камеры глубины», например, Time-of-Flight, которые измеряют время прохождения отражённого света и строят «карту глубины» местности.
Они позволяют с одного наведения создавать 3D-карту пространства, а дальше отдавать её и внутри приложения генерировать в ней дополнительные «объекты», полностью погружая пользователя в новый мир.
Игорь Акимов, руководитель отдела мобильных продуктов ABBYY

Apple

Пока что ToF-камеры установлены только в нескольких устройствах на Android (в основном для улучшения размытия в портретном режиме), а по слухам, в 2020 году их поставят и в iPhone.

Мы в ABBYY тоже экспериментируем с дополненной реальностью. На смартфоне использовать такие технологии не всегда удобно, но при наличии хороших AR-очков с качественными камерами и ToF-сенсорами открываются новые возможности: от быстрой проверки паспорта «в полях», до работы с полноценными виртуальными рабочими столами в дороге.
Игорь Акимов, руководитель отдела мобильных продуктов ABBYY

«Скорее всего можно будет точнее размещать виртуальные предметы мебели при планировании комнаты или измерять размеры ручной клади через приложение», — рассуждает об использовании AR Илья Войцеховский. По словам Олега Смирнова, AR хоть и медленно, но уверенно набирает популярность.

3D-эмодзи, виртуальные маски, распознавание объектов реального мира. В последнее время появилось много стартапов, которые выжимают из камер смартфонов всё. Больше сенсоров — больше информации, а значит — новые технологии можно сделать точнее.
Олег Смирнов, руководитель команды Android-разработки «ВКонтакте»

По словам Александра Кондрашова, сегодня смартфоны снимают уже настолько хорошо, что в скором времени полностью займут место цифровых камер.

Думаю, что сейчас рынок идёт к тому, что останутся только смартфоны и суперпрофессиональные камеры, такие как RED. Сегодня смысла покупать отдельную камеру никакого нет. Единственное, что неудобно — могут позвонить и съёмка прервётся. Но есть авиарежим — и можно спокойно снимать.
Александр Кондрашов, предприниматель, инвестор, тревел-блогер

«Я считаю, что это не взаимозаменяемые вещи, а взаимодополняемые», — рассуждает о камерах и смартфонах Олег Смирнов.

Камера смартфона для быстрого, современного мира. Сделать снимок и выложить его в социальную сеть можно за пару кликов — в этом большой плюс смартфона.
Но, в то же время, я вижу рост уличной фотографии, и многие предпочитают снимать на классические зеркальные камеры. Инструментов для самовыражения должно быть много!
Олег Смирнов, руководитель команды Android-разработки «ВКонтакте»

Игорь Акимов не говорит, выживут ли в будущем камеры, но рассуждает, что оборудование и ПО продолжат развиваться в одной связке.

В будущем, благодаря эволюции «железа» и «софта», фотографии и видеоролики будут всё дальше отдаляться от реального мира. Они продолжат улучшаться под наши потребности прекрасного, и будут решать всё больше задач без нашей помощи (например профессионально ретушировать фото — Redmadrobot). Но кажется, что никто и не против.
Игорь Акимов, руководитель отдела мобильных продуктов ABBYY

По словам Вячеслав Гилевича, будущее за 3D-технологиями, и в ближайшем времени трёхмерное пространство станет таким же обычным делом, как фотографии сегодня.

Через пару лет, по фотографиям можно будет воссоздать всю сцену в 3D, и походить по ней, будто находясь на месте съёмок. Сегодня мы находимся на новом витке развития технологий для фото- и видеосъёмки. И качество работы этих технологий может отличаться в различных условиях.
Нам предстоит провести грань между алгоритмами, что уже готовы к массовому использованию, и теми, которые являются по сути «демками» и работают в ограниченных условиях. Но мы уверены, что в будущем технологии постобработки изображений с помощью нейронных сетей станут неотъемлемой частью создания фото и видеоконтента.
Вячеслав Гилевич, разработчик Sloy

«Давайте я вам лучше приведу несколько примеров, которые выглядят как фантастика, но являются реальными, на основе уже реализованных алгоритмов», — рассуждает будущем технологий Юрий Чайников.

Приложение, которое по минутному видео с лицом человека определяет сердечный пульс. Человеческий глаз не в силах заметить микроколебания головы и пульсацию цвета кожи при каждом ударе сердца, а алгоритм может.
Приложение, которое «на лету» переводит надписи с одного языка на другой, заменяя их изображение непосредственно в видеопотоке.
Приложение, которое с помощью камеры определяет, сколько понадобится коробок для переезда.
Юрий Чайников, генеральный директор Redmadrobot Data Lab

По мнению Артёма Алимова, ежегодное улучшение камер и создание всё более мощного ПО в смартфонах, положительно скажется на развитии бизнеса и сделает способы его продвижения более эффективными.

Фотографии в соцсетях перестали быть просто дополнением к текстовой публикации. Из статичных объектов они превратились в «живые». Различные инструменты к фотографиям (маски, стикеры, элементы геймификации) стали нормой и позволяют более полно выразить эмоции людей. Это создает огромные возможности для персонализации контента, и мы планируем развивать это направление.
Артём Алимов, менеджер продукта сервиса «Фото» в «Одноклассниках»

Что самое важное даёт вам камера смартфона?

Съёмку фото и видео в хорошем качестве и в различных режимах.

Возможность использовать различные приложения, например, для сканирования документов или измерения пульса.

Перспективу использовать в будущем дополненную реальность.

#apple #google #ai #ar #redmadrobot

13 комментариев

Gennady Bobrov

30.12.2019

В этом году продал зеркалку на Авито, т.к. с покупкой нового смартфона она стала просто собирать пыль на полке и я понял что это уже навсегда. По сути остался один сценарий где непрофессионалу ещё нужна отдельная камера - это съёмка быстродвижущихся объектов (спорт и т.п.). Ну и для профи конечно важно подключение внешних вспышек, света и т.п. вещей. А так - отдельные фотоаппараты как масс сегмент умерли в этом году окончательно.

Ответить

Сергей Токарев

у меня остаются только сценарии "снять белку в ветвях" - так как совсем близко подойти они редко дают, а хочется дать нормальное кадрирование сразу, а не вырезать потом марку из большого фото