Чему научились камеры в смартфонах за прошедший год и как это повлияет на будущее мобильной съёмки
Комментарии специалистов из ABBYY, Sloy, Redmadrobot, «ВКонтакте» и «Одноклассников».
Синтез «софта» и «железа» помог смартфонам заменить для большинства людей фотоаппарат. Уже сегодня на телефонах объективы «видят» в темноте, снимки улучшает искусственный интеллект (ИИ), а дополненная реальность превращает камеру в мощный инструмент, который обещает в будущем поменять наше взаимодействие с окружающим миром.
Redmadrobot спросил у специалистов по работе с ИИ из ABBYY, Sloy, Redmadrobot, «ВКонтакте» и «Одноклассников», почему объективов с каждым годом становится только больше, как работают алгоритмы нейросетей для обработки снимков и какие возможности для мобильного творчества появятся в наших руках в ближайшем будущем.
Слаженная работа объективов с помощью ПО
Камера в смартфоне — самая популярная в мире. Это стало основной причиной, почему производители тратят львиную долю усилий на апгрейд фото- и видеорежимов. В 2018 году смартфонов продали в сто раз больше, чем камер — 1,4 млрд штук против 15 млн.
По словам руководителя отдела мобильных продуктов ABBYY Игоря Акимова, камеры современных смартфонов унаследовали возможности от профессионального оборудования.
Например, они могут снимать с помощью разных объективов (широкоугольного, портретного, макро и других), используют лёгкий зум, быстро наводят фокус, умеют делать боке и так далее.
Даже чтобы отсканировать и распознать данные из паспорта, посадочного талона или визитной карточки, бывают полезны несколько камер.
Например, при съёмке визитки в ABBYY Business Card Reader приходится подносить смартфон близко к документу, на фото из-за этого часто видно тень от руки.
Используя «портретную» двойную камеру, мы можем получить более качественную картинку с меньшими искажениями. А это значит, что данные можно извлечь быстрее и без ошибок.
Как правило, лучше всего система из нескольких камер работает в тех случаях, когда приложение для камеры создаётся под конкретную модель смартфона. Так, например, поступает компания Apple.
По словам Android-разработчика из Redmadrobot Ильи Войцеховского, одна из главных сложностей в использовании камеры в Android — большое количество производителей телефонов. У каждого свой модуль камеры со специальным драйвером, из-за чего смартфон может вести себя непредсказуемо.
У некоторых устройств при фокусировке может отработать вспышка. Или «фонарик» может выключиться после снимка. Приходится добавлять обработки, чтобы везде работало более-менее одинаково.
Например, в Nexus 5X, камера которого перевёрнута (видимо, с целью уместить всё на плате), иногда фото и видеосъёмка происходят вверх ногами. Это заставляет делать дополнительные проверки на совпадение угла поворота камеры и телефона. Сам столкнулся с этим явлением, когда сканировал кредитную карту в популярных приложениях.
Другая сложность заключается в том, что мы не всегда имеем доступ к API, который использует производитель, а значит, и к некоторым возможностям камеры. Но это может поменяться благодаря новым требованиям Android.
Работать в одной связке камерам помогает API — интерфейс прикладного программирования, упрощающий разработку ПО. По словам разработчика Sloy Вячеслав Гилевича, в iOS API камер обновляют каждый год.
В iOS API камер за последние несколько лет коренным образом не менялось, но с каждым годом добавляют новые интересные мелочи. В этом году добавили возможность снимать видео с нескольких камер одновременно.
А на платформе Android доступ через API к нескольким камерам для разработчиков открыли в 2018 году, начиная с операционной системы "Pie".
Руководитель команды Android-разработки «ВКонтакте» Олег Смирнов рассказывает, что Google выпустила уже три версии API, и в каждой есть свои ошибки, но это верный способ помочь разработчикам, работающим с камерами.
Google давно сделала API для работы с камерой. Даже две версии — Camera и Camera2. Во второй они хотели учесть ошибки первой, но там появились свои. Разработчики под Android до сих пор используют оба варианта в своих приложениях.
В 2019 году Google представила третье API — CameraX. Правда, этот API ещё в альфа-версии. Компания хочет максимально привлечь производителей Android-устройств развивать его — они могут распространять свои фото и видео-эффекты в рамках этого API.
Я очень надеюсь, что нам не придётся одновременно поддерживать все три варианта для работы с камерой, и Google сделает всё, чтобы упростить жизнь разработчикам.
Несмотря на ошибки, плюсы от API есть уже сейчас. Если раньше разработчики получали доступ только к одной камере, то теперь могут работать со всеми, что установлены в смартфоне. Инструменты для работы с несколькими камерами открывают большие возможности для улучшения пользовательского опыта.
Например, с помощью API разработчики расширяют возможности работы с широкоугольной селфи-камерой на некоторых Android-смартфонах. Они встраивают возможность «отдалить» масштаб фото и вместить больше людей на снимке, с помощью переключения фронтальной камеры — с обычной на широкоугольную.
Другая популярная вещь — это измерение глубины. Получив доступ к двум камерам, можно уже точнее оценивать глубину предметов. Самое распространённое применение — портретный режим или боке.
Слаженная работа нескольких камер проявляет себя не только во время фото, но и в видео. Александр Кондрашов — тревел-блогер, и каждый день работает с камерой. По его словам, он снимает на разные DSLR и экшен-камеры, такие как GoPro 8. Но несмотря на свой богатый арсенал, блогер часто снимает на iPhone.
Последний iPhone сильно удивил в плане качества съёмки. Во-первых, широкоугольный объектив — стало очень удобно снимать. Также у записи на выходе очень хороший звук. И зум есть, хоть он и цифровой, но его вполне хватает, чтобы что-то снять. А ещё у камеры хорошая стабилизация.
Если человек хочет начать снимать блог или просто что-то снимать, достаточно купить себе последний iPhone. Ну и микрофон. Мы сейчас живём в эру, когда для того, чтобы стать контент-мейкером, не нужны операторы и куча техники дорогой, можно просто купить смартфон и попробовать себя в роли видеооператора или блогера.
Про универсальность смартфона рассказывает и менеджер продукта сервиса «Фото» в «Одноклассниках» Артём Алимов.
По мере развития смартфонов, «железо» камер в них также стремительно совершенствуется. Вместо десятков настроек выдержки, диафрагмы и светочувствительности, сейчас мы можем без потери качества получить такой же результат за пару кликов.
Теперь, когда у любого человека в кармане полноценный фотоаппарат, паттерны поведения в сети меняются вслед за ростом производительности камер. Каждый может стать профессиональным фотографом, не приобретая при этом дорогостоящего оборудования.
При создании видео, сегодня наибольшее внимание уделяют цифровой стабилизации, замедленной съёмке в 240 кадров в секунду, и скоростной съёмке.
Искусственный интеллект и компьютерное зрение
По словам главы Redmadrobot Data Lab Юрия Чайникова, первые проявления ИИ в фотосъёмке наблюдались ещё в цифровых фотоаппаратах.
В те далёкие годы, автофокус на лице и красные глаза, были реальной проблемой. Вычислительные мощности процессоров были на порядки меньше и работающие сегодня методы были недоступны.
Приходилось выкручиваться. Каскад Хаара (способ распознавания классов объектов с большой скоростью работы — Redmadrobot) — как вычислительно дешёвый способ определения лиц для автофокуса, был в своё время прорывом.
Качество съёмки в современном телефоне определяется не только качеством и количеством камер, а в значительной степени силой и разнообразием алгоритмов обработки.
Одновременная работа двух-трёх объективов в смартфоне и анализ с помощью ИИ позволяет сегодня определять не просто лица, но и замечать на них даже микродвижения.
По словам Олега Смирнова, несколько лет назад запуск ИИ на мобильном телефоне казался фантастикой, а сегодня технология перевернула возможности постобработки фото и видео.
Google и Apple сделали свои удобные библиотеки для работы с ИИ. Запускаются они в несколько десятков строк кода.
Уже сегодня смартфоны индексируют с помощью нейросетей наши фото, подобно поисковику Google. Информации много, фото много, а ИИ помогает всё структурировать.
Один из примеров «улучшения» фото при постобработке — режим Deep Fusion в iPhone. Он работает как пиксельная доработка и «дорисовывает» микро-контраст изображения, понимая, где это делать нужно, а где — нет.
Кроме Deep Fusion, в 2019 году Apple анонсировала ещё два режима съёмки:
- Smart HDR. HDR существует достаточно давно, он позволяет делать фотографии c оптимальной яркостью. Приставка Smart означает, что телефон определяет лица и подстраивает нужный уровень яркости кожи.
- Night Mode. Последние модели iPhone научились делать хорошие фотографии в темноте.
По словам руководителя iOS-разработки в Redmadrobot Ивана Вавилова, производителям смартфонов проще вложиться в программное улучшение фото, чем пытаться добавить железо уровня профессиональных камер в ограниченный размер корпуса. Поэтому, в последнее время сильно развивается специализированное ПО.
Самое заметное из того, что добавилось в iPhone в 2019 году — это третья камера. Теперь можно сделать широкоугольное фото. На предыдущей модели был доступен двухкратный зум, теперь, с учётом широкоугольной камеры — четырёхкратный.
Все алгоритмы работают похожим образом — делается несколько фотографий с разными параметрами, а потом с помощью алгоритмов ML (machine learning — Redmadrobot) устраняются недостатки, фото на выходе состоит из лучших частей каждого из входных.
То есть, сегодня новшеств больше в программной прослойке, нежели в аппаратной. Хотя от широкоугольной камеры вряд ли кто-то откажется.
Для разработчика поменялось немного — добавили возможность одновременной работы двух камер, обработку портретных фото для отделения волос, кожи, зубов, что понадобится для наложения эффектов, масок на отдельные части лица.
По словам Ильи Войцеховского, большой прорыв в мобильной фотографии сейчас происходит благодаря вычислительной фотографии.
Например, большой популярностью пользуется техника комбинирования кадров. Для этого делается целая серия кадров, в каждом из которых немного меняется какой-то параметр, например — экспозиция. Так рождаются HDR (high dynamic range) фотографии.
Интересный пример комбинирования кадров — это Super Res Zoom от Google. Снято с «приближением» фото обычно получается размытым, потому что не во всех камерах используется оптическое увеличение. Используя технику комбинирования кадров и модель машинного обучения, можно сделать более чёткий снимок на дальнем расстоянии, даже с обычными линзами.
Для этого камера снимает ряд кадров, каждый из которых имеет некоторый сдвиг (рука человека всё-таки немного двигается). Затем модель выбирает образцовый снимок, на основании которого будут дополняться детали.
Далее, если модель уверена, что деталь корректно соотносится с объектом на исходном снимке, и при этом нет искажений от наложения кадров, то они совмещаются на одном фото. Это позволяет избежать размытия от движения, раздваивания объектов или неправильно склеенных регионов фото.
Чётких снимков помогает добиться не только Super Res Zoom, но и технология OIS (optical image stabilization) — оптическая стабилизация, при которой быстрое движение камеры компенсирует небольшие движения смартфона. Это помогает сделать более долгую выдержку без размытия.
В некоторых смартфонах на Android проблему с размытием решают с помощью HDR+ от Google — делают ряд снимков с коротким временем экспозиции. Затем снимки комбинируются в одно фото.
Ночной режим также строится на HDR+, но с более долгой выдержкой. Именно поэтому это занимает большее время и часто на экране смартфона появляется сообщение о том, что нужно держать камеру неподвижно, или поставить ее на штатив.
Также для ночной съёмки у Google есть технология night sight, которая решает интересную проблему — ночью сложно вычислить, какого цвета должно быть итоговое фото.
Для этой задачи задействовали машинное обучение (так называемый “learning based auto white balance” — автоматический баланс белого на основе машинного обучения), обученная модель сама подбирает наиболее подходящие цвета.
Результатом может быть, например, менее “жёлтое” фото — больше похожее на то, что видит человеческий глаз.
Чтобы научить ИИ «улучшать» фотографии, разработчики используют два подхода: обучение «с учителем» и обучение «без учителя».
Например, можно взять снимок с высоким разрешением, «огрубить» его до более низкого разрешения, а потом объявить его «источником», а хороший — целью работы нейросетки. И тренировать её на таких парах, пока не научится. Это обучение «с учителем».
Аналогичным образом — когда мы хотим сделать алгоритм, превращающий снимок в более приятную версию. Здесь нам приходится так или иначе спрашивать реальных людей, что им нравится больше, а что меньше.
ИИ помогает не только «улучшать» фото, но умеет и полностью менять его. В этом случае применяется компьютерное зрение. Из мощных инструментов для работы с этой технологией, Игорь Акимов выделяет API от Huawei или Apple, c помощью которых создают приложения для самых разных задач.
Сегодня есть инструменты, с помощью которых пользователи могут «накладывать» макияж неотличимый от реального (Voir), замазывать некрасивый фон (например, для конференц-звонка), увеличивать разрешение фото в 9 раз без потери качества, убирать с фотографии лишние объекты, и так далее.
ИИ помогает и в улучшении продуктивности. В последней версии ABBYY FineScanner мы научились автоматически находить в галерее изображения только с нужным текстом, не учитывая все лишние картинки. Например, найти изображение паспорта в большом документе, при необходимости можно всего несколько секунд.
Дополненная реальность через камеру смартфона
Развитие приложений с дополненной реальностью (AR) — одна из причин, почему количество камер в смартфонах увеличивается, а их устройство становится сложнее.
Появился тренд на 2–3–4 камеры в смартфоне. Они позволяют определять глубину кадра, но менее точно, чем это делают камеры Time-of-Flight (ToF). Последние позволяют гораздо точнее определять глубину кадра, и создавать огромное количество эффектов.
Про ToF-камеры рассказывает и Игорь Акимов. По его словам, в будущем они станут окном в мир дополненной реальности.
Для улучшения возможностей AR нужны «камеры глубины», например, Time-of-Flight, которые измеряют время прохождения отражённого света и строят «карту глубины» местности.
Они позволяют с одного наведения создавать 3D-карту пространства, а дальше отдавать её и внутри приложения генерировать в ней дополнительные «объекты», полностью погружая пользователя в новый мир.
Пока что ToF-камеры установлены только в нескольких устройствах на Android (в основном для улучшения размытия в портретном режиме), а по слухам, в 2020 году их поставят и в iPhone.
Мы в ABBYY тоже экспериментируем с дополненной реальностью. На смартфоне использовать такие технологии не всегда удобно, но при наличии хороших AR-очков с качественными камерами и ToF-сенсорами открываются новые возможности: от быстрой проверки паспорта «в полях», до работы с полноценными виртуальными рабочими столами в дороге.
«Скорее всего можно будет точнее размещать виртуальные предметы мебели при планировании комнаты или измерять размеры ручной клади через приложение», — рассуждает об использовании AR Илья Войцеховский. По словам Олега Смирнова, AR хоть и медленно, но уверенно набирает популярность.
3D-эмодзи, виртуальные маски, распознавание объектов реального мира. В последнее время появилось много стартапов, которые выжимают из камер смартфонов всё. Больше сенсоров — больше информации, а значит — новые технологии можно сделать точнее.
Что нас ждёт в будущем
По словам Александра Кондрашова, сегодня смартфоны снимают уже настолько хорошо, что в скором времени полностью займут место цифровых камер.
Думаю, что сейчас рынок идёт к тому, что останутся только смартфоны и суперпрофессиональные камеры, такие как RED. Сегодня смысла покупать отдельную камеру никакого нет. Единственное, что неудобно — могут позвонить и съёмка прервётся. Но есть авиарежим — и можно спокойно снимать.
«Я считаю, что это не взаимозаменяемые вещи, а взаимодополняемые», — рассуждает о камерах и смартфонах Олег Смирнов.
Камера смартфона для быстрого, современного мира. Сделать снимок и выложить его в социальную сеть можно за пару кликов — в этом большой плюс смартфона.
Но, в то же время, я вижу рост уличной фотографии, и многие предпочитают снимать на классические зеркальные камеры. Инструментов для самовыражения должно быть много!
Игорь Акимов не говорит, выживут ли в будущем камеры, но рассуждает, что оборудование и ПО продолжат развиваться в одной связке.
В будущем, благодаря эволюции «железа» и «софта», фотографии и видеоролики будут всё дальше отдаляться от реального мира. Они продолжат улучшаться под наши потребности прекрасного, и будут решать всё больше задач без нашей помощи (например профессионально ретушировать фото — Redmadrobot). Но кажется, что никто и не против.
По словам Вячеслав Гилевича, будущее за 3D-технологиями, и в ближайшем времени трёхмерное пространство станет таким же обычным делом, как фотографии сегодня.
Через пару лет, по фотографиям можно будет воссоздать всю сцену в 3D, и походить по ней, будто находясь на месте съёмок. Сегодня мы находимся на новом витке развития технологий для фото- и видеосъёмки. И качество работы этих технологий может отличаться в различных условиях.
Нам предстоит провести грань между алгоритмами, что уже готовы к массовому использованию, и теми, которые являются по сути «демками» и работают в ограниченных условиях. Но мы уверены, что в будущем технологии постобработки изображений с помощью нейронных сетей станут неотъемлемой частью создания фото и видеоконтента.
«Давайте я вам лучше приведу несколько примеров, которые выглядят как фантастика, но являются реальными, на основе уже реализованных алгоритмов», — рассуждает будущем технологий Юрий Чайников.
Приложение, которое по минутному видео с лицом человека определяет сердечный пульс. Человеческий глаз не в силах заметить микроколебания головы и пульсацию цвета кожи при каждом ударе сердца, а алгоритм может.
Приложение, которое «на лету» переводит надписи с одного языка на другой, заменяя их изображение непосредственно в видеопотоке.
Приложение, которое с помощью камеры определяет, сколько понадобится коробок для переезда.
По мнению Артёма Алимова, ежегодное улучшение камер и создание всё более мощного ПО в смартфонах, положительно скажется на развитии бизнеса и сделает способы его продвижения более эффективными.
Фотографии в соцсетях перестали быть просто дополнением к текстовой публикации. Из статичных объектов они превратились в «живые». Различные инструменты к фотографиям (маски, стикеры, элементы геймификации) стали нормой и позволяют более полно выразить эмоции людей. Это создает огромные возможности для персонализации контента, и мы планируем развивать это направление.
В этом году продал зеркалку на Авито, т.к. с покупкой нового смартфона она стала просто собирать пыль на полке и я понял что это уже навсегда. По сути остался один сценарий где непрофессионалу ещё нужна отдельная камера - это съёмка быстродвижущихся объектов (спорт и т.п.). Ну и для профи конечно важно подключение внешних вспышек, света и т.п. вещей. А так - отдельные фотоаппараты как масс сегмент умерли в этом году окончательно.
у меня остаются только сценарии "снять белку в ветвях" - так как совсем близко подойти они редко дают, а хочется дать нормальное кадрирование сразу, а не вырезать потом марку из большого фото
У - удобство. Но картинку камеры дают лучше. Но... лучшая камера это которая всегда с тобой, да.
Ну еще съемка чего-то удаленного .
Все таки снять объект за 50 метров пока телефоны могут с трудом.
Я думаю,что совсем скоро смартфоны заменят камеры полностью
В дополнение к статье ...
Справедливости ради хочу сказать, что ночной режим для камеры сначала появился в Huawei, а уже потом Google и Apple это подхватили.