Робохроники ИИ: Tesla обзавелась «глазами», умные камеры следят за пожарами, а нейросеть играет в китайский покер
Ежемесячно команда RDL by red_mad_robot рассказывает про новости, кейсы и подходы в ИИ, которые можно переложить на нашу действительность и реально использовать. Главное за июнь уже здесь.
Наши любимые беспилотники
Бывший руководитель Uber ATG в Торонто Ракель Уртасун запустила стартап в области автономного грузового транспорта Waabi. В проект вложилась Aurora, которая стала миноритарным инвестором, а также Khosla Ventures и Uber. В первом раунде стартап привлек $83,5 млн.
В чем смысл Waabi? В отличие от своих конкурентов, таких как Waymo или Zoox, Waabi отойдёт от традиционного подхода к созданию беспилотников. Существующие на сегодняшний день стартапы, используют комбинацию алгоритмов и датчиков для обнаружения объектов, после чего принимают решения на основе полученной информации. Но на самом деле, для решения задач автономного вождения существует множество других более эффективных подходов, в том числе в рамках ИИ, утверждает Уртасун.
Традиционные методы ограничивают ��озможности искусственного интеллекта, поскольку разработчикам приходится вручную настраивать программный стек, а это сложно и трудоёмко.
Именно из-за этого, по словам руководителя стартапа, разработка автономных транспортных средств замедлилась. Существующие проекты работают в небольших и простых областях, ведь масштабирование весьма дорогостоящее и технически сложное.
Как это будет работать? Waabi разработан с помощью нового семейства алгоритмов, которое создано на основе глубокого обучения, вероятностных выводов и комплексной оптимизации. С их помощью разработчик сможет отследить процесс принятия системой решений и использовать уже известные ей знания, не обучая алгоритмы заново.
Кроме этого, команда Waabi создала систему, которая позволит ей тестировать и обучать алгоритмы в симуляторе реальных условий. Конечно, у компании останутся автомобили, которые собственными колёсами в тестовом режиме проедут заданные дороги общего пользования. Но симуляции позволят Waabi подготовиться и к этому этапу проверки.
Другие новости из мира беспилотников
Блогер из Пекина Чжи Хуэй Цзюнь, вдохновившись видео Google пятилетней давности (которое оказалось результатом монтажа), создал собственный беспилотный велосипед.
Блогер-инженер установил на велосипед камеру глубины RGBD, акселерометр, гироскоп и лидар. Питается всё это с помощью литиевой батареи и работает 2–3 часа без подзарядки. А под сиденьем стоит главный вычислительный модуль.
Велосипед способен балансировать без водителя с помощью небольшого, но тяжёлого металлического колеса, расположенного под сиденьем. В случае крена оно мгновенно меняет направление вращения и предотвращает падение.
Для воплощения своей идеи Чжи Хуэй Цзюнь использовал напечатанные на 3D-принтере и обработанные на станке детали. Интересно, что автор занимался проектом только по выходным на протяжении четырёх месяцев.
А вот Tesla считает, что будущее беспилотников не за датчиками — компания отказывается от лидаров и радаров и полностью переходит на Тesla Vision — систему автопилота на базе компьютерного зрения.
Они не просто объявили, что отказываются от использования радаров. Они перестали выпускать модели с радарами и выпускают только с камерами.
Каковы были их истинные мотивы, мы, вероятно, никогда не узнаем. Судя по тому, сколько компаний разрабатывают автопилот на гибридной схеме — видео плюс лидары, у неё есть преимущества перед решением, которое опирается только на видеоданные о внешнем мире.
У схемы без радаров точно есть как минимум одно преимущество — один тип данных позволяет использовать архитектурно более простые модели, и динамичнее их тренировать. Есть гипотеза, что они отказались от лидаров, потому что моделировать их в виртуальной реальности труднее, чем визуальные сцены.
Поясню. Качество нейронных сетей в значительной степени определяется качеством датасетов. Для этой ниши чрезвычайно важно научить нейросеть реагировать на редкие, потенциально аварийные или даже аварийные ситуации. Копить такие кейсы в реальности слишком долго, дорого и опасно. Это толкает разработчиков моделировать такие случаи в виртуальной реальности. И тут сюрприз. Инструментов и технологий моделирования визуальных сцен много и они хорошо проработаны.
С инструментами моделирования сцены с точки зрения лидара всё гораздо печальнее. А скорость обучения нейросетей в этой нише драматически важна. Победитель забирает всё — первый, кто достигнет истинной автономности, заберёт большую долю рынка. Вот и могло оказаться так, что отказ от лидаров — плата за скорость разработки.
Компьютерное зрение в борьбе против пожаров в США
Власти округа Сонома в штате Калифорния используют технологии компьютерного зрения южнокорейской компании Alchera для выявления потенциальных пожаров.
Как это работает? Alchera использует компьютерное зрение для анализа изображений с камер ALERTWildfire — это сеть из примерно 800 камер, расположенных в нескольких западных штатах США, которая позволяет отслеживать пожары в реальном времени. Алгоритмы определяют характеристики дыма и умеют отличать его от облаков или тумана. Затем сотрудник Alchera проверяет и подтверждает результаты работы системы и отправляет предупреждения пожарным. Южнокорейская компания утверждает, что весь процесс занимает около минуты.
А в штате Нью-Мексико местное Управление лесного хозяйства применяет систему Descartes Labs, которая анализирует спутниковые изображения на предмет первых признаков пожара. Она использует машинное обучение для измерения и сравнения температуры земли и способна обнаружить наличие огня. В последнем случае система автоматически отправляет предупреждения чиновникам лесного хозяйства Нью-Мексико.
Округ противопожарной защиты города Аспен в штате Колорадо для обнаружения пожара испытывает нейросеть от стартапа Pano AI. Компания из Сан-Франциско использует камеры высокого разрешения, размещённые на вышках сотовой связи и на вершинах гор, а также на других точках.
Камеры вращаются вокруг собственной оси и раз в минуту по сотовой связи отправляют статичные изображения в систему облачных вычислений Pano. После этого алгоритмы анализируют полученные фотографии на наличие струй дыма.
Pano AI также сотрудничает с NOAA — Национальным управлением океанических и атмосферных исследований. С помощью спутниковых изображений система обнаруживает тепловые сигнатуры. А затем объединяет данные со спутника и камеры, создавая более точный способ фиксирования лесных пожаров.
Как ещё компьютерное зрение использовали в июне
Сеть гипермаркетов «Лента» тестирует несколько технологий компьютерного зрения:
- Распознавание товара — «умные» весы определяют тип товара и предлагают покупателю подтвердить предложенный вариант;
- Подсчёт количества покупателей у кассы — если очередь растёт, система сообщает об этом сотрудникам магазина;
- Мониторинг торгового зала — система уведомляет работников, если на каких-то полках не хватает товаров.
В Индии запустят российскую систему распознавания лиц Ntechlab. Тридцать железнодорожных станций оснастят 470 камерами с компьютерным зрением, что позволит властям страны следить за соблюдением мер безопасности и контролировать пассажиропоток. В особо загруженные дни эти станции посещают до 10 млн человек. В Ntechlab говорят, что система справится с такой нагрузкой, так как способна одновременно распознавать до 50 человек в кадре.
Нейросеть играет в сложнейший китайский покер
Разработчик из США создал нейросеть DouZero, которая может играть в Доудичжу — разновидность покера. Сложность в том, что эта игра сочетает сотрудничество и соперничество.
Что за игра? «Доудичжу» переводится как «борьба с помещиком». Два или три крестьянина играют в команде против этого самого помещика. Цель игры — первым сбросить карты с руки.
В отличие от Го или шахмат, игроки в Доудичжу не видят карт других участников. И это, в совокупности с двойственной природой игры — соперничество плюс сотрудничество — значительно усложняет работу ИИ. Большинство существующих моделей разработаны для чего-то одного: или для состязания, или для коллаборации.
Кроме этого, в игре существует 27 472 возможных вариантов хода.
Как работает DouZero? В основе нейросети лежит алгоритм Deep Monte-Carlo (DMC) — версия классического метода Monte-Carlo (МС) с глубоким обучением с подкреплением, которая, по мнению автора проекта, очень подходит для игры в Доудичжу.
С одной стороны, Доудичжу — это эпизодическая задача. С другой, DMC можно легко распараллелить, чтобы эффективно генерировать множество выборок в секунду для решения проблемы высокой дисперсии.
Ну а в демо-версию можно поиграть здесь.
Чтиво выходного дня
Нашли для вас полезную выжимку из выступлений экспертов на конференции ЦИПР 2021, которая посвящена проблемам внедрения ИИ в работу промышленных предприятий России. Для затравки — спойлер от Юрия Чайникова:
Данные есть, но работать с ними нельзя, потому что запрещено, и передавать их нельзя, потому что запрещено. Навыки их накопления, хранения и уничтожения — новые, неожиданные для предприятий. А если у нас нет данных, оценка экономического эффекта бессмысленна.
Ещё один любопытный материал — «Исследование «Этика и «цифра»: от проблем к решениям». В нём раскрыты вопросы этики ИИ, приватность и защита персональных данных.
Одной строкой
- Facebook запускает в Instagram поиск товаров по фотографиям;
- Github и OpenAI представили инструмент, который поможет программистам более эффективно писать код;
- РЖД тестирует в Москве беспилотный поезд «Ласточка»;
- Минтранс России разработал законопроект об автономных транспортных средствах;
- «Билайн» обучает нейросеть работать с мусором — алгоритм способен мониторить график вывоза и в будущем сможет по фото находить нелегальные мусорные свалки;
- Европейские регуляторы призывают запретить использование ИИ для распознавания человека в общедоступных местах;
- ЧерМК (входит в «Северсталь Российская сталь») внедрил машинное зрение, чтобы контролировать работу конвейеров под землёй;
- И снова «Билайн» — компания разрабатывает ИИ для поиска дорожных ям.
Минутка NVIDIA
- Nvidia представила приложение Canvas для генерации реалистичных пейзажей по наброскам.
- Компания создала систему, генерирующую из фото «говорящую голову» для видеоконференций — ИИ-модель фиксирует движение человека и применяет его к ранее загруженному статичному изображению.
- Nvidia и Google Cloud создают первую ИИ-лабораторию для 5G.
Рубрика «Позалипать»
- Компания «Яндекс» представила проект «Балабоба». С помощью нейросетей семейства YaLM (Yet another Language Model — компания вдохновлялась GPT-3 от OpenAI и иными языковыми моделями на архитектуре Transformer) он умеет писать тексты на любую тему, сохраняя связность и стиль.
- Компания Facebook выпустила инструмент TextStylebrush, который подстраивает текст под стили написания. Хотите написать письмо почерком Илона Маска? Пожалуйста! Достаточно найти образец.
Facebook заявляет, что использует более целостный подход к обучению генератора, который отделяет содержание текстового изображения от всех аспектов его внешнего вида. Архитектура TextStylebrush основана на модели StyleGAN2. Генератор умеет извлекать информацию о стиле конкретного слоя и внедрять её в изображение.
TextStylebrush также создаёт изображение с «мягкой маской», которое обозначает пиксели переднего плана, то есть саму текстовую область. Так генератор контролирует детали внешнего вида текста как с низким, так и с высоким разрешением.
Одной из потенциальных возможностей использования алгоритма компания называет перевод текста в режиме AR.
Fun AI
Робособака просто роскошно танцует под BTS — так Hyundai отметил покупку Boston Dynamics. К чему слова, смотрите сами.
Если понравилось или не понравилось, пишите в комментариях. Ведь без обратной связи робота не переобучить. И подписывайтесь на наш Telegram-канал Redmadnews, там мы собираем все самые свежие новости про ИИ и не только. Всем ИИ!