Последние новости из мира искусственного интеллекта и технологий: Проект Gemini, прорыв в робототехнике и 3D инновации

Недавний инсайдер Google раскрыл значительную информацию о проекте Gemini, пролив свет на размеры его модели, архитектурные возможности и дату выхода на рынок. Это откровение совпадает с последними достижениями в области мягкой робототехники и генерации трехмерных объектов на основе текста. Давайте поближе познакомимся с проектом «Gemini» и изучим последние достижения в смежных областях.

Проект Gemini от Google

Проект «Gemini» отходит от традиционного подхода к модели ИИ. Вместо этого он представляет собой сеть взаимосвязанных моделей ИИ, каждая из которых предназначена для решения различных задач. Стратегия Google предполагает интеграцию нескольких экспертных моделей ИИ с различными навыками для решения сложных задач. Кроме того, Google планирует предлагать Gemini в различных размерах, подходящих для различных устройств, сохраняя при этом максимальную производительность. Однако отличительной особенностью Gemini является его мультимодальность, позволяющая одновременно обрабатывать как визуальные, так и текстовые данные.

Кроме того, Gemini использует информацию, полученную из транскриптов видеозаписей YouTube, что позволяет ему создавать короткие видеоролики, аналогичные работе Runway или Pika Labs. Ожидается, что Gemini превзойдет своих конкурентов, таких как GPT-4, значительно расширив возможности кодирования. В планах Google также постепенное внедрение Gemini в существующие продукты, такие как чат-бот Bard, Google Docs, Slides и другие. Это означает, что пользователи Google смогут оценить влияние Gemini на популярные приложения и инструменты повышения производительности. Интересно, что Google намерен предоставить разработчикам искусственного интеллекта доступ к Gemini через Google Cloud уже в этом году. Хотя точное количество параметров пока не разглашается, сообщается, что Gemini будет насчитывать триллионы параметров, что является выдающимся достижением.

Команда, стоящая за проектом Gemini, подчеркивает, что их модель сочетает в себе сильные стороны таких систем, как AlphaGo, и исключительные языковые возможности больших моделей. Кроме того, Google обещает, что в Gemini будут реализованы революционные инновации и возможности, не имеющие аналогов в данной области. Выход модели на рынок запланирован на осень 2023 года, до которого осталось всего несколько месяцев.

Прорывы в области мягкой робототехники

Параллельно с проектом Gemini исследователи из Университета Coimbra (Португалия) представили революционную мягкую роботизированную руку, решающую серьезные задачи в данной области. Эта инновация объединяет мягкие приводы с масштабируемым экзоскелетом, обеспечивая экономически эффективное и рациональное производство мягких роботов. Этот прорыв призван открыть новые возможности в области робототехники.

Основная цель исследования — создание безопасного и доступного мягкого роботизированного манипулятора, пригодного для массового производства. Команда успешно воспроизвела внешний вид и функциональность человеческой руки, оснастив ее пятью мягкими приводами, по одному на каждый палец, и экзоскелетом, повышающим гибкость пальцев. Оснащенная контроллером, эта роботизированная рука эффективно захватывает предметы различной формы, размера и веса.

Одним из главных преимуществ мягких роботов перед жесткими аналогами является их способность взаимодействовать с людьми и животными в различных средах с минимальным риском причинения вреда. Это делает их пригодными для использования как в помещениях, так и на открытом воздухе. Разработка мягкого манипулятора открывает новые горизонты для академических исследований и индивидуальных любителей робототехники. Кроме того, она открывает перспективы создания экономически эффективных гуманоидных роботов, способных помогать человеку в решении повседневных задач.

3D Генерация Текстом

Кроме того, исследователи компании Bytedance, материнской компании TikTok, представили новаторскую разработку под названием MV Dream, что означает Multi-view Diffusion for 3D Generation. Эта передовая модель диффузии революционизирует 3D-рендеринг, позволяя генерировать высококачественные 3D-объекты на основе простых текстовых подсказок.

Однако преимущества MV Dream выходят за рамки качества. Она решает две ключевые проблемы, с которыми сталкиваются альтернативные методы. Во-первых, эффективно решается проблема «Януса», когда сгенерированные изображения часто имеют несколько лиц или несовместимые черты. Во-вторых, снижается вероятность смещения контента, когда объекты меняют свой вид в зависимости от угла обзора.

Исследователи компании Bytedance применили уникальный подход к обучению, в рамках которого MV Dream обучался с использованием стабильной диффузионной модели и нескольких видов 3D-объектов. Создав обширную базу данных 3D-моделей с различных ракурсов и углов обзора, модель научилась создавать последовательные 3D-формы, а не разрозненные 2D-изображения.

Чтобы продемонстрировать универсальность модели, команда провела эксперимент с использованием инструмента MV DreamBooth, позволяющего MV Dream интерпретировать новые концепции. В этом эксперименте MV Dream успешно сгенерировал 3D-изображения конкретных объектов, например собаки, на основе текстовых подсказок.

Несмотря на впечатляющие результаты, MV Dream имеет свои ограничения, в том числе текущее разрешение 256 на 256 пикселей, что ограничивает детализацию, и ограниченную обобщающую способность. Однако исследователи компании Bytedance с оптимизмом смотрят на будущие усовершенствования, включая использование более крупных диффузионных моделей, что позволит значительно улучшить как разрешение, так и обобщающую способность. Для полного раскрытия потенциала MV Dream может также потребоваться длительное обучение на новых наборах данных.

MV Dream имеет огромные перспективы в различных отраслях, включая игровые индустрии, архитектуру и дизайн. Работа Bytedance с MV Dream находится на переднем крае расширения границ генерации изображений с помощью искусственного интеллекта и обещает значительные достижения в ближайшем будущем.

Заключение

Проект Google «Gemini», разработки в области мягкой робототехники и генерации 3D-текста являются важнейшими шагами в развитии искусственного интеллекта и робототехники. Амбициозный проект Google обещает создать мощную и уникальную модель, способную решать множество задач. Одновременно исследователи стремятся усовершенствовать робототехнические системы, что может привести к революционным изменениям во взаимодействии роботов и человека. Кроме того, последние достижения в области создания трехмерных текстов открывают мир возможностей в различных областях искусства и техники.