Насколько хорошо ChatGPT "видит" скриншоты и картинки? Тестирую

Напишу сразу, статья не серьезная, больше для развлечения. Однако, может быть, кому-то это будет полезно.

Интересная функция, которой я раньше никогда не пользовался в ChatGPT - понимание изображений. Захотелось проверить, насколько хорошо она действительно работает. Лучший способ это узнать (как мне показалось) — попросить её воспроизвести что-то и сравнить результат с оригиналом.

А как может воспроизвести что-то визуальное чат-бот? Мы же общаемся текстом. И для этого (не) идеально походит язык разметки HTML.

Загружаем картинку или скрин - а GPT нам описывает то, что он там видит на HTML, интерпретацию которого мы можем легко сравнить с оригиналом. Гениальная идея для гениального эксперимента подумал я :) Результаты ниже.

Оригинал
Оригинал
Запрос
Запрос
Результат такой вот HTML файл
Результат такой вот HTML файл

Не отлично, но и не плохо. Ну ладно, а сложнее?

Нашел что-то посложнее, уже изображение. Опять прошу нарисовать в HTML.

Оригинал
Оригинал

Итаак, после трех просьб подряд, отрисовать все целиком, бот додумался подключить к нашей HTML страничке JS библиотеку для графиков и на этой библиотеке отрисовал похожие, как ему показалось, графики.

И выдает такой результат, который хоть сейчас иди и вешай в музей современного искусства.

Наверное вот так и видит ГПТ этот мир...
Наверное вот так и видит ГПТ этот мир...

Итог: Бот видит цвет, расположение элементов, тексты, сами элементы, общую картину. Но есть проблема с деталями, которые он либо не увидел, либо поленился воспроизвести.

В итоге результат интересный, но не отличный. Но вектор, куда это все развивается очень интересный и в перспективе очень полезный.

Какое у этого реальное применение?

Много вариантов. Например, мне ГПТ уже помог разобраться с функциями Премьера. Я скидываю скрин, а он мне пишет, куда нажать, чтобы получить такой-то результат.

А если вы хотите автоматизировать ваши HR процессы с помощью ИИ, обратите внимание на наш инструмент, сервис Naimee

Спасибо за ваше внимание!

22
2 комментария

Не ожидал, что ChatGPT сможет так хорошо распознавать изображения. Правда, с HTML описанием получилось немного забавно. Но в целом, впечатляет прогресс искусственного интеллекта.

1

Согласен с вами, у меня та же реакция на это