15 терминов искусственного интеллекта, которые должен знать каждый

Машинное обучение, токен, NLP и другое. Понять, как работает искусственный интеллект, может быть сложно. В статье для вас - базовый вводный курс по некоторым общим терминам, связанным с этой технологией.

Создано нейросетью Midjourney в KolerskyAi
Создано нейросетью Midjourney в KolerskyAi

Всего за последний год достижения в области искусственного интеллекта привели к появлению новых способов автоматизации сложных задач. Однако вы не сможете в полной мере воспользоваться преимуществами этой технологии, если вы не понимаете, как она работает.

Чтобы помочь вам разобраться во всем, что касается ИИ, мы создали перечень, объясняющий трудные для понимания термины, связанные с ИИ.

1. ИИ, AI, искусственный интеллект

Область науки, посвященная созданию машин и компьютерных программ, способных воссоздать когнитивные (мыслительные) функции человеческого мозга, такие как принятие решений посредством логических рассуждений, распознавание и классификация объектов, а также изучение новых вещей.

ИИ — это общий термин, используемый для описания широкого спектра технологий, но любая программа, обрабатывающая информацию для выполнения задачи, может считаться ИИ.

15 терминов искусственного интеллекта, которые должен знать каждый

2. Компьютерный алгоритм

Набор инструкций, которым компьютер следует для выполнения задач и обработки данных. Компании, занимающиеся социальными сетями, такие как Facebook, признанный экстремистским на территории РФ, используют алгоритмы для анализа типа контента, с которым вы чаще всего взаимодействуете, а затем используют эту информацию для оценки каждого сообщения, видео и рекламы на платформе по статистической вероятности того, что вы нажмете на него. Публикации, получившие наибольшее количество очков, помещаются в начало вашей ленты.

Пример: каждый раз, когда вы используете формулу Excel для анализа данных, например, для вычисления общей суммы сотен ячеек с данными, вы создаете базовый алгоритм, дополненный набором инструкций о том, как компьютерная программа должна обрабатывать конкретные данные.

3. Машинное обучение

Раздел искусственного интеллекта, в котором алгоритм изменяется или улучшается путем обработки набора данных и выявления основных закономерностей и взаимосвязей, скрытых в данных.

Например: алгоритм машинного обучения, обученный на тысячах изображений продукта вашей компании, сможет определить, как часто он появляется в сообщениях в социальных сетях.

Пример: спам-фильтр вашей электронной почты использует машинное обучение для определения ключевых слов и шаблонов, которые часто встречаются в нежелательных сообщениях. Когда вы получаете электронное письмо, алгоритм обращается к своим обучающим данным, чтобы определить, является ли текст электронного письма статистически ближе к его базе данных спам-сообщений или безопасных электронных писем, и сортирует их соответствующим образом.

4. Модель

Компьютерная программа, обученная алгоритмом машинного обучения для выполнения определенной задачи. После обучения формируется «модель» того, как обрабатывать новые входные данные, такие как текстовая подсказка (аромат) или голосовая запись, в прогнозы и идеи, основанные на шаблонах, которые она извлекла из обучающих данных.

Пример: ChatGPT — это языковая модель. Ваши текстовые подсказки служат входными данными, которые обрабатываются моделью и преобразуются в ответ чат-бота.

5. Генеративный ИИ

Программы искусственного интеллекта, способные создавать и генерировать «оригинальный» контент. Недавние достижения в области искусственного интеллекта привели к прорывам в моделях генерации изображений, таких как Dall-E, Midjourney и больших языковых моделях, таких как ChatGPT, но эта технология также используется для создания музыки, видео и кода.

Генеративный ИИ — чрезвычайно новая технология, и правила ее использования все еще обсуждаются. Поэтому будьте осторожны с тем, как вы реализуете её в своем бизнесе. Совет по обзору авторских прав США недавно постановил, что, например, произведения искусства, созданные ИИ, не могут быть защищены авторским правом.

6. Данные для обучения

Наборы данных, которые обрабатываются алгоритмами машинного обучения для улучшения их функциональности.

Наборы данных, которые часто бывают чрезвычайно большими, вводятся в алгоритмы машинного обучения, чтобы научить их реагировать на входные данные. После обработки данные преобразуются в модель. Существует два основных типа обучения алгоритмов машинного обучения: контролируемое и неконтролируемое.

7. Обучение под присмотром/c учителем/контролируемое (unsupervised learning)

Обучение, при котором каждому фрагменту данных присваивается метка, которая помогает алгоритму машинного обучения понять значение данных. Например, алгоритм, который обучается ставить диагноз на основе рентгеновских снимков, будет обучаться на изображениях, помеченных правильным диагнозом.

Например: модель обнаружения объектов, предназначенная для идентификации фруктов, будет обучаться на множестве различных изображений этих фруктов, соединенных с правильными метками. Посредством обучения алгоритм научится определять уникальные характеристики, определяющие каждый фрукт.

8. Обучение без присмотра/без учителя (Supervised learning)

При обучении без учителя данные для обучения не сопровождаются какими-либо описательными метками. Скорее, алгоритмы машинного обучения обрабатывают большие объемы данных, которые затем группируются в «кластеры» на основе их сходств или различий. Именно этот стиль обучения позволяет ChatGPT выполнять самые разные задачи, например вести беседы, писать истории и отвечать на вопросы. Его не обучали делать что-то конкретное, он сформирован огромным количеством разного входящего текста.

Пример: Alpha-Go, модель искусственного интеллекта, победившая чемпиона мира в классической игре Го, не обучалась на какой-либо размеченной информации об игровых стратегиях. Она просто играла в игру достаточное количество раз, чтобы освоить все возможные выигрышные схемы.

9. Нейронные сети/ Глубокое обучение

Один из старейших и наиболее доминирующих за последнее десятилетие вариантов программ искусственного интеллекта, смоделированных на основе организации нейронов в человеческоммозге. Нейронная сеть состоит из нескольких слоев взаимосвязанных узлов, которые действуют как «нейроны». Каждый узел обрабатывает входные данные, выполняет вычисления и выводит данные для повторной обработки следующим слоем узлов. Глубокое обучение — это класс особо крупных нейронных сетей с сотнями слоев, позволяющий создавать еще больше связей.

Большинство генеративных моделей ИИ построены на основе глубокого обучения, причем крупнейшими нейтральными сетями являются большие языковые модели, такие как ChatGPT, и имеют миллиарды «нейронов».

10. Параметры

В нейронной сети параметры — это настройки и "веса", которые управляют тем, как каждый «нейрон» или узел обрабатывает и преобразует входные данные. Вы можете представить параметры в виде регулировщика на старом радио. Точно так же, как вы крутите регулировщие для улучшения частоты, громкости, высоких и низких частот радио, параметры автоматически настраиваются во время тренировки для создания оптимального выходного сигнала.

Представьте себе модель искусственного интеллекта, созданную для анализа изображений номерных знаков, снятых камерой во время проезда на красный свет. Каждый «нейрон»/узел имеет параметр, отвечающий за преобразование пикселей изображения в последовательность текста и чисел, понятную модели.

11. Обработка естественного языка (NLP)

Особый тип ИИ, предназначенный для понимания и интерпретации повседневной речи. Модели NLP обучены разбивать фрагменты языка, письменного или устного, на машиночитаемые данные.

Модели NLP можно использовать для анализа документов, преобразования речи в текст, перевода между языками и создания продвинутых чат-ботов.

12. Трансформер

Высокоразвитый тип архитектуры ИИ, который ускорил революцию в генеративном ИИ, и в частности в области обработки естественного языка, с момента его представления Google в 2017 году. Трансформеры используют процесс, называемый «токенизацией», для преобразования строки символов в данные, а затем анализа этих данных, чтобы выявить закономерности.

Почти все современные модели обработки естественного языка, такие как модели OpenAI GPT (генеративный предварительно обученный трансформер), построены с использованием преобразователей.

13. Токены

Грамматические элементы, преобразованные в данные. Например, когда вы отправляете запрос в ChatGPT, преобразователь берет ваше предложение и превращает его в серию токенов. Преобразователь обрабатывает каждый токен одновременно и может использовать его обучение для понимания семантических отношений между токенами. Согласно OpenAI, один токен обычно соответствует примерно 4 символам текста (на английском языке, на русском больше токенов уходит на слово), но часто они немного короче или длиннее, а специальные символы, такие как знаки препинания, обычно считаются отдельными токенами.

Пример: предложение «Сейчас я чувствую себя хорошо» будет разбито на восемь токенов: «Сейчас-я-чувствую себя хорошо-».

14. Галлюцинации

Случаи, когда ИИ (обычно большая языковая модель) выдает что-то, что звучит правдоподобно, но не соответствует действительности. Технически ИИ не лжет, поскольку он не знает, что то, что он говорит, является ложью, отсюда и термин «галлюцинации».

Пример: адвокат из Нью-Йорка Стивен Шварц использовал ChatGPT, чтобы найти дела, которые он мог бы процитировать на юридическом брифинге. Шварц не осознавал, что случаи, созданные ChatGPT, были галлюцинациями, пока его не попросили предоставить копии дел.

15. API (интерфейс прикладного программного обеспечения)

Программный компонент, который позволяет вам интегрировать чужую программу в ваше собственное приложение или сервис. Модели искусственного интеллекта развертываются и выпускаются через API, чтобы компании могли монетизировать свои технологии, предоставляя сторонним сторонам доступ к их услугам и возможностям.

Теперь вы понимаете значение предложения: OpenAI выпустила API почти для всех своих моделей ИИ, при этом с пользователей взимается плата в зависимости от того, сколько токенов используется для обработки и вывода запроса.

Текст подготовлен в KolerskyAi с помощью Тьяго Кардосо, главного менеджера по продукту компании Hyland.

ps. Комментируйте и лайкайте, пожалуйста! Это помогает продвижению статьи.

Ну и как положено, канал тг))) Канал и чатик

Там в закрепленном боты для доступа в Chat GPT и Midjourney без VPN

4
1 комментарий

"Сейчас я чувствую себя хорошо" - это не 8, а 18 токенов.