Очень краткая история нейросетей: от разработок 20-го века до ChatGPT
Привет! На связи снова Андрей Герцен. Интересуюсь нейронками, провожу эксперименты и интересно о них рассказываю.
В этом материале я постарался максимально просто и понятно поведать об истории нейросетей и их "эволюции" до наших дней. Объяснил термины, привёл примеры и добавил картинки.
1940-1960: Появление концепции нейросети
До нейросетей были первые наработки в области искусственного интеллекта и машинного обучения. Сама концепция нейросети начала формироваться в 40-50-х годах прошлого века. Тогда исследователи пытались создать машину, которая могла бы имитировать функции человеческого мозга.
В 1943-м году Уоррен Мак-Каллок и Уолтер Питтс предложили математическую модель нейрона, а уже в конце 50-х Фрэнк Розенблатт представил персептрон (или же перцептрон). Именно персептрон можно назвать первой практической реализацией нейросети.
Что такое персептрон
Персептрон — это простая модель машинного обучения, которую создали для помощи компьютерам в обучении на разных данных.
Как он работает:
Допустим, мы хотим обучить персептрон классифицировать изображения на "яблоки" и "апельсины". Вот как мы будем это делать:
- Берём несколько изображений яблок и апельсинов.
- Даём персептрону по одной картинке. Он её обрабатывает и соотносит к яблоку или апельсину.
- Если ответ правильный, мы ничего не меняем. Если ответ неправильный, то мы корректируем правила внутри персептрона, чтобы в следующий раз он не ошибся.
- Повторяем процесс для всех изображений, пока он не перестаёт ошибаться.
- Далее мы тестируем персептрон уже с другими изображениями яблок и апельсинов.
Это очень простой пример того, как можно обучить и протестировать перцептрон. В реальности процесс более сложный и включает в себя настройку гораздо большего количества переменных и правил, но основная идея та же.
Персептрон — это очень базовая модель, но она проложила путь к разработке более совершенных алгоритмов машинного обучения, которые используются сегодня.
1980-2000: Метод обратного распространения ошибки и нелинейные функции активации
Несмотря на крутость персептрона, тогдашние исследования и вычислительные возможности не позволяли сильно развить идею нейросетей. В какой-то степени, от неё даже на время отказались.
Уже ближе к концу 20-го века исследователи добились большого прогресса. Был разработан "Метод обратного распространения ошибки".
Допустим, нейросеть пытается распознать рукописные цифры от 0 до 9. Ей сначала дают примеры для обучения, а потом она их использует, чтобы выдавать собственные предположения.
Нейросеть выдает предположение о конкретной цифре на изображении, а затем сравнивает это предположение с реальным значением и вычисляет разницу между ними (ошибку). Затем ошибка используется для корректировки весов нейронов, которые влияют на выходные данные нейросети. Процесс повторяется много раз, пока сеть не начинает распознавать цифры с максимально высокой точностью. До появления Метода обучать нейросети было сложно, потому что было трудно обновлять веса сети для оптимизации работы.
В дополнение к Методу исследователи придумали нелинейные функции активации. Они позволяют сети моделировать сложные взаимосвязи между входами и выходами. Это заложило основу для недавнего "возрождения" нейронных сетей уже в лице Deep Learning (Глубокое обучение).
Люди смогли обучать гораздо более крупные и сложные сети, что привело к прорывам в областях применения. Нейросети научились лучше распознавать изображения, речь и обрабатывать естественные языки.
2000-2020: Развитие Deep Learning и современные нейросети
В "нулевых" появились мощные графические процессоры и стали доступны большие объёмы данных, что привело к разработке алгоритмов Deep Learning.
Термин Deep Learning обрёл настоящую популярность только в 2010-х годах. Результаты исследований начали демонстрировать высокие результаты в обучении и составлении прогнозов на основе больших объёмов данных. Интерес к нейросетям начал сильно расти, а вместе с большим интересом пришли большие деньги.
Развитие Deep Learning привело к разработке новых архитектур, алгоритмов и инструментов для построения и обучения нейросетей, а это привело к началу распространения практического применения во многих отраслях.
2020е:
Одной из самых прорывных историй является создание модели GPT-3 (Generative Pretrained Transformer 3) — языковой модели, разработанной OpenAI (они и создали ChatGPT). Модель была представлена в 2020 году и хорошо нашумела. Её натренировали на огромном количестве текстовых данных и научили выполнять разные языковые задачи.
В конце ноября 2022-го года в свет выходит ChatGPT и спустя 2 месяца пробивает отметку в 100 миллионов пользователей, получив статус самого быстрорастущего онлайн-сервиса за всю историю. Говорят, что в OpenAI сначала сами не предполагали, что сервис станет настолько популярным.
Что будет дальше?
Мировые корпорации заметили успех и зашевелились. Google, Microsoft, Baidu, Яндекс и другие начали активно разрабатывать свои проекты на основе GPT-моделей для интеграции в сервисы.
Практически каждый день стали появляться ресурсы, помогающие без специальных знаний пользоваться услугами нейросетей. Да, помимо GPT-моделей есть много как текстовых аналогов, так и графических нейросетей. Но перечислить их здесь не получится, ведь я обещал кратко.
В перспективе у технологии огромный потенциал внедрения в разные области жизни, однако наверняка никто не знает, что именно произойдёт. Запасаемся попкорном и продолжаем наблюдать за этой увлекательной историей.
Если материал вам понравился, то приглашаю в свой Телеграм. Там я изучаю нейросети, рассказываю об их возможностях и провожу весёлые исследования. Курсы не продаю, подписываться не заставляю ⤵
Буду очень рад поддержке и вашим комментариям. Люблю.