На днях DeepSeek поразил всех заявлением о том, что его ИИ модель использует примерно одну десятую мощности, потраченной на модель Llama. Это перевернуло взгляд на то, сколько энергии и ресурсов нужно для разработки искусственного интеллекта. Не переоценена ли NVIDIA и нужны ли мегапроекты вроде Stargate?
Всем привет! В последнее время я заметил множество постов и статей в русскоязычном сегменте интернета, которые ссылаются на одно интересное исследование, но интерпретируют его… скажем так, довольно своеобразно. Часто можно встретить заголовки вроде «ИИ научился обманывать чтобы спастись!» или «Нейросети вышли из-под контроля и пытались сбежать!». Э…
Нейросети научились писать симфонию и превращать холсты в шедевры. Они умеют даже чувствовать и сопереживать. Если попросить ChatGPT написать грустный стих или весело описать процесс теплообмена — справится быстро не хуже профессионального поэта. А вот умение искусственного интеллекта решать моральные дилеммы и логические задачи пока под вопросом.…
Все началось с того, что мы в "Intelion Cloud" – компании, которая, как следует из названия, занимается облачными решениями, надумали рассказать нейросети все, что сами знаем о своей работе и воспитать идеального ИИ-ассистента. Посвятить её в знания о структуре Группы "Intelion", регламентах работы, функционале сотрудников и так далее.
Меня зовут Руслан, я инженер-программист, автор YouTube канала Ruslan Dev, специализируюсь на облачных вычислениях и машинном обучении. В этом кейсе я расскажу о своем опыте разработки больших языковых моделей (LLM). Так как один из самых передовых графических процессоров Н100 стоит как крыло самолета, я арендовал ее через облачный сервис immers.cl…
В последние месяцы выходит большое количество нейросетей, но только небольшое количество из них заслуживает внимания. Сегодня поговорим о нейросети *Meta Lama 3.1 (признана в РФ экстремистской организацией и запрещена).
В прошлом месяце вышли две интересных модели - Llama 3.1, улучшенная версия Llama 3, и Mistral Large 2.
Меня зовут Ruslan Dev и в этой статье я расскажу, как я смог обучить модель, которая превзошла GPT 3.5 Turbo на русскоязычной части MT-Bench. Также я рассмотрю новую конфигурацию для обучения на двух графических процессорах параллельно с помощью accelerate и deepspeed.
Предпосылкой к созданию языковых моделей стало стремление ученых создать системы, которые могли бы понимать естественный язык. Один из первых, кто занялся этой задачей, был Норберт Винер в 1948 году, предложивший идею по созданию устройств, способных моделировать человеческое мышление и язык. Однако первые языковые модели, в современном понимании,…