miteigi nemoto

+332

с 2018

Делюсь личным опытом эксплуатации GPU, внедрения и использования нейронных сетей.

59 подписчиков

31 подписка

miteigi nemoto

в посте

Длинный контекст LLM в RAG-системах и не только (подробный обзор)17 апр

Как обычно зависит от ТЗ и сроков ) Какие цели и метрики, на какие собственно типы вопросов нужны ответы и что за тематика. Большое количество это сколько? 10 000? 100 000? Какие модели можно использовать, только локальные или платные типа OpenAI. Пишите в ТГ пообщаемся.

Ответить

miteigi nemoto

в посте

Понижение мощности видеокарты Nvidia RTX 3090 в Linux для борьбы с перегревом 17 апр

Каждая GPU имеет индивидуальные линии отсечения, где оптимальное сочетании мощности и производительности. Самый простой способ провести несколько измерений. Уменьшить мощность на 10%, запустить бенчмарк. И так несколько раз. Потом увидеть на графике где приемлема граница.

Ответить

miteigi nemoto

в посте

Справочник по выбору GPU для работы с большими языковыми моделями Llama 15 апр

Современные движки инференса в том числе Ollama хорошо справляются с разным зоопарком GPU, какого сборища только нету в системах, все смешалось "люди Nvidia, кони Amd/Intel" ) Поэтому указанная конфигурация очень даже хороша и жизнерадостна. Возможно только при трейне, используя стандартные примеры кода, могут быть некоторые неудобства с тяжелыми LLM, но решаемые доработкой.
Нужно также учитывать, что инференс/трейн если задействовать все GPU будет замедляться и работать со скоростью младшей модели - 3090.

Ответить

miteigi nemoto

в посте

Как Яндекс выдал промокод, но решил, что не будет по нему отгружать товар 06.12.2024

Мы ждем акт сверки после 10го числа. Пока все выглядит так, что вы дважды удержали за услуги сумму по не понятной логике. В то время как за 1 месяц уже должно быть все начислено и возвращено. Если окажется, что Яндекс нам ничего не должен - это будет позорная история...

Ответить

miteigi nemoto

в посте

Как Яндекс выдал промокод, но решил, что не будет по нему отгружать товар 04.12.2024

Обращение №869018470906
Обращение №783565400544

Ответить

miteigi nemoto

в посте

Как Яндекс выдал промокод, но решил, что не будет по нему отгружать товар 04.12.2024

А с нашим случаем разберитесь тоже, а то акция ваша, на которую мы не давали согласия, прошла за счет продавца.

Ответить

miteigi nemoto

в посте

Справочник по выбору GPU для работы с большими языковыми моделями Llama 15.10.2024

1. Не рекомендую Tesla M10, очень слабая. К тому же там по 8Гб разделение на плате и в системе это будет 4 по 8 гб.
2. Tesla P40 24 Gb в принципе для инференса терпимая и дешевая тема часто в 2-3 раза слабее чем современные карты.
wizardlm-2 8x22B может иметь хорошую скорость потому что там только 8B при инференсе активируется, в этом особенность MOE архитектур.
3. Прирост может быть, но не для всех ГПУ это будет заметно, в основном это важно для моделей типа 3090, 4090, А100.
Вероятно с P40 никакого эффекта не будет, кроме случаев когда на процессор будут слои частично выгружаться, тогда да будет быстрее.

Ответить

miteigi nemoto

в посте

Справочник по выбору GPU для работы с большими языковыми моделями Llama 15.10.2024

Если умеете готовить по охлаждению и есть на него материнка подходящая, то конечно норм вариант

Ответить

miteigi nemoto

в посте

Справочник по выбору GPU для работы с большими языковыми моделями Llama 14.10.2024

Ресурсов таких не видел. Современные десктоп процы что интел что райзен имеют около 16-24 линий на проц. Вот надо попасть на 20+ хотя бы )
Попробуйте сначала с материнской платой определится по бюджету и чтобы на проц два слота было. Скорее всего они достаточно высокий ценник имеют, либо вообще нет в продаже.

Ответить

miteigi nemoto

в посте

Справочник по выбору GPU для работы с большими языковыми моделями Llama 14.10.2024

Если в системе не планируется больше, чем двух ГПУ, а материнская плата дает сразу два PCIE слота напрямую в процессор 5700x, то этот вариант будет быстрее работать даже по х8. Если же 1 слот идет в процессор, второй через чипсет - то могут возникать подводные камни одновременной работы двух и более ГПУ. Я наблюдал какие-то коллизии нестабильности на мамке с i9, где только 1 PCIE слот в процессор идет, хотя проц поддерживает 2 по х8.

Если планируется использование 3-4 гпу в будущем, то лучше взять Ryzen threadripper 1950x или что-то побыстрее на один поток.
Разница между 5700x и 1950x в инференсе LLM может быть не сильно заметной - быть может в 20-30%, в то время как разница между 1950x и 7980X - может достигать до 30-40%.

Ответить

miteigi nemoto

в посте

Справочник по выбору GPU для работы с большими языковыми моделями Llama 06.09.2024

Через гемор можно, потребует больше тех знаний и ударов в бубен, чем с нвидиа.

Ответить

miteigi nemoto

в посте

Сооснователь OpenAI Джон Шульман присоединится к конкуренту компании — Anthropic 06.08.2024

Уход Шульмана происходит на фоне недавнего роспуска команды Superalignment в OpenAI и ухода других ключевых фигур, таких как Илья Суцкевер и Ян Лейке.

Ответить

miteigi nemoto

в посте

«Т-банк» открыл доступ к своей языковой модели T-lite 22.07.2024

В моём бенчмарке модель занимает 21, не плохо.

https://vc.ru/dev/1326002-obnovlenie-3-v-benche-contexttrap-fractalgpt-t-lite-gemma2-mistral-nemo-claude-haiku-glm4-gpt-4o-mini-deepseek-coder-v2-gpt-35-jamba-instruct-nemotron-4-340b-instruct

Ответить

miteigi nemoto

в посте

Обновление #3 в бенче ContextTrap : FractalGPT, T-lite, Gemma2, Mistral-Nemo, Claude Haiku, GLM4, GPT-4o-mini, DeepSeek-Coder-V2, GPT-3.5, Jamba-instruct, Nemotron-4-340b-instruct 22.07.2024

>>результат RAG системы может быть лучше, при более слабой модели потому, что внутри эмбеддер и поиск уменьшают контекст,

Конечно, если к пункту:
"Пункт 23. Штраф - 100 тысяч, а перечень нарушений указаны в пункте 15. "

добавить вверх содержание пункта 15,
Пункт 15. Перечень нарушений: распитие алкоголя, курение в неположенном месте, нахождение не объекте в нетрезвом виде или без спецодежды...

то более слабая модель легче ответит на вопрос "есть ли штраф за алкоголь". Такие обработки должны возлагаться на RAG систему. Более мощная модель также может споткнуться на ссылки внутри документов. Причем сам документ может быть всего 2К токенов. Само собой если пункт 15 находится на 3 странице, а пункт 23 уже на 20 странице, за пределами длины контекста модели - то RAG просто необходим.

Ответить

miteigi nemoto

в посте

Спасибо за комментарий. Поскольку я протестировал десятки моделей вручную и прочитал все их ответы на вопросы бенчмарка, постепенно у меня сложилось наблюдение, что каждая модель хорошо отвечает на одну часть вопросов, но плохо на другую. Так возникла идея просто свести в единую таблицу все правильные ответы от моделей 7-9Б. Оказалось, что они покрыли правильными ответами почти все вопросы. Другими словами, я не использовал никакой хитрый роутер это просто сводная таблица правильных ответов от каждой модели.
Здесь я более подробно разобрал тему
https://vc.ru/dev/1278594-otkrovenie-mesyaca-ansambl-iz-8-otdelnyh-modelei-7-9b-v-benche-contexttrap-dostigayut-urovnya-cloud-3-opus

Ответить

miteigi nemoto

в посте

ContextTrap-4K v0.1 - крафтовый бенчмарк LLM моделей для оценки способностей отвечать на вопросы к контексту на русском языке 03.06.2024

Это в ollama dimweb/sfr-llama3-8b

Ответить

miteigi nemoto

в посте

Еврокомиссия оштрафовала производителя Alpen Gold, Milka и Oreo на €337,5 млн за антимонопольные нарушения 23.05.2024

Оказывается, эти ребята решили ограничить параллельную торговлю своими продуктами. В результате национальные рынки оказались изолированы друг от друга, и Mondelēz смог задирать цены, как ему вздумается! 😠 Потребители, конечно, пострадали - им пришлось платить больше за любимые шоколадки и печеньки.
Но это еще не все! Из-за этих манипуляций на рынке стало меньше разнообразия продуктов. Получается, Mondelēz не только наварился на высоких ценах, но и ограничил выбор! 😤

Ответить

miteigi nemoto

в посте

Мое первое знакомство с ollama 30.04.2024

Дело в том, что чем длинее контекст тем больше требуется памяти. Соответственно, когда короткий контекст у вас модель влазит в память GPU, а когда длинный - нет и задействуется CPU.

Ответить

miteigi nemoto

в посте

Мое первое знакомство с ollama 18.04.2024

Да, конечно. Любые модели с русским языком работают, но не все это делают хорошо.

Ответить

miteigi nemoto

в посте

Мое первое знакомство с ollama 12.04.2024

Какие модели пробовали и с какой квантизацией?

Ответить

miteigi nemoto

в посте

Справочник по выбору GPU для работы с большими языковыми моделями Llama 06.04.2024

UPADATE 6 апреля 2024 - На RTX 8000 load_in_8bit=True через свежие HF либы стал работать, что делает теперь эти карты очень выгодными для инференса больших моделей. У RTX 8000 нет Flash Attention 2

Ответить

miteigi nemoto

в посте

Сравнение суммаризации в Mixtral-8x7B-Instruct при FP16, 8-bit, 4-bit + бонус примеры из Cloude 3 29.03.2024

FractalGPT смог только по запрос "Составь 10 самых важных предложений из книги."

Из книги "Путеводитель "Автостопом по Млечному Пути" можно выделить следующие 10 самых важных предложений:

1. "Для ее разрешения было предложено много рецептов, большинство которых сводилось преимущественно к перемещению зеленых кусочков бумаги, что странно, потому что, вообще говоря, зеленые кусочки бумаги несчастными не были."
2. "И внезапно она поняла, что же было не так все это время. Теперь она знала, как можно было бы сделать свой мир добрым и счастливым местом."
3. "На этот раз все было верно, все могло бы получиться, и никого не нужно было бы ни к чему прибивать."
4. "Эта история не о ней. Это история ужасной, слепой катастрофы и некоторых из ее последствий."
5. "Еще это история книги, называющейся "Путеводитель "Автостопом по Млечному Пути"."
6. "Не только совершенно замечательной была книга, но еще и очень удачной."
7. "Она была популярнее, чем "Руководство по божественному уходу за домом", продавалась лучше, чем "Еще 53 способа проделать это при нулевой гравитации" и оказалась еще более спорной, чем трилогия философских супербоевиков Оолона Коллафида "В чем Бог был не прав", "Еще о величайших ошибках Бога" и "Да кто он такой, этот Бог, в конце концов?"
8. "Во многих патриархальных цивилизациях Внешнего восточного обода Галактики "Путеводитель "Автостопом по Млечному Пути" уже отнял у великой "Encyclopaedia Galactica" славу стандартного вместилища всего знания и мудрости."
9. "Хотя в Путеводителе много пробелов, и содержится масса недостоверного, или, по меньшей мере, ужасно неточного, он выигрывает по сравнению со старой, более прозаической, энциклопедией в двух существенных отношениях."
10. "А история того ужасного, бессмысленного четверга, его чрезвычайных последствий и того, как нерасторжимо они связаны с замечательной книгой, начиналась очень просто. Она началась с дома."

Ответить

miteigi nemoto

в посте

Понижение мощности видеокарты Nvidia RTX 3090 в Linux для борьбы с перегревом 06.12.2023

По данным nvidia-smi

Ответить

miteigi nemoto

в посте

Разработка без кода: как мы заработали 1,5 млн рублей до открытия публичного доступа к нашей AI-платформе 20.11.2023

Хорошо, так уметь )
Если допустим у меня есть хорошая непубличная моделька, какие варианты попадания в каталог?

Ответить

miteigi nemoto

в посте

Разработка без кода: как мы заработали 1,5 млн рублей до открытия публичного доступа к нашей AI-платформе 20.11.2023

А сколько параллельно запросов выполняется на вашей инфраструктуре?

Ответить

miteigi nemoto

в посте

«Яндекс» представил нейросеть YandexART для создания картинок и анимации по текстовым запросам 18.10.2023

В Фотошопе делают так

Ответить

miteigi nemoto

в посте

Запускаем LLaMa 2 70B GPTQ на двух GPU 24 Gb (для новичков)14.10.2023

По таблицам лидербордов и разным преплексити, там действительно малый процент отклонения. На мой субьективный взгляд, все эти значения метрик и тестов никогда не отвечают, а в какой момент модель просядет. Подозреваю, что даже 0.1% отклонения может где-то выстрелить плачевно в самом неожиданном месте. Нужно проводить тестирование в конкретных задачах.

Ответить

miteigi nemoto

в посте

Субботний самопиар на vc.ru 06.06.2023

Могу сдать в аренду домашний сервер

GPU с 2мя RTX 3090 24GB, соединённые NVlink (ускоряет обучение на 20-30%).
32 GB Ddr5 (можно расширить).
Топовый процессор Intel I9 13900KF.
SSD NVME Samsung 980 1Tb (можно расширить или добавить HDD).
Канал 1Гбит Skynet.
Подключен к ИБП.
Режим аренды - выделенный сервер, полный доступ.
Можно провести через юр лицо.
Есть услуги сисадмина для настройки.
Срок и стоимость от 15 000 в неделю.

Один из самых мощных серверов на рынке в сегменте 2х3090 24Gb. Аналогичная мощность у провайдеров стоит около 70-90т в месяц.

Ответить

miteigi nemoto

в посте

Субботний самопиар на vc.ru 06.05.2023

Для оптовых покупателей сейчас есть что-то ?

Ответить

miteigi nemoto

в посте

5 пунктов, которые сделают бизнес автономным, или как оптимизировать свое дело для наименьшего личного участия 01.05.2023

Какое количество наименований у вас в продаже?

Ответить