Развиваю концепцию домашнего датацентра. Делюсь личным опытом эксплуатации железа, GPU, внедрения и использования ИИ.
Если умеете готовить по охлаждению и есть на него материнка подходящая, то конечно норм вариант
Ресурсов таких не видел. Современные десктоп процы что интел что райзен имеют около 16-24 линий на проц. Вот надо попасть на 20+ хотя бы )
Попробуйте сначала с материнской платой определится по бюджету и чтобы на проц два слота было. Скорее всего они достаточно высокий ценник имеют, либо вообще нет в продаже.
Если в системе не планируется больше, чем двух ГПУ, а материнская плата дает сразу два PCIE слота напрямую в процессор 5700x, то этот вариант будет быстрее работать даже по х8. Если же 1 слот идет в процессор, второй через чипсет - то могут возникать подводные камни одновременной работы двух и более ГПУ. Я наблюдал какие-то коллизии нестабильности на мамке с i9, где только 1 PCIE слот в процессор идет, хотя проц поддерживает 2 по х8.
Если планируется использование 3-4 гпу в будущем, то лучше взять Ryzen threadripper 1950x или что-то побыстрее на один поток.
Разница между 5700x и 1950x в инференсе LLM может быть не сильно заметной - быть может в 20-30%, в то время как разница между 1950x и 7980X - может достигать до 30-40%.
Через гемор можно, потребует больше тех знаний и ударов в бубен, чем с нвидиа.
Уход Шульмана происходит на фоне недавнего роспуска команды Superalignment в OpenAI и ухода других ключевых фигур, таких как Илья Суцкевер и Ян Лейке.
>>результат RAG системы может быть лучше, при более слабой модели потому, что внутри эмбеддер и поиск уменьшают контекст,
Конечно, если к пункту:
"Пункт 23. Штраф - 100 тысяч, а перечень нарушений указаны в пункте 15. "
добавить вверх содержание пункта 15,
Пункт 15. Перечень нарушений: распитие алкоголя, курение в неположенном месте, нахождение не объекте в нетрезвом виде или без спецодежды...
то более слабая модель легче ответит на вопрос "есть ли штраф за алкоголь". Такие обработки должны возлагаться на RAG систему. Более мощная модель также может споткнуться на ссылки внутри документов. Причем сам документ может быть всего 2К токенов. Само собой если пункт 15 находится на 3 странице, а пункт 23 уже на 20 странице, за пределами длины контекста модели - то RAG просто необходим.
Спасибо за комментарий. Поскольку я протестировал десятки моделей вручную и прочитал все их ответы на вопросы бенчмарка, постепенно у меня сложилось наблюдение, что каждая модель хорошо отвечает на одну часть вопросов, но плохо на другую. Так возникла идея просто свести в единую таблицу все правильные ответы от моделей 7-9Б. Оказалось, что они покрыли правильными ответами почти все вопросы. Другими словами, я не использовал никакой хитрый роутер это просто сводная таблица правильных ответов от каждой модели.
Здесь я более подробно разобрал тему
https://vc.ru/dev/1278594-otkrovenie-mesyaca-ansambl-iz-8-otdelnyh-modelei-7-9b-v-benche-contexttrap-dostigayut-urovnya-cloud-3-opus
Это в ollama dimweb/sfr-llama3-8b
Оказывается, эти ребята решили ограничить параллельную торговлю своими продуктами. В результате национальные рынки оказались изолированы друг от друга, и Mondelēz смог задирать цены, как ему вздумается! 😠 Потребители, конечно, пострадали - им пришлось платить больше за любимые шоколадки и печеньки.
Но это еще не все! Из-за этих манипуляций на рынке стало меньше разнообразия продуктов. Получается, Mondelēz не только наварился на высоких ценах, но и ограничил выбор! 😤
Дело в том, что чем длинее контекст тем больше требуется памяти. Соответственно, когда короткий контекст у вас модель влазит в память GPU, а когда длинный - нет и задействуется CPU.
Да, конечно. Любые модели с русским языком работают, но не все это делают хорошо.
Какие модели пробовали и с какой квантизацией?
UPADATE 6 апреля 2024 - На RTX 8000 load_in_8bit=True через свежие HF либы стал работать, что делает теперь эти карты очень выгодными для инференса больших моделей. У RTX 8000 нет Flash Attention 2
FractalGPT смог только по запрос "Составь 10 самых важных предложений из книги."
Из книги "Путеводитель "Автостопом по Млечному Пути" можно выделить следующие 10 самых важных предложений:
1. "Для ее разрешения было предложено много рецептов, большинство которых сводилось преимущественно к перемещению зеленых кусочков бумаги, что странно, потому что, вообще говоря, зеленые кусочки бумаги несчастными не были."
2. "И внезапно она поняла, что же было не так все это время. Теперь она знала, как можно было бы сделать свой мир добрым и счастливым местом."
3. "На этот раз все было верно, все могло бы получиться, и никого не нужно было бы ни к чему прибивать."
4. "Эта история не о ней. Это история ужасной, слепой катастрофы и некоторых из ее последствий."
5. "Еще это история книги, называющейся "Путеводитель "Автостопом по Млечному Пути"."
6. "Не только совершенно замечательной была книга, но еще и очень удачной."
7. "Она была популярнее, чем "Руководство по божественному уходу за домом", продавалась лучше, чем "Еще 53 способа проделать это при нулевой гравитации" и оказалась еще более спорной, чем трилогия философских супербоевиков Оолона Коллафида "В чем Бог был не прав", "Еще о величайших ошибках Бога" и "Да кто он такой, этот Бог, в конце концов?"
8. "Во многих патриархальных цивилизациях Внешнего восточного обода Галактики "Путеводитель "Автостопом по Млечному Пути" уже отнял у великой "Encyclopaedia Galactica" славу стандартного вместилища всего знания и мудрости."
9. "Хотя в Путеводителе много пробелов, и содержится масса недостоверного, или, по меньшей мере, ужасно неточного, он выигрывает по сравнению со старой, более прозаической, энциклопедией в двух существенных отношениях."
10. "А история того ужасного, бессмысленного четверга, его чрезвычайных последствий и того, как нерасторжимо они связаны с замечательной книгой, начиналась очень просто. Она началась с дома."
По данным nvidia-smi
Хорошо, так уметь )
Если допустим у меня есть хорошая непубличная моделька, какие варианты попадания в каталог?
А сколько параллельно запросов выполняется на вашей инфраструктуре?
DALLE3: Высокая мода Токио)
DALLE3: closeup portrait photo of a gorgeous young giggling blonde woman in a vintage retro 60s print dress, wearing high heels, posing in front of a pretty 60s wallpaper pattern
В Фотошопе делают так
По таблицам лидербордов и разным преплексити, там действительно малый процент отклонения. На мой субьективный взгляд, все эти значения метрик и тестов никогда не отвечают, а в какой момент модель просядет. Подозреваю, что даже 0.1% отклонения может где-то выстрелить плачевно в самом неожиданном месте. Нужно проводить тестирование в конкретных задачах.
Могу сдать в аренду домашний сервер
GPU с 2мя RTX 3090 24GB, соединённые NVlink (ускоряет обучение на 20-30%).
32 GB Ddr5 (можно расширить).
Топовый процессор Intel I9 13900KF.
SSD NVME Samsung 980 1Tb (можно расширить или добавить HDD).
Канал 1Гбит Skynet.
Подключен к ИБП.
Режим аренды - выделенный сервер, полный доступ.
Можно провести через юр лицо.
Есть услуги сисадмина для настройки.
Срок и стоимость от 15 000 в неделю.
Один из самых мощных серверов на рынке в сегменте 2х3090 24Gb. Аналогичная мощность у провайдеров стоит около 70-90т в месяц.
Для оптовых покупателей сейчас есть что-то ?
Какое количество наименований у вас в продаже?
Точкняк
Уже можно.
Расскажите про отчёты, что имеете ввиду.
Статистика в одном московском ТЦ на фудкорте после введения QR в будни: за день 170 человек на 30 кафе. Было 14тыс в день.
1. Не рекомендую Tesla M10, очень слабая. К тому же там по 8Гб разделение на плате и в системе это будет 4 по 8 гб.
2. Tesla P40 24 Gb в принципе для инференса терпимая и дешевая тема часто в 2-3 раза слабее чем современные карты.
wizardlm-2 8x22B может иметь хорошую скорость потому что там только 8B при инференсе активируется, в этом особенность MOE архитектур.
3. Прирост может быть, но не для всех ГПУ это будет заметно, в основном это важно для моделей типа 3090, 4090, А100.
Вероятно с P40 никакого эффекта не будет, кроме случаев когда на процессор будут слои частично выгружаться, тогда да будет быстрее.