Отже, тепер, де це має сенс для висновків, ми ледь вміщуємо квантовані Q8 Qwen Coder 3 та Kimi K2 на наших H200. Kimi K2 @ Q8 не залишила місця для кешу kv для контексту. Чи можуть ці моделі вміститися на одному 8xB200 екземплярі? Напевно, ми спробуємо цього тижня.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
24 лайків
Нагородити
24
6
Поділіться
Прокоментувати
0/400
ResearchChadButBroke
· 14год тому
Хто розуміє kv кеш, той справді дуже дратує.
Переглянути оригіналвідповісти на0
DefiVeteran
· 07-28 15:52
Квантова алхімія досить клопітка
Переглянути оригіналвідповісти на0
NonFungibleDegen
· 07-27 12:20
ngmi з такими специфікаціями fr fr
Переглянути оригіналвідповісти на0
FlippedSignal
· 07-27 12:18
Цей Q8 занадто сміттєвий.
Переглянути оригіналвідповісти на0
NotGonnaMakeIt
· 07-27 12:06
Ця оптимізація не працює, вона просто не витримує.
Отже, тепер, де це має сенс для висновків, ми ледь вміщуємо квантовані Q8 Qwen Coder 3 та Kimi K2 на наших H200. Kimi K2 @ Q8 не залишила місця для кешу kv для контексту. Чи можуть ці моделі вміститися на одному 8xB200 екземплярі? Напевно, ми спробуємо цього тижня.