KTransformers предлага DeepSeek-R1 с евтина графична карта

Екипът на KVCache.AI от университета Цинхуа, в партньорство с ПРИБЛИЖАВАНЕ.AIобяви голяма актуализация на проекта с отворен код KTransformers миналата седмица, местна медия Национален бизнес всекидневник съобщи в събота. Сега, с 24GB VRAM 4090D (NVIDIA GPU), потребителите могат да стартират локално версията DeepSeek-R1 и V3 671B с пълна мощност. Скоростите на предварителна обработка могат да достигнат до 286 токена в секунда, докато скоростите на генериране на изводи достигат максимум до 14 токена в секунда.

Защо има значение: Понастоящем потребителите имат достъп до DeepSeek-R1 главно чрез облачни услуги или локално внедряване, но официалните сървъри често страдат от прекъсване, а личните внедрявания обикновено включват дестилирана версия с 90% по-малко параметри. Изпълнението на пълната версия на DeepSeek-R1 на стандартен хардуер е голямо предизвикателство за повечето потребители. Дори разработчиците намират разходите за наемане на сървъри за тежко бреме. Проектът с отворен код KTransformers предлага достъпно решение на този проблем.

Подробности: KTransformers нарушава ограниченията на големите модели на AI, разчитащи на скъпи облачни сървъри, според доклада на National Business Daily.

Потребител анализира разходите на решението и откри, че локалното управление на модела DeepSeek R1 може да бъде направено за под 70 000 RMB ($9 650) – над 95% по-евтино от използването на NVIDIA A100/H100 сървъри, които могат да струват до 2 милиона RMB ($280 000).
KTransformers оптимизира внедряването на големи езикови модели (LLM) на локални машини, за да преодолее ограниченията на ресурсите. Рамката използва иновативни техники, включително хетерогенно изчисление, усъвършенствано квантуване и механизми за рядко внимание, за да подобри изчислителната ефективност, като същевременно позволява обработката на последователности с дълъг контекст.
Въпреки това, скоростта на извеждане на KTransformers не може да се сравни с цената на сървърите от висок клас и може да обслужва само един потребител в даден момент, докато сървърите могат едновременно да отговорят на изискванията на десетки потребители, се отбелязва в доклада.
Понастоящем цялостното решение също разчита на набора от инструкции AMX на Intel, а процесорите от други марки все още не могат да изпълняват тези операции. Освен това, това решение е предназначено основно за MOE модела на DeepSeek; прилагането му към други масови модели може да не е оптимално по отношение на производителността.
За да използвате настройката на KTransformers, китайска медия IThome изброи следните предпоставки: процесор Intel Xeon Gold 6454S с 1TB DRAM (2 NUMA възела), RTX 4090D GPU с 24GB VRAM, 1TB стандартна DDR5-4800 сървърна памет и CUDA версия 12.1 или по-нова.

Контекст: На 20 януари пускането на DeepSeek-R1 предизвика заглавия по целия свят и накара мнозина да предположат, че AI индустрията е навлязла в нова фаза, в която конкуренцията е по-глобална, моделите с отворен код процъфтяват и ефективността на разходите се превръща в основен фактор при разработването и внедряването на AI системи.

Публикуваното API (Интерфейс за програмиране на приложения) ценообразуването за DeepSeek-R1 е както следва: 1 RMB ($0,14) за милион входни токени (попадение в кеша), 4 RMB ($0,55) за милион входни токени (кеш пропуск) и 16 RMB ($2,21) за милион изходни токени. Това е приблизително 1/30 от оперативните разходи на GPT-4 на OpenAI.