2026年5月,Redis创始人Salvatore Sanfilippo(业内称antirez)推出专为DeepSeek V4 Flash打造的本地推理引擎ds4.c,可在Apple Silicon设备上实现该大模型的高效运行。
DeepSeek V4 Flash于4月24日发布,为284B总参数、13B激活参数、支持100万token上下文的MoE模型,此前多部署于云端。ds4.c采用C+Metal语言编写,无框架依赖,仅适配苹果生态硬件。
该引擎通过三项关键技术实现优化:一是非对称量化,仅对占模型空间绝大部分的MoE专家层进行2-bit量化,其余层保留Q8精度;二是将KV缓存存储至硬盘,匹配token前缀后可跳过预填充环节,提升长对话场景效率;三是内置OpenAI与Anthropic两套API兼容层,适配多款代码Agent客户端。
测试数据显示,在128GB内存的MacBook Pro M3 Max上,2-bit量化、32K上下文环境下,短prompt预填充速度达58.52 token/s,生成速度26.68 token/s;512GB的Mac Studio M3 Ultra上,长prompt预填充速度可达468.03 token/s。
此项目引发开发者圈讨论,有观点提出未来或出现“一模型一推理框架”的趋势,antirez也承认该模式存在模型过时即需重构的问题,但表示将保持项目小而专注的定位,未来或考虑支持CUDA。此外,ds4.c由GPT 5.5辅助开发,antirez在说明中明确提及这一细节。
antirez曾主导Redis项目11年,还开发过Kilo文本编辑器等多款轻量化工具,此次项目延续了其简洁、专注的技术风格。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END