清华系初创代表趋境科技的KTransformers引擎另辟蹊径,专注于利用鲲鹏CPU与昇腾NPU的异构协同技术,打造出极致的推理加速技术。该引擎基于计算强度实施精准负载分配策略,将混合专家模型中计算强度较低的路由专家层参数卸载至容量更大的鲲鹏CPU内存,而将计算密度最高的多层潜在注意力层保留在昇腾NPU上执行。通过针对鲲鹏多NUMA架构的本地内存分配与线程调度优化、结合鲲鹏数学库对大模型矩阵乘法实现的专项加速以及采用专家延迟计算技术有效重叠通信与计算过程,KTransformers在千亿参数模型推理中实现了显存占用降低百分之九十以上的显著效果,为大规模模型部署提供了创新的底层技术支撑。

(趋境科技KTransformers引擎架构师、清华大学计算机系博士 谢威宇)
前沿学术探索如源头活水,而开发者始终是创新的关键所在。鲲鹏与昇腾社区通过提供体系化的课程、详实的案例文档、高效的工具软件以及活跃的专家社群,全程陪伴开发者从学习到认证、从创新到实践的全周期成长。未来,鲲鹏与昇腾将继续携手全球开发者,以更开放的技术、更丰富的工具和更紧密的社区共创,持续赋能开发者实现其创新价值,共同推动计算产业的智能化进程。

微信扫一扫 