不堆GPU，从底层思考AI推理加速!

发表于 2025-9-11 09:20

本帖最后由 liao6 于 2025-9-17 08:56 编辑

@21小跑堂、#申请原创#

当我们遇到AI推理慢的问题时，第一反应是啥？堆更多的GPU资源，这是大多数工程师的第一反应。

从架构出发，提出优化策略
   当我们工程师遇到问题时，首先要分析问题，分析问题说直白点就是知道这个是啥问题，把这个问题拆解成几个小问题，针对这几个小问题逐个分析，找到原因，对策，再把几个小问题一一解决，最后，这个问题就被解决了。那么，AI推理也是一样的逻辑，解决问题的思路和工程师思维基本相同，分析思路要条理清晰，针对问题本质输出对策，不要东一榔头，西一斧子，找不到关键问题所在，就会造成系统冗余，结构复杂，推理速度自然就慢了。
   工程师分析问题、解决问题的思维，就是一种抽象的框架，为什么遇到同样的问题，不同的人分析的时间及结果不同，这是思维不同导致的，抽象点就是内在思考问题的框架逻辑不同。那么，AI推理的框架也就决定了它遇到问题时推理的快慢，好的架构不冗余，透过问题看本质，逻辑清晰，推理速度更快。
   多说一句，这里所说的推理速度，就是AI模型从接收输入信息到输出结果所花费的时间，通常以tokens/秒计算。

策略一：精简架构设计
   设计架构一定要高效，去除冗余部分，对于信息结构分析要简化，提升每个token的信息密度。
   我们可以用deepseek搜索一个问题，观察下它思考分析问题的过程，起初分析问题的框架是：首先，用户问了一个什么什么问题，猜测可能性，其次，给出分析的过程，最后输出结果。最近发现思考问题的框架又进行了优化，现在的框架：用户输入问题，首先是理解和共情，这个过程是确认核心诉求，然后分析和解析问题，生成策略和方案，再输出与组织，最后输出深度思考后的结果。
策略二：思考的路径规划
   AI推理路径就像交通系统一样，有主干道、次干道、辅道，道路有明显的指引，通过每个步骤的指示、任务分解、目标导向，让AI的推理沿着最后路径输出结果，规避不必要的“岔路”。
   比如像deepseek分析问题的路径管理，在分析与解析时分为三个路径：定位问题领域、拆解核心要素、构建系统视图，通过这三个路径输出策略和方案设计。
策略三：重复的结构件
   就像软件设计一样，要模块化设计，高内聚、低耦合，将复杂的模块分解成独立的、可复用的结构件，像堆积木一样，需要的时候直接拿来用，避免重复造轮子，提高推理效率。

[其他产品] 不堆GPU，从底层思考AI推理加速!

相关帖子

浏览过的版块