并行 面积大 关键路径大 cycle 少
串行 面积小 关键路径小 cycle 多
但一般乘法都是允许多周期,关注吞吐率,所以很多都做串行,深度流水,asic上二进制的可以干到10到12个fo4之内,ibm的声称做到了8个fo4,但是对比之后和频率有出入,可能他们做门级或晶体管级的优化了。那就不是一般人能超越的了。
那fpga上也能搞到20个lut之内,速度多高你可以算,也可以和ip核的比较一下。我想通常情况下,ip核的设计还是可以的。
具体到细节,有很多奇技淫巧的方法去优化。
wallance tree是做多操作数相加的,所以一般在并行乘法器里面,就是一到两个周期就出结果。
串行里面好多方法,不拘泥于booth
|