打印

思想这个武器太强大了

[复制链接]
4522|17
手机看帖
扫描二维码
随时随地手机跟帖
跳转到指定楼层
楼主
drentsi|  楼主 | 2010-7-27 18:33 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
DMA, AN, ce, DM, ic
最近验证了一个思想,资源利用率一下子提升了8倍,我都觉得很恐怖,在spartan-3A中,2000个silices相当于20万门可以实现16个带PLBDMA和PTP的以太网控制器MAC,以前最优化设计只能做2个,xilinx官方的只能做0.5个.第一次思想进步,资源利用率提高了4倍,第二次进步,又提高了8倍.思想这武器太强大了,我都觉得可怕.
下一步将利用这个思想做一些BT的东西.

相关帖子

沙发
sinetech| | 2010-7-27 20:17 | 只看该作者
期待LZ的思想利器能为我们所认识,让我们大家也有些提升:)

使用特权

评论回复
板凳
zhongxon| | 2010-7-27 20:48 | 只看该作者
确实够可怕的,要是大家都 有这个思想了,用virtex-6做的事都用spartan-3做了,xilinx不哭死才怪。
另外,楼主用6U的机箱实现工控场合1000TB的存储空间,1GB/s的读写速度的这个东西现在弄提怎么样了,有成品了吗?

使用特权

评论回复
地板
drentsi|  楼主 | 2010-7-27 21:33 | 只看该作者
FPGA多数情况下相比ASIC而言,芯片成本大概是100倍的关系,最大的浪费在LUT这里,做出一个LUT-4需要16位存储单元,再加一个4-16译码器,以及其它的连线资源,做成一个LUT-4,至少需要16×6+8个晶体管。那么做一个4输入逻辑,设计的好的话如果用晶体管来做最多使用不超过8个晶体管。假设用LUT来做,相当于用了13倍的晶体管来做同样一件事。MUXF和MUXCY占的晶体管反而少很多,用这些部件速度会快很多。LUT本质上是一个16bit存储器,FD是1bit存储器,FPGA本质上大量的存储器,当把FPGA的LUT和FD尽量用于存储器时,资源利用率就高。FPGA的优势就在存储带宽上,想想普通一个spartan-3A,20k个lut,每个运行到200MHz,相当于4000Gb/s的带宽,一个先进的CPU的一级缓存的带宽都比这差得远。现在最先进的FPGA,性能相当于这个性能的200倍,想想看这是怎么一个BT的野兽。我的思想是,做同一个设计,尽量把逻辑转化为分布式存储器操作。在一个最优化的逻辑设计里,把逻辑转化为存储器操作后,资源利用率差不多还可以可以提升10倍。当然这个转化过程就要靠悟了。一直以来我强调要学好内功,就是在这些转化过程中体现价值。
另外,那个存储的事情,由于公司政策和职务的关系,现在不能做出来,这不是技术问题,技术方案3年前就有了,但已经销毁,再等时机。顺便提一下,这个存储的基本思想是大家都知道的,类似LZW压缩,但是样本不是64k而是非常大,大到2的64次方,检索过程复杂度极大,我只是把复杂度最大的检索过程转移到最另一个问题的解决上去了。检索过程的思想是解决搜索引擎问题的,做存储只是把检索过程用在LZW压缩上。

使用特权

评论回复
评分
参与人数 2威望 +2 收起 理由
xiaoyuan_ly + 1
wxfxwk1986 + 1
5
jlgcumt| | 2010-7-29 08:28 | 只看该作者
xian mu yi xia niu ren!

使用特权

评论回复
6
wxfxwk1986| | 2010-8-22 10:08 | 只看该作者
FPGA多数情况下相比ASIC而言,芯片成本大概是100倍的关系,最大的浪费在LUT这里,做出一个LUT-4需要16位存储单元,再加一个4-16译码器,以及其它的连线资源,做成一个LUT-4,至少需要16×6+8个晶体管。那么做一个 ...
drentsi 发表于 2010-7-27 21:33

牛人啊,分析的很有道理。。。

使用特权

评论回复
7
andyany| | 2010-9-19 16:06 | 只看该作者
高山仰止,唯有云天在望!

使用特权

评论回复
8
vhdl| | 2010-10-2 22:05 | 只看该作者
玄之又玄啊

使用特权

评论回复
9
drentsi|  楼主 | 2011-4-22 21:12 | 只看该作者
用这个思想小试牛刀,设计16个全功能串口,用在最小的XC3S50AN上
每端口波特率可设,收发各128byte缓冲区,最高速率921K,

Selected Device : 3s50antqg144-4
Number of Slices:                      392  out of    704    55%  
Number of Slice Flip Flops:            375  out of   1408    26%  
Number of 4 input LUTs:                646  out of   1408    45%  

Timing Summary:
---------------
Speed Grade: -4

   Minimum period: 6.957ns (Maximum Frequency: 143.740MHz)
   Minimum input arrival time before clock: 4.557ns
   Maximum output required time after clock: 4.458ns
   Maximum combinational path delay: 3.429ns
----------------------------------------
这是之前的结果,前几天新产生了另外一个思想,可以把性能再提高2到3倍,相当于差不多的资源做32个串口了

使用特权

评论回复
10
drentsi|  楼主 | 2011-4-22 21:13 | 只看该作者
平均每个全功能串口用24个silices,缓冲区共用2BRAM

使用特权

评论回复
11
xiaoyuan_ly| | 2011-4-24 00:58 | 只看该作者
谢谢你的共享了,真的!!!  牛人,赞一个!!!

使用特权

评论回复
12
xiaoyuan_ly| | 2011-4-24 01:00 | 只看该作者
我再来说2句,看了楼主说的,我才明白这几天我看的一个IP为什么速度那么快,资源也不见得用得多。呵呵,谢谢了

使用特权

评论回复
13
patrick007| | 2011-4-24 13:21 | 只看该作者
楼主接触过Shannon Expension/Davio Expansion这些东西吗?

没有的话,可以看看。

另外工具对特定的编码方式,可能会有不同的优化结果。这个是偶尔感觉到,没做过具体测试,我平时也很少用FPGA。

祝更上一层楼。

使用特权

评论回复
14
swfc_qinmm| | 2011-4-26 08:01 | 只看该作者
4# drentsi
暂时还不太理解……

使用特权

评论回复
15
drentsi|  楼主 | 2011-5-8 10:04 | 只看该作者
最新进展,在-1速度的V5中约2000个LUT-FF pairs,4个RAMB36可实现64个百兆以太网MAC,或24百兆+4千兆,使用SSSMII接口,带有DMA,硬件内存分配和回收,CRC检验和计算,P64位时标,时标校正等,做交换机的良器。
综合报告速度474MHz,fully used LUT-FF pairs 64%
最终设计核心运行速度400MHz
平均每个MAC占用30个LUT-FF pairs,资源利用率比xilinx自带的最精简MAC控制器xps_ethernetlite提升了30倍左右。
小结一下:
1.时分复用和速度提升可以换取面积的节省
2.流水线的使用可以大幅度提升速度,意味着节省面积
3.空间并行向时间串行转换的电路是存在的

现在明白了virtex系列和spartan系列即使逻辑总数相当,但芯片价格差距大的原因了吧。速度快和面积大是等价的。

使用特权

评论回复
16
Wxy8030| | 2011-5-13 10:38 | 只看该作者
楼主简直就是神!

膜拜一下(顺便标记一下,刚开始FPGA之路,迟早要来仔细研读楼主的思想!)

使用特权

评论回复
17
lzy1976@163.com| | 2011-5-13 15:03 | 只看该作者
新人,你的题目把我引进来了,幸会!

使用特权

评论回复
18
zhang_2000| | 2011-5-14 18:21 | 只看该作者
只能说想法幼稚,如果行的通   INTEL  早就完蛋啦

使用特权

评论回复
发新帖 我要提问
您需要登录后才可以回帖 登录 | 注册

本版积分规则

个人签名:学习,思考。

144

主题

1720

帖子

43

粉丝