我在查找有关部分霓虹灯寄存器依赖项的任何信息时遇到问题。
以下面的代码为例:
ld2 {v0.16b, v1.16b}[0], [x0]
ld2 {v0.16b, v1.16b}[1], [x1]
ld2 {v0.16b, v1.16b}[2], [x2]
...
第二个负载是否必须等待上一个负载完成,还是可以立即继续?
我正在处理需要从256个16位条目表中堆放的图像数据,并且我想使用neon对其进行进一步处理。不幸的是,由于表的大小,tbl指令不是一个选项,因为它将占用所有32个寄存器。首先使用arm进行查找,然后将结果合并并传输到4个64位寄存器中,会更快吗?
如果有帮助,我的目标是Cortex-A57。 |