#申请原创#
@21小跑堂
国庆前有一块RA生态工作室出品的RA8D1B-CPKCOR开发板到了,主控瑞萨RA8D1B MCU,基于Arm Cortex-M85,支持Helium 和 TrustZone,CPU频率高达480MHZ。似乎是世界第一款使用Cortex-M85的MCU?RA8D1B集成2MB flash和1MB的SRAM,I/D-cache 32KB。集成一堆丰富外设主控,比如usb、eth、i2c、i3c、spi、sdhci、ospi、canfd、MIPI-DSI、CEU摄像头、2D图形、TFT显示控制等等,MCU功能已经非常强大。更有意思的是RA8D1B-CPKCOR板载了32MB SDRAM,16MB的QSPI flash,看到这些尤其是32MB的SDRAM笔者觉得这板子足够跑linux系统了,虽然Cortex-M85无MMU,但主线linux早已经支持NOMMU了。要说生态没有哪个RTOS能和linux比生态,在不要求硬实时的应用场景中利用linux系统的丰富生态能大大降低软件工作量。一个复杂MCU平台的软件工作量非常大,特别是集成M7、M85这样高性能的core(M7 coremark/MHZ超过A7)的MCU,外设通常也是比较丰富的,大多数系统还板载了SDRAM或PSRAM,如果再以裸机思维去做软件,软件复杂度大到不可想象。而RTOS的生态因种种原因远远不如linux。
那咱们就开始RA8D1B移植linux的旅程了:
bootloader初始化SDRAM
初始化sdram,其实RA生态工作室其实做好了,直接把他们的board_sdram.c和board_sdram.h拷贝过来即可。这一步最好做下内存读写的压力测试,我没用他们的测试code,自己写了一份,为啥呢:linux下读写内存1字节、2字节、4字节都可能的,我想都测到,测试代码如下:#define SDRAM_BASE_ADDRESS (0x68000000U)
static void sdram_test(void)
{
int i;
uint32_t addr;
uint32_t t1;
uint8_t testbuf[64];
void *p = (void *)SDRAM_BASE_ADDRESS;
APP_PRINT("Writing SDRAM...\n");
printf("Writing SDRAM...\n");
for (addr = 0; addr < 32 * 1024 * 1024; ++addr) {
uint8_t data = addr & 0xff;
*(uint8_t *)(p + addr) = data;
}
APP_PRINT("Reading SDRAM...\n");
printf("Reading SDRAM...\n");
for (addr = 0; addr < 32 * 1024 * 1024; ++addr) {
uint8_t data, expected;
expected = addr & 0xff;
data = *(uint8_t *)(p + addr);
if (data != expected)
APP_PRINT("SDRAM 8bit read failed at %lx (%x != %x)\n", addr, data, expected);
}
APP_PRINT("SDRAM 8bit read pass.\n");
printf("SDRAM 8bit read pass.\n");
for (addr = 0; addr < 32 * 1024 * 1024; addr += 2) {
uint16_t data, expected;
expected = (((addr + 1) & 0xff) << 8) |
(addr & 0xff);
data = *(uint16_t *)(p + addr);
if (data != expected)
APP_PRINT("SDRAM 16bit read failed at %lx (%x != %x)\n", addr, data, expected);
}
APP_PRINT("SDRAM 16bit read pass.\n");
printf("SDRAM 16bit read pass.\n");
for (addr = 0; addr < 32 * 1024 * 1024; addr += 4) {
uint32_t data, expected;
expected = (((addr + 3) & 0xff) << 24) |
(((addr + 2) & 0xff) << 16) |
(((addr + 1) & 0xff) << 8) |
(addr & 0xff);
data = *(uint32_t *)(p + addr);
if (data != expected)
APP_PRINT("SDRAM 32bit read failed at %lx (%lx != %lx)\n", addr, data, expected);
}
APP_PRINT("SDRAM 32bit read pass.\n");
printf("SDRAM 32bit read pass.\n");
memset(testbuf, 0x5a, sizeof(testbuf));
DWT_init();
t1 = DWT_get_count();
for (i = 0; i < 10000; ++i) {
memcpy(p, testbuf, 64);
}
t1 = DWT_get_count() - t1;
t1 = DWT_count_to_us(t1);
t1 /= 1000;
APP_PRINT("SDRAM write speed: %ld B/s.\n", 64 * 10000 * 1000 / t1);
printf("SDRAM write speed: %ld B/s.\n", 64 * 10000 * 1000 / t1);
t1 = DWT_get_count();
for (i = 0; i < 10000; ++i) {
memcpy(testbuf, p, 64);
}
t1 = DWT_get_count() - t1;
t1 = DWT_count_to_us(t1);
t1 /= 1000;
APP_PRINT("SDRAM read speed: %ld B/s.\n", 64 * 10000 * 1000 / t1);
printf("SDRAM read speed: %ld B/s.\n", 64 * 10000 * 1000 / t1);
for (;;) {
APP_PRINT("SDRAM test done\n");
printf("SDRAM test done\n");
__WFI();
}
}
这一步其实还有用FSP配置并生成项目工程,本人因习惯于Linux下开发,所以生成的是CMake工程。这一步网上测评很多铺天盖地,且FSP使用并非本次主目标,这里不再赘述。
bootloader加载并跳转linux内核入口
加载内核image、dtb等可以从sd卡加载也可以从flash上加载,但bootloader不是本次主目标,能否偷懒呢?不要忘记板载的jlink,完全可以用jlink把内核image和dtb加载到SDRAM指定位置,jlink加载命令语法如下:
loadfile FILE address noreset
比如
loadfile /tmp/Image.bin 0x68008000 noreset
noreset意思是只加载后不要reset目标板,jlink loadfile默认是reset的。
加载解决了,跳转内核入口呢?easy,使用jlink的wreg命令即可,语法如下:
不过这里碰到jlink一个比较搞笑的地方,它命令行里32位arm的pc寄存器,你写r15或pc都不行,必须是"R15 (PC)"才行,比如
wreg "R15 (PC)" 0x68008000
建议segger这里做下简单更新,方便用户,毕竟打双引号再空格再括号相当繁琐。
linux cortex-m85的支持补丁
32位arm对每款cpu都有一个所谓proc_info的结构体,成员包含cpu setup函数,cache操作函数,hwcaps变量等等,cortex-m85呢笔者做这个事情的时候主线linux中还没有这个结构体。经阅读cortex-m85 TRM可以知道就上述操作函数等来讲它和cortex-m55是兼容的,所以笔者打了个补丁如下:
--- a/arch/arm/mm/proc-v7m.S
+++ b/arch/arm/mm/proc-v7m.S
@[url=home.php?mod=space&uid=72445]@[/url] -194,6 +194,16 @[url=home.php?mod=space&uid=72445]@[/url] ENDPROC(__v7m_setup)
.long \cache_fns
.endm
+ /*
+ * Match ARM Cortex-M85 processor.
+ */
+ .type __v7m_cm85_proc_info, #object
+__v7m_cm85_proc_info:
+ .long 0x410fd230 /* ARM Cortex-M85 0xD23 */
+ .long 0xff0ffff0 /* Mask off revision, patch release */
+ __v7m_proc __v7m_cm85_proc_info, __v7m_cm7_setup, hwcaps = HWCAP_EDSP, cache_fns = v7m_cache_fns, proc_fns = cm7_processor_functions
+ .size __v7m_cm85_proc_info, . - __v7m_cm85_proc_info
+
/*
* Match ARM Cortex-M55 processor.
*/
fix一个exc_ret的bug
不多说了看代码即可
+++ b/arch/arm/include/asm/v7m.h
@[url=home.php?mod=space&uid=72445]@[/url] -51,6 +51,7 @@
*/
#define EXC_RET_STACK_MASK 0x00000004
#define EXC_RET_THREADMODE_PROCESSSTACK (3 << 2)
+#define EXC_RET_FTYPE (1 << 4)
/* Cache related definitions */
diff --git a/arch/arm/mm/proc-v7m.S b/arch/arm/mm/proc-v7m.S
index ed7781c84341..fdae077d2654 100644
--- a/arch/arm/mm/proc-v7m.S
+++ b/arch/arm/mm/proc-v7m.S
@[url=home.php?mod=space&uid=72445]@[/url] -138,6 +138,7 @[url=home.php?mod=space&uid=72445]@[/url] __v7m_setup_cont:
1: cpsid i
/* Calculate exc_ret */
orr r10, lr, #EXC_RET_THREADMODE_PROCESSSTACK
+ orr r10, #EXC_RET_FTYPE
ldmia sp, {r0-r3, r12}
str r5, [r12, #11 * 4] @ restore the original SVC vector entry
mov lr, r6 @ restore LR
clockevent和clocksource
linux系统必有至少一个clockevent提供心跳中断,一个clocksource提供计时。其中clockevent必须的,clocksource可以由内核的jiffies代替,详细笔者就不赘述了,因为前前后后讲清楚它们可以长篇大论写两三篇大文章,linux内核这块其实还蛮复杂的,但对clockevent和clocksource驱动要提供的接口来说变简单了,以后有机会再写吧。对应到MCU来说,其实就是timer嘛,RA8D1B里集成的timer多的是,各种口味的都有。对着RA8D1B的手册写clockevent/clocksource驱动难度不大,但是,笔者这次想换个**,咱能不能利用arm自由的资源呢?我们知道arm M类cpu都有一个systick且支持中断,所以理论上可以把它抽象成一个clockevent的。目前linux内核主线中把这个systick当clocksource用的,不支持clockevent,它的代码在drivers/clocksource/armv7m_systick.c。咱给它改造改造整个容,经笔者整容之后的armv7m_systick.c眉清目秀,盘亮条顺。
tty console
要看基本linux启动成功可用,最简单的还是一个tty console。console用uart做比较简单,这个RA8D1B里也有好几个uart,而且特性丰富功能强大,而且似乎内核中有一个同出一门众芯片的串口驱动drivers/tty/serial/sh-sci.c,但似乎寄存器不是太一致,所以接下来咱就对着手册改写串口驱动吗?NoNoNo,一般来说特性丰富功能强大就暗示着还是蛮复杂的,不信你去读一读sh-sci.c,咱能否粗糙猛方式搞定linux呢?咱又看上jlink了,它不是有个RTT (Real Time Terminal)么,既然号称Real Time Terminal,代替个串口做console那是小菜一碟阿。但是Segger的RTT代码不能直接用,因为SDRAM有32MB,这么大空间都搜一遍么?而且别忘记Cortex-M85是可以带有D-cache的,恰好RA8D1B里的这个M85就配置了D-Cache, linux肯定开启cache了,RTT代码注释和文档里对使能了cache这块其实有很多的说明。笔者这>里换了一个思路,不要用SDRAM而是SRAM阿或者DTCM一部分来做RTT控制块,DTCM是不经cache的。另外为了通用性,咱们这里还需要使用DT(Device Tree)技术而不是hardcoding来设置RTT控制块的地址,然后通过如下命令告诉jlink到哪里去找RTT控制块:
exec SetRTTAddr 0x20000000
笔者也把Segger的RTT给整了个容,更像linux家的大**了。
dts
最后根据MCU和板级具体情况做个简单的dts,主要就是告诉SDRAM起始地址阿大小阿什么的,还有上面说的rtt的设备节点。
至此,linux内核层的事情搞定了,咱来搞定linux用户层。
利用buildroot构造工具链和rootfs
buildroot对NOMMU Linux支持得非常好,基本是拿来就用,buildroot使用方法网上也是很多的,前后>讲完也是很费时的,这里笔者也不多着笔墨了,因为linux userspace也不是主要目标。这个步骤的输>出是一个用busybox做的简单rootfs,可以在内核编译时builtin进去省去加载initrd/rootfs的过程。
编译内核和dtb
上述dts编译成一个dtb,重命名为dtb.bin,内核(带rootfs builtin)编译成一个Image,重命名为Image.bin。
万事具备,可以吹东风啦,咱上机测试一把
板子上电,烧录前面讲的bootloader,重启板子,运行jlink挂上去,运行如下命令:
halt
exec SetRTTAddr 0x20000000
loadfile /tmp/Image.bin 0x68008000 noreset
loadfile /tmp/dtb.bin 0x68004000 noreset
wreg "R15 (PC)" 0x68008001
wreg r0 0
wreg r2 0x68004000
go
第一个命令停止cpu,第二个命令是告诉jlink RTT控制块地址,后面是加载内核Image和跳转内核入口,至于为啥这么设置请参考arm linux内核启动协议,网上很多,笔者不再赘述了。
再起一个shell运行如下命令获得RA8D1B的linux shell
最后运行NOMMU Linux的视频供参考: https://www.bilibili.com/video/BV1FU2zYqEVQ/
咱可能是世界上第一个在cortex-m85平台上跑linux的憨憨 :D
最后说一句:笔者有一个预感,NOMMU Linux可能又会流行起来了。
|
在RA8D1B-CPKCOR开发板上一直linux的尝鲜体验,测试过程完善,实现效果较好