2008年7月30日星期三

Sharing Hardware Registers: When to replace multiple writers with a shared resource driver.

Sharing Hardware Registers: When to replace multiple writers with a shared resource driver.
Posted by Jeremy Cooke
翻译自
http://blogs.msdn.com/ce_base/archive/2007/03/29/sharing-hardware-registers-when-to-replace-multiple-writers-with-a-shared-resource-driver.aspx

Hi, I am cpuwolf。这篇来自微软的建议,写的是关于多个驱动共享同一个硬件的问题。这里给出了很好的建议。我尝试用尽可能贴切的专业词语翻译,有什么不对的地方,请指出。
当设计复杂的系统时,偶尔会必需协调对某些的共享资源的访问。一般这些同步问题都由操作系统所提供的例如critical section或mutex等来解决 。这些技术在它是一个简单的共享资源,并且较少的对它的访问时,是无可挑剔的。但对于复杂的资源访问多个threads ,进程,驱动程序,或多个应用程序,新的规范可能更为合适。一个很好的共享资源的驱动程序的例子,就是GPIO驱动程序。每个驱动可能共用一个GPIO模块的寄存器,或者共同读-修改-写,每个驱动如果不同步,那么就会产生问题,
比起直接访问共享资源,把这些访问操作抽象到一个独立的驱动程序去做,可能会更好。所有会访问共享资源的家伙,可以采用尽量少的open这个驱动或者较少使用它的接口。同时,这个驱动程序在内部去处理将同步问题和处理任何可能出现的错误。调用者可以不用再担心同步问题,因为所有这些麻烦都已经交给了别的驱动。
通过使用这一技术,程序员,往往能够避免使用critical section,否则这样的结构会充斥整个原本的代码。现在每一次对共享资源的访问,现在只需通过一个用户设计的API,这些API抽象了访问动作,并且增加程序的可读性。
共享资源的驱动程序也应该预处理和检查错误的输入,以及很好的处理共享资源的错误。由于错误码现在是集中处理的,所有程序员大可认为共享资源已经被很好的保护。这是team开发时的很重要的一点。
例子学习
这个嵌入式系统具有多通道ADC转换器,并且每个通道都有相应的设备使用。多个不相干的驱动程序都试图访问各自的通道。软件可以将hardware所有通道的转换结果放在一块内存中。如果多个线程请求ADC转换,同时没有适当的同步 那么这里就潜藏着一个污染到另一个的情况。
在这特别的系统里有和ADC转换相关的battery驱动程序, USB驱动程序,以及系统的背光驱动程序。battery驱动程序是要关心当前的电压、电池的温度、以及充电电压和充电电流。 USB驱动程序需要监控USB vbus的电压,而背光驱动器需监测环境光线与光电二极管。由于这些功能是在自己的驱动中处理,所有共享资源的访问,都必须以一个更先进的方式控制。以下图1描绘了每个驱动程序都要存取硬件的ADC 。
模拟向数字转换器,将被抽象,并使用一个专门的驱动程序。驱动程序允许多个writer使用所有通道的转换功能,同时返回结果放在一个用户指定的内存中(见图2下文) 。
这个驱动暴露出一个函数,其中包括A / D转换功能并返回结果。如下:
enum ADChannels
{
AD_CHANNEL_BAT_VOLTAGE = 0,

AD_CHANNEL_BAT_CHG_VOLTAGE,
AD_CHANNEL_BAT_CHG_CURRENT,

AD_CHANNEL_BAT_TEMP,
AD_CHANNEL_USB_VBUS,
AD_CHANNEL_PHOTODIODE,
TOTAL_AD_CHANNELS

};


BOOL PerformADConversion(USHORT *pOutBuffer, DWORD OutSize);
在这里pOutBuffer 指向用户的buffer,在函数返回的大小必须等于TOTAL_AD_CHANNELS。必须注意,当向用户数据区拷贝数据时,建议使用类似CeSafeCopyMemory 的函数来处理,它可以处理非法内存的问题。
该PerformADConversion 函数可以实例化一个critical section同步使用,可以看出在图3 :

在这个设计中,所有硬件访问都被保护在一个集中的代码区,只使用仅仅一个critical section。系统性能得以提升,因为使用了轻量级的critical section,而是一个缓慢的同步对象(如mutex) 。程序员现在可以进一步优化系统性能,每个驱动程序可以同时进行。
虽然使用一个专门的驱动程序来完成这些事情有很多的好处,但是,事实上,这种做法可能会稍微有点慢。因为通过标准的Windows CE的函数访问驱动程序是有一些开销。因此,最好的方法是建立一种结构是驱动的访问开销最小。但是无论怎样,使用这种方法的收益是远远大于这里的开销的。

挖掘WinCE 5系统调用过程

int shellcode[] =
{
0xE59F0014, // ldr r0, [pc, #20]
0xE59F4014, // ldr r4, [pc, #20]
0xE3A01000, // mov r1, #0
0xE3A02000, // mov r2, #0
0xE3A03000, // mov r3, #0
0xE1A0E00F, // mov lr, pc
0xE1A0F004, // mov pc, r4
0x0101003C, // IOCTL_HAL_REBOOT
0xF000FE74, // trap address of KernelIoControl
};
这是黑客常用的缓冲攻击代码形式,这里的32为常数,都是ARM机器指令。
我就要想你展示的不是如何攻击WinCE内核,而是看看WinCE的系统调用是如何实现的。WinCE一个常用的API,KernelIoControl,它的实现体实在内核NK.exe,而function caller只是一个trusted的user级别的application。
你可以想象,这样的API的实现,必然要经历CPU从user processer mode切换到supervisor processer mode。
BOOL KernelIoControl(
DWORD dwIoControlCode,
LPVOID lpInBuf,
DWORD nInBufSize,
LPVOID lpOutBuf,
DWORD nOutBufSize,
LPDWORD lpBytesReturned
);
KernelIoControl超过了4个参数,那么在参数传递时,超过的部分使用堆栈完成的。IOCTL_HAL_REBOOT的参数都没什么用,所以这个我们忽略,传0就可以了,因此r1,r2,r3赋值0.
IOCTL_HAL_REBOOT的数值必须放在寄存器r0。
上面的代码中r4的内容会变为0xF000FE74,代码最后就是跳转到0xF000FE74,你可以看到这个地址很大,在整个内存空间的高地址。同时这个地址是经过编码得到,公式是:
0xf0010000-(256*apiset+apinr)*4
对于KernelIoControl,apiset是0,apinr是99。0xF000FE74是这样得到的。
当代码跳转的这样一个高地址时,会引发prefetch abort,这样exception会被内核 ,也就是NK.exe抓到。然后再对这个出错地址进行解析,就可以知道应用程序想访问那个system cal。
综上,WinCE并不是靠SWI这样的软中断实现system call,而是prefetch abort。

2008年7月24日星期四

WinCE5 kernel高地址都放了什么东西


typedef struct ARM_HIGH {
ulong firstPT[4096]; // 0xFFFD0000: 1st level page table
char reserved2[0x20000-0x4000];

char exVectors[0x400]; // 0xFFFF0000: exception vectors
char reserved3[0x2400-0x400];

char intrStack[0x400]; // 0xFFFF2400: interrupt stack
char reserved4[0x4900-0x2800];

char abortStack[0x700]; // 0xFFFF4900: abort stack
char reserved5[0x6800-0x5000];

char fiqStack[0x100]; // 0xFFFF6800: FIQ stack
char reserved6[0xC000-0x6900];

char kStack[0x800]; // 0xFFFFC000: kernel stack
struct KDataStruct kdata; // 0xFFFFC800: kernel data page
} ARM_HIGH;

Post-Processing flash.dio


windows mobile最终生成image通常叫做flash.bin。请记住其实是flash.dio,这个文件是一个真正的数据镜像,flash.bin是flash.dio在后期处理,也就是post-processing阶段生产的。
Flash.bin中会包含NAND flash每个sector info的附加信息,并且以block的大小分段。其实也就是把flash.dio中的原始数据加以分段,打包。

值得注意的是微软上面提到:
In addition, NandPostProc.exe also truncates TFAT by 4 blocks, and then adds two compaction blocks into IMGFS and into TFAT. These compaction blocks provide wear–leveling, and help lengthen the life of the flash hardware.

Flash.bin中imgfs分区和tfat分区会被加上gap,反正我是没理解微软的用意。他这样一改,会导致开头的MBR中的分区表信息和这里对不上,因为两个分区后移了。除非这4块区域被标记为未使用,那么查找分区时会自然向后查找,否则就会出错。下面是我用KITL抓到的错误:
Loaded 'cecompr.dll', no matching symbolic information found.
2928 PID:a7a9f512 TID:e7a7a85e ERROR: IMGFS!CVolume::LoadCompressionEngine: unable to load decompressor type "yyyyyyyyyyyyyyyy" from dll "CECOMPR.DLL"... expect failures!!!
Unloaded symbols for 'cecompr.dll'

这样的错误,我花了1个多月,才发现就是上面4 blocks导致。最后我临时换了方案,改烧flash.dio就OK。
所以如果你在porting platform时,遇到这样的问题,先参考一下我的经历。