注意架构差异

举一个自旋锁的移植来说明这一点，假设在x86平台中有一个自旋锁实现如下所示：

#define barrier() __asm__ __volatile__("": : :"memory")
int CompareAndSwap(volatile int* ptr,
                            int old_value,
                            int new_value) {
  int prev;
  __asm__ __volatile__("lock; cmpxchgl %1,%2"
                       : "=a" (prev)
                       : "q" (new_value), "m" (*ptr), "0" (old_value)
                       : "memory");
  return prev;
}
static void lock(int *l){
    while(CompareAndSwap(l, 0, 1) != 0);
}
static void unlock(int volatile *l){
    barrier();
    *l = 0;
}

指令集差异

这是一个简化的自旋锁实现，在我们对CompareAndSwap这个函数进行移植时，我们首先关注到的是两个架构中指令集的差异。在这个实现中，通过内联汇编语法使用了x86架构下的cmpxchgl指令，但是在ARM架构下并没有与之完全一一对应的指令。

在ARM架构下，原子操作是通过exclusive指令对实现的，如下图所示（图片来自ARMv8体系结构参考手册）：

所以我们使用exclusive指令对来实现这个CompareAndSwap函数，如下所示：

int CompareAndSwap(volatile int* ptr,
                             int old_value, 
                             int new_value) {
  int prev;
  int temp;
__asm____volatile__ (
    "0:                                    \n\t"
    "ldxr %w[prev], %[ptr]                 \n\t" 
    "cmp %w[prev], %w[old_value]           \n\t"
    "bne 1f                                \n\t"
    "stxr %w[temp], %w[new_value], %[ptr]  \n\t" 
    "cbnz %w[temp], 0b                     \n\t" 
    "1:                                    \n\t"
    : [prev]"=&r" (prev),
      [temp]"=&r" (temp),
      [ptr]"+Q" (*ptr)
    : [old_value]"IJr" (old_value),
      [new_value]"r" (new_value)
    : "cc", "memory"
  );
  return prev;
}

内存序差异

在如上述所示替换了CompareAndSwap函数之后，发现自旋锁并没有按预期工作，其主要是x86架构和ARM中的内存序差异导致的。

修改前：

static void lock(int *l){ 
     while(CompareAndSwap(l, 0, 1) != 0); 
 } 
 static void unlock(int volatile *l){ 
     barrier(); 
     *l = 0; 
 }

如表1所述，在ARM架构下允许原子操作和内存读写之间的乱序，导致了上述代码中lock函数之后的内存访问可能被乱序到lock中的原子操作获取到锁之前执行，进而导致了非预期程序行为。

另一方面，在释放锁的时候，原代码中使用了一个编译型内存屏障，但是在ARM更宽松的内存序模型下不足以保证正确，需要改为CPU级的内存屏障，

修改后代码如下所示：

#define smp_mb()  asm volatile("dmb ish" ::: "memory")
static void lock(int *l){
    while(CompareAndSwap(l, 0, 1) != 0);
    smp_mb();
}
static void unlock(int volatile *l){
    smp_mb();
    *l = 0;
}

至此该自旋锁在功能上的移植就完成了，经过验证这个实现可以按预期工作。实际上，根据尽可能使用acquire和release语义进行同步中所述，我们可以通过半屏障来进一步优化这个锁的实现，提升锁的性能。在获取锁的时候只需要acquire语义，而释放锁的时候只需要release语义，从而去掉上面所使用的CPU级的全屏障。最终移植到ARM架构下的实现如下所示：

int CompareAndSwap(volatile int* ptr, 
                            int old_value, 
                            int new_value) {
  int prev;
  int temp;
__asm____volatile__ (
    "0:                                    \n\t"
    "ldaxr %w[prev], %[ptr]                 \n\t" 
    "cmp %w[prev], %w[old_value]           \n\t"
    "bne 1f                                \n\t"
    "stxr %w[temp], %w[new_value], %[ptr]  \n\t" 
    "cbnz %w[temp], 0b                     \n\t"  
    "1:                                    \n\t"
    : [prev]"=&r" (prev),
      [temp]"=&r" (temp),
      [ptr]"+Q" (*ptr)
    : [old_value]"IJr" (old_value),
      [new_value]"r" (new_value)
    : "cc", "memory"
  );
  return prev;
}
static void lock(int *l) {
    while(CompareAndSwap(l, 0, 1) != 0);
}
static void unlock(int volatile *l)
{
    int zero = 0;
    __atomic_store(l, &zero, __ATOMIC_RELEASE);
}

父主题： 锁的移植