php读取二进制流(C语言结构体struct数据文件)的深入解析

  尽管php是用C语言开发的,不过令我不解的是php没有提供对结构体struct的直接支持。

  不过php提供了pack和unpack函数,用来进行二进制数据(binary data)和php内部数据的互转:

  

复制代码 代码如下:

  string pack ( string $format [, mixed $args [, mixed $...]] )

  //Pack given arguments into binary string according to format.

  array unpack ( string $format, string $data )

  //Unpacks from a binary string into an array according to the given format.

  其中,$format跟perl里的pack格式类似,有如下一些(中文是我加的,有不准确的欢迎提出):

  a NUL-padded string,即“\0”作为“空字符”的表示形式

  A SPACE-padded string,空格作为“空字符”的表示形式

  h Hex string, low nibble first,升序位顺序

  H Hex string, high nibble first,降序位顺序

  c signed char,有符号单字节

  C unsigned char,无符号单字节

  s signed short (always 16 bit, machine byte order)

  S unsigned short (always 16 bit, machine byte order)

  n unsigned short (always 16 bit, big endian byte order)

  v unsigned short (always 16 bit, little endian byte order)

  i signed integer (machine dependent size and byte order)

  I unsigned integer (machine dependent size and byte order)

  l signed long (always 32 bit, machine byte order)

  L unsigned long (always 32 bit, machine byte order)

  N unsigned long (always 32 bit, big endian byte order)

  V unsigned long (always 32 bit, little endian byte order)

  f float (machine dependent size and representation)

  d double (machine dependent size and representation)

  x NUL byte,实际使用的时候作为跳过多少字节用,很有用

  X Back up one byte,后退1字节

  @ NUL-fill to absolute position,实际使用的时候作为从开头跳到某字节用,很有用

  实际使用发现:C里的“\0”(即字符串终止符)在php里并不是终止符,而是作为了字符串的一部分。因此,必须对“\0”进行特殊处理,才能进行struct和php内部数据的完美互转。比如 char name[10]; 如果实际数据是“62 69 61 6E 00 62 69 616E00”,在C语言里第5个位置有终止符,name应该是“bian”;而用了unpack转换以后在php里的name却是“bian\0bian\0”。

  一开始我用了strpos函数找到“\0”的位置,然后进行substr截取.

  不过很Faint的事情发生了,不知道是strpos的bug还是substr的bug(其实测试一下就知道,懒得试),有些字符串没问题,有些字符串却只能得到空值(即$name == ”)。很是郁闷,后来找了个strtok函数,这下没有问题了.

  难为大家看了那么多,下面写个完整的php读取二进制数据流(C语言结构体struct数据)文件的示例代码:

  首先是C的struct定义示例,为了演示,我就写个简单点的,实际对照上面那个$format格式表应该没有问题:

  

复制代码 代码如下:

  struct BIANBIAN {

  char name[10];

  char pass[33];

  int  age;

  unsigned char flag;

  };

  比如有个“file.dat”文件,内容就是上面的N个BIANBIAN结构体构成的。读取的php代码:

  

复制代码 代码如下:

  <?php

  //下面根据struct确定$format,注意int类型跟机器环境有关,我的32位Linux是4个长度

  $format = 'a10name/a33pass/iage/Cflag';

  //确定一个struct占用多少长度字节,如果只是读取单个结构体这是不需要的

  $length = 10 + 33 + 4 + 1;

  //也可以用fopen + fread + fclose,不过file_get_contents因为可以mmap,效率更高

  $data = file_get_contents('file.dat', 'r');

  for ($i = 0, $c = strlen($data); $i < $c; $i += $length) {

  $bianbian = unpack("$format", $data);

  //reference传递是php 5才支持的,如果用php4,得用其他办法

  foreach ($bianbian as &$value) {

  if (is_string($value)) {

  $value = strtok($value, "\0");

  }

  }

  print_r($bianbian);

  }

  ?>

  pack应该跟unpack相反。

  顺便附上生成结构体文件的C语言代码:

  

复制代码 代码如下:

  #include <stdio.h>

  #include <string.h>

  struct example

  {

  char name[10];

  char pass[33];

  int  age;

  unsigned char flag;

  };

  int main()

  {

  example test;

  example read;

  FILE *fp;

  test.age = 111;

  test.flag = 10;

  strcpy(test.name, "Hello World!");

  strcpy(test.pass, "zbl110119");

  fp = fopen("file.dat", "w+");

  if (!fp)

  {

  printf("open file error!");

  return -1;

  }

  rewind(fp);

  fwrite(&test, sizeof(example), 1, fp);

  rewind(fp);

  fread(&read, sizeof(example), 1, fp);

  printf("%d, %s\n", read.age, read.name);

  fclose(fp);

  return 0;

  }