php utf-8转unicode的函数

  UTF编码

  UTF-8就是以8位为单元对UCS进行编码。从UCS-2到UTF-8的编码方式如下:

  UCS-2编码(16进制)

  UTF-8 字节流(二进制)

  0000 - 007F

  0xxxxxxx

  0080 - 07FF

  110xxxxx 10xxxxxx

  0800 - FFFF

  1110xxxx 10xxxxxx 10xxxxxx

  例如“汉”字的Unicode编码是6C49。6C49在0800-FFFF之间,所以肯定要用3字节模板了:1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是:0110 110001 001001, 用这个比特流依次代替模板中的x,得到:11100110 10110001 10001001,即E6 B1 89。

  终于将unicode和utf8互转搞定。

  如果utf-8编码的字符ch是3个字节。xx yy zz

  将xx和1F AND 操作得到 a

  将yy和7F AND 操作得到 b

  将zz和7F AND 操作得到 c

  (64a+b)*64+c = ch(unicode编码)

  echo.php没什么。就是几个函数。

  ");

  //写入unicode文件

  $ucs2data = utf8ToUnicode($data,"little");

  $endian = chr(0xFE).chr(0xFF);

  $endian = chr(0xFF).chr(0xFE);

  $rt = file_put_contents ( "ucs2.txt", $endian.$ucs2data);

  //19:32,utf8toUnicode函数ok.

  //20:09。发现little endian 和big endian问题。并解决。

  //big endian 方式存入的unicode字符串,ue和editplus均不能

  //识别。只有notepad正常识别。

  $rt = file_put_contents ( "usc2ys_data.txt", $ucs2_ysdata);

  //写入utf8文件

  $utf8data = unicodeToUtf8($ucs2data); // 20:52. 将字串转回utf8码ok.

  $rt = file_put_contents ( "utf8.txt", $utf8data);

  echo(urlencode($utf8data));echo("");

  $esc = utf8Escape($data);

  echot($esc);

  $esc = phpEscape($data);

  echot($esc);

  $unesc = phpUnescape($esc);

  echot($unesc);

  /**

  * 此函数将utf8编码字串转为unicode编码字符串

  * 参数 str ,utf8编码的字符串。

  * 参数 order,存放数据格式,是big endian还是little endian,默认的unicode存放次序是little.

  * 如:"大"的unicode码是 5927。little方式存放即为:27 59 。big方式则顺序不变:59 27.

  * little 存放格式文件的开头均需有FF FE。big 存放方式的文件开头为 FE FF。否则。将会产生严重混乱。

  * 本函数只转换字符,不负责增加头部。

  * iconv转换过来的字符串是 big endian存放的。

  * 返回 ucs2string , 转换过的字符串。

  * 感谢唠叨(xuzuning)

  */

  function utf8ToUnicode($str,$order="little")

  {

  $ucs2string ="";

  $n=strlen($str);

  for ($i=0;$i0x80) { //110xxxxx 10xxxxxx

  $a = (ord($str[$i]) & 0x3F )0x80 && ord($str[$i+2])>0x80) { //1110xxxx 10xxxxxx 10xxxxxx

  $a = (ord($str[$i]) & 0x1F)转为utf8编码字符串

  * 参数 str ,unicode编码的字符串。

  * 参数 order ,unicode字串的存放次序,为big endian还是little endian.

  * 返回 utf8string , 转换过的字符串。

  *

  */

  function unicodeToUtf8($str,$order="little")

  {

  $utf8string ="";

  $n=strlen($str);

  for ($i=0;$i转回来。

  $i++; //两个字节表示一个unicode字符。

  $c = "";

  if($val utf8string .= $c;

  }

  return $utf8string;

  } // end func

  /*

  * 将utf8编码的字符串编码为unicode 码型,等同escape

  * 之所以只接受utf8码,因为只有utf8码和unicode之间有公式转换,其他的编码都得查码表来转换。

  * 不知道查找utf8码的正则是否完全正确。迷茫ing

  * 虽然调用utf2ucs对每个字符进行码值计算。效率过低。然而,代码清晰,要是把那个计算过程嵌入。

  * 代码就不太容易阅读了。

  */

  function utf8Escape($str) {

  preg_match_all("/[\xC0-\xE0].|[\xE0-\xF0]..|[\x01-\x7f]+/",$str,$r);

  //prt($r);

  $ar = $r[0];

  foreach($ar as $k=>$v) {

  $ord = ord($v[0]);

  if( $ordutf8码

  $ar[$k] = "%u".utf2ucs($v);

  }

  elseif ($ordutf8码

  $ar[$k] = "%u".utf2ucs($v);

  }

  }//foreach

  return join("",$ar);

  }

  /**

  *

  * 把utf8编码字符转为ucs-2编码

  * 参数 utf8编码的字符。

  * 返回 该字符的unicode码值。知道了码值,你就能使用chr将字符弄出来了。

  *

  * 原理:unicode转为utf-8码的算法是。头部固定位或。

  该过程的逆向算法就是这个函数了,头部固定位反位和。

  */

  function utf2ucs($str){

  $n=strlen($str);

  if ($n=3) {

  $highCode = ord($str[0]);

  $midCode = ord($str[1]);

  $lowCode = ord($str[2]);

  $a = 0x1F & $highCode;

  $b = 0x7F & $midCode;

  $c = 0x7F & $lowCode;

  $ucsCode = (64*$a + $b)*64 + $c;

  }

  elseif ($n==2) {

  $highCode = ord($str[0]);

  $lowCode = ord($str[1]);

  $a = 0x3F & $highCode; //0x3F是0xC0的补数

  $b = 0x7F & $lowCode; //0x7F是0x80的补数

  $ucsCode = 64*$a + $b;

  }

  elseif($n==1) {

  $ucscode = ord($str);

  }

  return dechex($ucsCode);

  }

  /*

  * 用处 :此函数用来逆转javascript的escape函数编码后的字符。

  * 关键的正则查找我不知道有没有问题.

  * 参数:javascript编码过的字符串。

  * 如:unicodeToUtf8("%u5927")= 大

  * 2005-12-10

  *

  */

  function phpUnescape($escstr){

  preg_match_all("/%u[0-9A-Za-z]{4}|%.{2}|[0-9a-zA-Z.+-_]+/",$escstr,$matches); //prt($matches);

  $ar = &$matches[0];

  $c = "";

  foreach($ar as $val){

  if (substr($val,0,1)!="%") { //如果是字母数字+-_.的ascii码

  $c .=$val;

  }

  elseif (substr($val,1,1)!="u") { //如果是非字母数字+-_.的ascii码

  $x = hexdec(substr($val,1,2));

  $c .=chr($x);

  }

  else { //如果是大于0xFF的码

  $val = intval(substr($val,2),16);

  if($val %u".bin2hex( iconv( 'gbk' ,"UCS-2",$chars[$i].$chars[$i+1] ) );

  $i++;

  }

  }//foreach

  return $ar;

  }

  ?>

  c#实现代码

  /**

  * utf-8 转换成 unicode

  * @author fanhui

  * 2007-3-15

  * @param inStr

  * @return

  */

  public static String utf8ToUnicode(String inStr) {

  char[] myBuffer = inStr.toCharArray();

  StringBuffer sb = new StringBuffer();

  for (int i = 0; i < inStr.length(); i++) {

  UnicodeBlock ub = UnicodeBlock.of(myBuffer[i]);

  if(ub == UnicodeBlock.BASIC_LATIN){

  //英文及数字等

  sb.append(myBuffer[i]);

  }else if(ub == UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS){

  //全角半角字符

  int j = (int) myBuffer[i] - 65248;

  sb.append((char)j);

  }else{

  //汉字

  short s = (short) myBuffer[i];

  String hexS = Integer.toHexString(s);

  String unicode = "\\u"+hexS;

  sb.append(unicode.toLowerCase());

  }

  }

  return sb.toString();

  }

  /**

  * unicode 转换成 utf-8

  * @author fanhui

  * 2007-3-15

  * @param theString

  * @return

  */

  public static String unicodeToUtf8(String theString) {

  char aChar;

  int len = theString.length();

  StringBuffer outBuffer = new StringBuffer(len);

  for (int x = 0; x < len;) {

  aChar = theString.charAt(x++);

  if (aChar == '\\') {

  aChar = theString.charAt(x++);

  if (aChar == 'u') {

  // Read the xxxx

  int value = 0;

  for (int i = 0; i < 4; i++) {

  aChar = theString.charAt(x++);

  switch (aChar) {

  case '0':

  case '1':

  case '2':

  case '3':

  case '4':

  case '5':

  case '6':

  case '7':

  case '8':

  case '9':

  value = (value << 4) + aChar - '0';

  break;

  case 'a':

  case 'b':

  case 'c':

  case 'd':

  case 'e':

  case 'f':

  value = (value << 4) + 10 + aChar - 'a';

  break;

  case 'A':

  case 'B':

  case 'C':

  case 'D':

  case 'E':

  case 'F':

  value = (value << 4) + 10 + aChar - 'A';

  break;

  default:

  throw new IllegalArgumentException(

  "Malformed   \\uxxxx   encoding.");

  }

  }

  outBuffer.append((char) value);

  } else {

  if (aChar == 't')

  aChar = '\t';

  else if (aChar == 'r')

  aChar = '\r';

  else if (aChar == 'n')

  aChar = '\n';

  else if (aChar == 'f')

  aChar = '\f';

  outBuffer.append(aChar);

  }

  } else

  outBuffer.append(aChar);

  }

  return outBuffer.toString();

  }