管理资源吧首页>>>教程>>>编程>>>PHP教程>>>

php utf-8转unicode的函数

　　UTF编码

　　UTF-8就是以8位为单元对UCS进行编码。从UCS-2到UTF-8的编码方式如下：

　　UCS-2编码(16进制)

　　UTF-8 字节流(二进制)

　　0000 - 007F

　　0xxxxxxx

　　0080 - 07FF

　　110xxxxx 10xxxxxx

　　0800 - FFFF

　　1110xxxx 10xxxxxx 10xxxxxx

　　例如“汉”字的Unicode编码是6C49。6C49在0800-FFFF之间，所以肯定要用3字节模板了：1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是：0110 110001 001001，用这个比特流依次代替模板中的x，得到：11100110 10110001 10001001，即E6 B1 89。

　　终于将unicode和utf8互转搞定。

　　如果utf-8编码的字符ch是3个字节。xx yy zz

　　将xx和1F AND 操作得到 a

　　将yy和7F AND 操作得到 b

　　将zz和7F AND 操作得到 c

　　(64a+b)*64+c = ch(unicode编码)

　　echo.php没什么。就是几个函数。

　　");

　　//写入unicode文件

　　$ucs2data = utf8ToUnicode($data,"little");

　　$endian = chr(0xFE).chr(0xFF);

　　$endian = chr(0xFF).chr(0xFE);

　　$rt = file_put_contents ( "ucs2.txt", $endian.$ucs2data);

　　//19:32,utf8toUnicode函数ok.

　　//20:09。发现little endian 和big endian问题。并解决。

　　//big endian 方式存入的unicode字符串，ue和editplus均不能

　　//识别。只有notepad正常识别。

　　$rt = file_put_contents ( "usc2ys_data.txt", $ucs2_ysdata);

　　//写入utf8文件

　　$utf8data = unicodeToUtf8($ucs2data); // 20:52. 将字串转回utf8码ok.

　　$rt = file_put_contents ( "utf8.txt", $utf8data);

　　echo(urlencode($utf8data));echo("");

　　$esc = utf8Escape($data);

　　echot($esc);

　　$esc = phpEscape($data);

　　echot($esc);

　　$unesc = phpUnescape($esc);

　　echot($unesc);

　　/**

　　* 此函数将utf8编码字串转为unicode编码字符串

　　* 参数 str ,utf8编码的字符串。

　　* 参数 order,存放数据格式，是big endian还是little endian，默认的unicode存放次序是little.

　　* 如："大"的unicode码是 5927。little方式存放即为：27 59 。big方式则顺序不变：59 27.

　　* little 存放格式文件的开头均需有FF FE。big 存放方式的文件开头为 FE FF。否则。将会产生严重混乱。

　　* 本函数只转换字符，不负责增加头部。

　　* iconv转换过来的字符串是 big endian存放的。

　　* 返回 ucs2string , 转换过的字符串。

　　* 感谢唠叨（xuzuning）

　　*/

　　function utf8ToUnicode($str,$order="little")

　　{

　　$ucs2string ="";

　　$n=strlen($str);

　　for ($i=0;$i0x80) { //110xxxxx 10xxxxxx

　　$a = (ord($str[$i]) & 0x3F )0x80 && ord($str[$i+2])>0x80) { //1110xxxx 10xxxxxx 10xxxxxx

　　$a = (ord($str[$i]) & 0x1F)转为utf8编码字符串

　　* 参数 str ,unicode编码的字符串。

　　* 参数 order ,unicode字串的存放次序，为big endian还是little endian.

　　* 返回 utf8string , 转换过的字符串。

　　*

　　*/

　　function unicodeToUtf8($str,$order="little")

　　{

　　$utf8string ="";

　　$n=strlen($str);

　　for ($i=0;$i转回来。

　　$i++; //两个字节表示一个unicode字符。

　　$c = "";

　　if($val utf8string .= $c;

　　}

　　return $utf8string;

　　} // end func

　　/*

　　* 将utf8编码的字符串编码为unicode 码型，等同escape

　　* 之所以只接受utf8码，因为只有utf8码和unicode之间有公式转换，其他的编码都得查码表来转换。

　　* 不知道查找utf8码的正则是否完全正确。迷茫ing

　　* 虽然调用utf2ucs对每个字符进行码值计算。效率过低。然而，代码清晰，要是把那个计算过程嵌入。

　　* 代码就不太容易阅读了。

　　*/

　　function utf8Escape($str) {

　　preg_match_all("/[＼xC0-＼xE0].|[＼xE0-＼xF0]..|[＼x01-＼x7f]+/",$str,$r);

　　//prt($r);

　　$ar = $r[0];

　　foreach($ar as $k=>$v) {

　　$ord = ord($v[0]);

　　if( $ordutf8码

　　$ar[$k] = "%u".utf2ucs($v);

　　}

　　elseif ($ordutf8码

　　$ar[$k] = "%u".utf2ucs($v);

　　}

　　}//foreach

　　return join("",$ar);

　　}

　　/**

　　*

　　* 把utf8编码字符转为ucs-2编码

　　* 参数 utf8编码的字符。

　　* 返回该字符的unicode码值。知道了码值，你就能使用chr将字符弄出来了。

　　*

　　* 原理：unicode转为utf-8码的算法是。头部固定位或。

　　该过程的逆向算法就是这个函数了，头部固定位反位和。

　　*/

　　function utf2ucs($str){

　　$n=strlen($str);

　　if ($n=3) {

　　$highCode = ord($str[0]);

　　$midCode = ord($str[1]);

　　$lowCode = ord($str[2]);

　　$a = 0x1F & $highCode;

　　$b = 0x7F & $midCode;

　　$c = 0x7F & $lowCode;

　　$ucsCode = (64*$a + $b)*64 + $c;

　　}

　　elseif ($n==2) {

　　$highCode = ord($str[0]);

　　$lowCode = ord($str[1]);

　　$a = 0x3F & $highCode; //0x3F是0xC0的补数

　　$b = 0x7F & $lowCode; //0x7F是0x80的补数

　　$ucsCode = 64*$a + $b;

　　}

　　elseif($n==1) {

　　$ucscode = ord($str);

　　}

　　return dechex($ucsCode);

　　}

　　/*

　　* 用处：此函数用来逆转javascript的escape函数编码后的字符。

　　* 关键的正则查找我不知道有没有问题.

　　* 参数：javascript编码过的字符串。

　　* 如：unicodeToUtf8("%u5927")= 大

　　* 2005-12-10

　　*

　　*/

　　function phpUnescape($escstr){

　　preg_match_all("/%u[0-9A-Za-z]{4}|%.{2}|[0-9a-zA-Z.+-_]+/",$escstr,$matches); //prt($matches);

　　$ar = &$matches[0];

　　$c = "";

　　foreach($ar as $val){

　　if (substr($val,0,1)!="%") { //如果是字母数字+-_.的ascii码

　　$c .=$val;

　　}

　　elseif (substr($val,1,1)!="u") { //如果是非字母数字+-_.的ascii码

　　$x = hexdec(substr($val,1,2));

　　$c .=chr($x);

　　}

　　else { //如果是大于0xFF的码

　　$val = intval(substr($val,2),16);

　　if($val %u".bin2hex( iconv( 'gbk' ,"UCS-2",$chars[$i].$chars[$i+1] ) );

　　$i++;

　　}

　　}//foreach

　　return $ar;

　　}

　　?>

　　c#实现代码

　　/**

　　* utf-8 转换成 unicode

　　* @author fanhui

　　* 2007-3-15

　　* @param inStr

　　* @return

　　*/

　　public static String utf8ToUnicode(String inStr) {

　　char[] myBuffer = inStr.toCharArray();

　　StringBuffer sb = new StringBuffer();

　　for (int i = 0; i < inStr.length(); i++) {

　　UnicodeBlock ub = UnicodeBlock.of(myBuffer[i]);

　　if(ub == UnicodeBlock.BASIC_LATIN){

　　//英文及数字等

　　sb.append(myBuffer[i]);

　　}else if(ub == UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS){

　　//全角半角字符

　　int j = (int) myBuffer[i] - 65248;

　　sb.append((char)j);

　　}else{

　　//汉字

　　short s = (short) myBuffer[i];

　　String hexS = Integer.toHexString(s);

　　String unicode = "\\u"+hexS;

　　sb.append(unicode.toLowerCase());

　　}

　　}

　　return sb.toString();

　　}

　　/**

　　* unicode 转换成 utf-8

　　* @author fanhui

　　* 2007-3-15

　　* @param theString

　　* @return

　　*/

　　public static String unicodeToUtf8(String theString) {

　　char aChar;

　　int len = theString.length();

　　StringBuffer outBuffer = new StringBuffer(len);

　　for (int x = 0; x < len;) {

　　aChar = theString.charAt(x++);

　　if (aChar == '\\') {

　　aChar = theString.charAt(x++);

　　if (aChar == 'u') {

　　// Read the xxxx

　　int value = 0;

　　for (int i = 0; i < 4; i++) {

　　aChar = theString.charAt(x++);

　　switch (aChar) {

　　case '0':

　　case '1':

　　case '2':

　　case '3':

　　case '4':

　　case '5':

　　case '6':

　　case '7':

　　case '8':

　　case '9':

　　value = (value << 4) + aChar - '0';

　　break;

　　case 'a':

　　case 'b':

　　case 'c':

　　case 'd':

　　case 'e':

　　case 'f':

　　value = (value << 4) + 10 + aChar - 'a';

　　break;

　　case 'A':

　　case 'B':

　　case 'C':

　　case 'D':

　　case 'E':

　　case 'F':

　　value = (value << 4) + 10 + aChar - 'A';

　　break;

　　default:

　　throw new IllegalArgumentException(

　　"Malformed \\uxxxx encoding.");

　　}

　　}

　　outBuffer.append((char) value);

　　} else {

　　if (aChar == 't')

　　aChar = '\t';

　　else if (aChar == 'r')

　　aChar = '\r';

　　else if (aChar == 'n')

　　aChar = '\n';

　　else if (aChar == 'f')

　　aChar = '\f';

　　outBuffer.append(aChar);

　　}

　　} else

　　outBuffer.append(aChar);

　　}

　　return outBuffer.toString();

　　}

教程首页更多教程