传参乱码解决方案,判断传参编码类型并转码

  • 内容
  • 相关

第一种(误差较大)


    当在php中使用mb_detect_encoding函数进行编码识别时,很多人都碰到过识别编码有误的问题,例如对与GB2312和UTF- 8,或者UTF-8和GBK(这里主要是对于cp936的判断),网上说是由于字符短时mb_detect_encoding会出现误判。


三个参数分别是:被检测的输入变量、编码方式的检测顺序(一旦为真,后面自动忽略)、strict模式

对编码检测的顺序进行调整,将最大可能性放在前面,这样减少被错误转换的机会。

一般要先排gb2312,当有GBK和UTF-8时,需要将常用的排列到前面。


$encode = mb_detect_encoding($wd,array("UTF-8","GBK","GB2312","BIG5")); if ($encode == "CP936"){ $wd=iconv("gbk//TRANSLIT","UTF-8",$wd); }


第二种


原理很简单,因为gb2312/gbk是中文两字节,这两个字节是有取值范围的,而utf-8中汉字是三字节,同样每个字节也有取值范围。而英文不 管在何种编码情况下,都是小于128,只占用一个字节(全角除外)。

如果是文件形式的编码检查,还可以直接check utf-8的BOM信息。话不多说,直接上函数,这个函数是用来对字符串进行检查和转码的。

function outcode($string,$outEncoding ='UTF-8'){
	$encoding = "UTF-8";    
	for($i=0;$i<strlen($string);$i++)    
	{    
		if(ord($string{$i})<128)    
      		continue;    
        
		if((ord($string{$i})&224)==224)    
		{    
  			//第一个字节判断通过    
     		$char = $string{++$i};    
  			if((ord($char)&128)==128)    
     		{    
           		//第二个字节判断通过    
         		$char = $string{++$i};    
            	if((ord($char)&128)==128)    
         		{    
              		$encoding = "UTF-8";    
              		break;    
         		}    
       		}    
 		}    
	
		if((ord($string{$i})&192)==192)    
      	{    
          	//第一个字节判断通过    
         	$char = $string{++$i};    
        	if((ord($char)&128)==128)    
          	{    
          		// 第二个字节判断通过    
               	$encoding = "GB2312";    
				break;    
			}    
     	}    
	}    
             
	if(strtoupper($encoding) == strtoupper($outEncoding))    
		return $string;    
	else   
       	return iconv($encoding,$outEncoding,$string);    
}

本文标签:

版权声明:若无特殊注明,本文皆为《鬼少》原创,转载请保留文章出处。

本文链接:传参乱码解决方案,判断传参编码类型并转码 - http://tv1314.com/post-113.html

发表评论

电子邮件地址不会被公开。 必填项已用*标注

00:00 / 00:00
顺序播放