[C#]URL中的中文编码-Mikel

问题来源：
正在研究一个程序，输入一个关键字，能够把这个关键字发送到Google，yahoo等搜索引擎，进行搜索，然后打开结果网页。原理很简单。比如在 Google搜索China，搜索结果页面的URL就是“http://www.google.com/search?hl=zh-CN&q=China&lr=”。只要替换红颜色的内容，就可以按照不同的关键字搜索。
但是如果关键字是中文，就会出现问题。比如在google搜索“中国”，Url是“http://www.google.com/search?hl=zh-CN&newwindow=1&q=%E4%B8%AD%E5%9B%BD&lr=”。汉字“中国”被按照UTF-8的格式进行编码。
不仅汉字进行编码，一些特殊字符也会进行编码。比如搜索“C#”，URL是“http://www.google.com/search?hl=zh-CN&newwindow=1&q=C%23&lr=”。
一般来说，国外的网站都是按照UTF-8编码，而“百度”是按照“GB2312”进行编码的。比如搜索“中国”，URL是“http://www.baidu.com/s?wd=%D6%D0%B9%FA&cl=3”
我们对比一下：C#中国的编码

编码	结果	网站
UTF-8	C%23%E4%B8%AD%E5%9B%BD	Google
GB2312	C%23%D6%D0%B9%FA	BaiDu

总结：
UTF-8中，一个汉字对应三个字节，GB2312中一个汉字占用两个字节。
不论何种编码，字母数字都不编码，特殊符号编码后占用一个字节。
开始编程：

public static string UrlEncode(string str, string encode)

{

int factor;

if (encode == "UTF-8")

factor = 3;

if (encode == "GB2312")

factor = 2;

//不需要编码的字符

string okChar = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789.-*@";

System.Text.Encoder encoder = System.Text.Encoding.GetEncoding(encode).GetEncoder();

char[] c1 = str.ToCharArray();

System.Text.StringBuilder sb = new System.Text.StringBuilder();

//一个字符一个字符的编码

for (int i = 0; i < c1.Length; i++)

{

//不需要编码

if (okChar.IndexOf(c1[i]) > –1)

sb.Append(c1[i]);

else

{

byte[] c2 = new byte[factor];

int charUsed, byteUsed; bool completed;

encoder.Convert(c1, i, 1, c2, 0, factor, true, out charUsed, out byteUsed, out completed);

foreach (byte b in c2)

{

if (b != 0)

sb.AppendFormat("%{0:X}", b);

}

return sb.ToString().Trim();

}

后来发现更简单的方法。

//按照UTF-8进行编码

string tempSearchString1 = System.Web.HttpUtility.UrlEncode("C#中国");

//按照GB2312进行编码

string tempSearchString2 = System.Web.HttpUtility.UrlEncode("C#中国",System.Text.Encoding.GetEncoding("GB2312"));

大家直接用第二种方法就行了。

[C#]URL中的中文编码

相关推荐

热门标签

分类

链接表

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏