[转载]C#采集代理服务器ip并设置IE代理--HtmlAgilityPack实战代码 - 凤凰涅磐360yi - 博客园

[转载]C#采集代理服务器ip并设置IE代理–HtmlAgilityPack实战代码 – 凤凰涅磐360yi – 博客园.

今天在博客园看到一篇文章,说是C#采集某某的数据,其实做采集小软件很久了,

用的最好的还是HtmlAgilityPack,真的没话说,非常方便快捷。

这里有详细介绍[.Net解析html文档类库HtmlAgilityPack完整使用说明–采集软件开发尤其好用].

本文不做详细说明了。主要还是上代码啊。毕竟业务应用才是我们开发人员努力编码的最终目的,

谁也不会为了单纯写点代码就自我满足了,满足业务需求才是主要的。

最近朋友叫我帮忙写一个小程序,获取某个网站的代理。也不怕大家知道了,就是这个网站

http://www.youdaili.cn/   牛逼吧??好像你要批量的代理ip还得花钱买的。

但是现在我就告诉你不用花钱的方法,就是自己去复制,哈哈,开玩笑。

程序员都是懒人,谁会去复制,还是交给程序自动实现吧–那就是采集程序。

言归正传,今天就是主要介绍使用C#组件HtmlAgilityPack进行获取代理服务器ip和端口,

并手动设置到IE中的一个小程序。当然咯,开源哦。

代码萌点这里。百度网盘 http://pan.baidu.com/share/link?shareid=2118473016&uk=1765114824

流程很简单:打开主页,获取今天最新的代理网站地址,打开该链接,再去获取代理ip即可。

道理很简单,实现也很简单。

用程序打开网站主页http://www.youdaili.cn/  ,里面会有一个new的标示,但是我们不用这个标示,

我们用日期!这个最准确的。

C#采集代理

我们可以看到08-19的最新代理就在那里。但是怎么让程序得到那?

首先我们可以用chrome的代码工具查看源代码,

chrome代理查看工具

我们想要得到的链接是在ul的li下面。

所有我们可以得到这样的正则表达式Xpath://ul/li/a

对应程序代码就是:

    iplist = new List<Model.IpModel>();//我的实体

            HtmlAgilityPack.HtmlWeb hw = new HtmlAgilityPack.HtmlWeb();//用的HtmlAgilityPack

            hw.AutoDetectEncoding = false;

             //现在下面的代码很重要。

            HttpWebRequest req;

            req = WebRequest.Create(new Uri(@”http://www.youdaili.cn/”)) as HttpWebRequest;

            req.Method = “GET”;

          HttpWebResponse rs = (HttpWebResponse)req.GetResponse();

            System.IO.StreamReader sr = new StreamReader(rs.GetResponseStream(), System.Text.Encoding.GetEncoding(“utf-8”));

            try

            {

                HtmlAgilityPack.HtmlDocument doc = new HtmlAgilityPack.HtmlDocument();

                doc.Load(sr);

                GetHrefs(doc); //然后就是上面所说的用的正则表达式了。

            }

            catch (Exception e)

            {

                Console.WriteLine(e.Message.ToString());

                Console.WriteLine(e.StackTrace);

            }

大家可能注意到上面标红的地方说明很重要。主要是youdaili.cn的网站编码有点问题。只有这样才能得出gb2312的网页源代码。

然后就是上面所说的用的正则表达式了。

 private void GetHrefs(HtmlAgilityPack.HtmlDocument _doc)

        {

            string todaydaili = DateTime.Now.ToString(“MM-dd”);

            HtmlNodeCollection hrefs = _doc.DocumentNode.SelectNodes(“//ul/li/a”);

            if (hrefs == null)

                return;

            foreach (HtmlNode href in hrefs)

            {

                if (href.Attributes[“title”] != null && href.Attributes[“href”] != null)

                {

                    string tilte = href.Attributes[“title”].Value;

                    string urll = href.Attributes[“href”].Value;

                    if (tilte.IndexOf(todaydaili) >= 0 && urll.Length > 0)

                    {

                        IpUrl model = new IpUrl();

                        if (urll.IndexOf(“guonei”) > 0)

                        {

                            model.DaiLi = 0;

                            model.Url = urll;

                            IpUrlList.Add(model);

                        }

                        if (urll.IndexOf(“guowai”) > 0)

                        {

                            model.DaiLi = 1;

                            model.Url = urll;

                            IpUrlList.Add(model);

                        }

                    }

                }

            }

            string url = “”;

            int tmppage = 1;

            foreach(IpUrl urla in IpUrlList)

            {

                for (int startpage = 1; startpage <= 10; startpage++)

                {

                    this.lb_result.Text = “正在采集第” + tmppage.ToString() + “页IP列表请稍后………”;

                    url = urla.Url.Replace(“.html”,””);

                    if (tmppage != 1)

                    {

                        url = url + “_” + startpage.ToString() + “.html”;

                    }

                    else

                    {

                        url = url + “.html”;

                    }

                    CaiJiIp(url, tmppage, urla.DaiLi);

                    tmppage++;

                }

            }

            this.lb_result.Text = “本次采集采集完毕!”;

            this.btn_caiji.Enabled = true;

            this.timer1.Stop();

        }

采集之后,我现在是保存到内存,还没有实际保存数据,各位自行解决数据保存问题吧。

采集之后的代理数据,怎么使用概不负责。haha。

转发注明来源哦:IT分享 http://suchso.com

赞(0) 打赏
分享到: 更多 (0)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏