2009年7月13日
asp+XMLHTTP组件做采集常用函数:
http://blog.csdn.net/zc2087/archive/2009/03/05/3959351.aspxhttp://www.cnblogs.com/winner/archive/2006/12/13/590820.html摘来几个不常见的:
[CODE_LITE]'==================================================
'函数名:PostHttpPage
'作 用:登录
'==================================================
...
Tags:
2009年7月13日
MSXML. xmlhttp 的应用参考:http://hi.baidu.com/etangren/blog/item/267f9e165515a951f2de3230.html
申请最高版本的XMLHTTP对象,程序代码:http://hi.baidu.com/hy_zone/blog/item/2ebdc6fd4eeda046d7887d01.html
[CODE_LITE]Dim ArrProgId,Prog,Flag,XmlHttpCom
ArrProgId = array("MSXML2.ServerXMLHTTP.4.0", "MSXML2.ServerXMLHTTP.3.0", "MSXML2.ServerXMLHTTP", "MSXML2.XMLHTTP.5.0", "MSXML2.XMLHTTP.4.0", "MSXML2.XMLHTTP.3.0", "MSXML2.XMLHTTP","Microsoft.XMLHTTP")
...
Tags:
2009年7月13日
MSXML2.XMLHTTP 和 MSXML2.ServerXMLHTTP 有什么区别?奇怪的是,有时用MSXML2.XMLHTTP正常,有时采集出错,再用MSXML2.ServerXMLHTTP就没问题了。搜索一番,有点结果:
ServerXMLHTTP可以自定义超时,XMLHTTP是默认超时,而且ServerXMLHTTP可以跨域访问,访问的地址如果跳到另外的域名去了,它也可以继续请求页面,正常获取多次重定向后的页面内容,而XMLHTTP会抛出异常:禁止访问
'设置Msxml2.XMLHTTP的超时时间是没用的
...
Tags:
2009年7月12日
MSXML的GUID和ProgID信息
msxml 4.0在安装时不会覆盖以前老版本的msxml.所以各个版本的msxml可以共存。目前IE缺省的XML解析器是msxml 2.0或者msxml 3.0,即使安装了msxml 4.0也是这样。如果想使用最新安装的msxml 4.0,就必须使用脚本,利用版本相关的ProgID来创建对象
下面列出一些常用的ProgID与对应的对象:
Object Name ProgID
DOMDocument(msxml 3.0) MSXML2.DOMDocument
...
Tags:
2009年7月7日
做GGAd从07年1月至今,算算也有两三个年头了,一直规规矩矩顺顺当当,没想到月初收到政策通知,换一个帐号它应该好好的,错就错在太出头了,冤啊。损失不小,暂时转向某盟,写点文字纪念一下
2009年7月7日
robots.txt 文件相信大部分网站很少会用到,除非是对某些搜索引擎深恶性痛绝(如:来访过频对服务器带来压力、部分页面不希望被抓取,等)。最近某人也是因为某些原因对某些搜索引擎的spider作了部分限制。
在站点根目录下放置robots.txt是一件很慎重的事,搞不好就把自己给Kill了,呵呵,小心为妙。
robots.txt语法:
最简单的 robots.txt 文件使用两条规则:
User-agent:应用以下规则的漫游器
Disallow:要拦截的网址
这两行会视为文件中的一个条目。可根据需要加入任意多个条目。您可在一个条目中加入多个 Disallow 行和多个 User-agent。
...
2009年7月7日
各类网络搜索引擎spider蜘蛛User-Agent标志
baidu: "Baiduspider+(+http://www.baidu.com/search/spider.htm)
baidu代码: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322, Baidu-Transcoder/1.0.6.0, gate.baidu.com)
Goolgle : Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
...