网页需要登录,怎样抓取其内容

如题

网站登录/认证有多种方式,要抽取/提取需要登录的网页内容,需要实现有针对性的网页抓取软件模块:
1,HTTPS
2,HTTP Digest
3,HTTP Basic
4,使用网页Form
其中,前三种是通信协议层面的,如果使用PHP,Python,Javascript, Java等语言编程,一般需要控制HTTP通信做相应的动作;而第四种是应用层面的,只需要模拟用户填写Form然后提交即可,相对容易一些。另外,还要考虑服务器是否推送cookie以及会话控制等等,所以,要自己编程把所有的都实现了是一个很大的挑战,但是,如果利用浏览器平台能力,这个就好解决了,例如,利用Firefox的安全管理器,网站认证都委托给Firefox,只需要编写应用逻辑代码即可。网页抓取/数据抽取/信息提取软件工具包MetaSeeker就是采用了这种方案,用统一的方法实现所有方式的认证,一种最简单的操作方法:先访问一次目标页面,认证通过后安全信息都记录在安全服务器上,后续的抓取工作就像针对不需要认证的页面一样,当然,这个第一次认证操作可以用程序自动完成。

MetaSeeker工具包是免费使用的,下载地址: http://www.gooseeker.com
温馨提示:答案为网友推荐,仅供参考
第1个回答  2015-12-31
用火车浏览器就可以了 不需要写代码 功能都模块化
第2个回答  2013-03-27
写个登陆,否则没办法。
试试Python的scrapy

如果有验证码,就要搞个图形分析算法。总之比较麻烦。

相关了解……

你可能感兴趣的内容

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 非常风气网