非常风气网www.verywind.cn

用Python 写爬虫时应该注意哪些坑

如题所述

推荐答案 2016-11-15

1. ç¬ä¸ªå«ç¹å®ç½ç«ï¼ä¸ä¸å®å¾ç¨pythonåç¬è«ï¼å¤æ°æåµwgetä¸æ¡å½ä»¤å¤æ°ç½ç«å°±è½ç¬çä¸éï¼ççç©å°èªå·±åç¬è«äºï¼æç»éå°çæ éæ¯å¦ä½åå¤§åå£®ï¼æä¹ååå¸å¼ç¬è«ãscrapyè¿ç§ä»·å¼æ¥è¿0ï¼å¼æ¥æèå¤çº¿ç¨ææåï¼éä¸ä¸ªæççåºäºç£ççéååºï¼kafkaä¹ç±»çï¼scrapyå¸®äºå¥ï¼
2. httpåºä¼å¤ï¼è¿ægeventåºmonkey patchä»¥åcoroutineçç©è¿ä¸éæ©ï¼è§æ¨¡åä¸çè¯urllib3å¾å¥½ã
3. å¯¹ä»ç½ç«çè¯¸å¦ç»å½ãajaxï¼è¿ç§ä¸è¿æ¯ä½åæ°å·¥æ´»ï¼ä¸å±å¼äºã
4. éåº¦å¾éè¦ï¼æ¾ec2æèå½åçäºä¸è·ï¼å¾éè¦çææ æ¯ä½ æ¯ä¸äº¿ç½é¡µç¬ä¸æ¥ææ¬å¤å°ï¼ç¬çæ¶åæ¯å¦4æ ¸ä¸ä¸ªèææºèç¹ï¼ä½ è½inboundè´·æ¬¾ç¨è¶³100mbpsåã
5. beautifulsoupå¤ªæ¢ï¼å¨ç½çç¬ï¼encodingçåæä¹è¦è¦å¿«ï¼cå®ç°çchardetè¿è¡

æå³é®çï¼æ°¸è¿æ¯ç¬ä¸æ¥ä»¥åçä¿¡æ¯çæåãåæãä½¿ç¨ï¼å°±æ¯å¦å¤ä¸ä¸ªè¯é¢äºã
1.å¦ä¼ä½¿ç¨chromeæµè§å¨æ¥çéä¿¡ä»¥åæ¥çåç´ æ ¼å¼
2.å¢å User-Agent, è¿æ¯æç®åçåç¬æªæ½äº
3.åç¬è«æå¥½ä½¿ç¨Ipythonï¼å¨äº¤äºå¼çç¯å¢ä¸ï¼å¯ä»¥æ¶å»äºè§£èªå·±é®é¢å·ä½åºå¨åªé
4.ä½¿ç¨requests
5.ç¨getæèpostä¸å¥½htmlä¹åï¼è¦ç¡®è®¤ä½ éè¦çä¸è¥¿htmléé¢æï¼èä¸æ¯ä¹åç¨ajaxæèjavascriptå è½½çã
6.è§£æçè¯ï¼BeautifulSoupä¸éãå¯¹äºå°æ°éå¸¸ç¹æ®çï¼å¯ä»¥èèç¨reã
7ï¼éè¦å¤§éééæ°æ®çè¯ï¼å¦ä¼ä½¿ç¨æ¡æ¶ï¼æ¯å¦scrapyã
è¿é¶ï¼
å å¥ç½ç«éè¦æ¨¡æç»éï¼éé¢ä½¿ç¨äºå¾å¤ajaxæèjavascriptï¼æèåç¬è«åå®³ï¼ç¨requestsçsessionï¼æ³¨æF12æ¥çå°åºåéäºä»ä¹æ°æ®ã
å®å¨ä¸ä¼ï¼å°±ä½¿ç¨æ¨¡ææµè§å¨å§ï¼æ¨èseleniumï¼è½ç¶éåº¦æ¢ç¹ï¼ååå¤ç¹ï¼ä½æ¯ççå¾çåï¼èä¸åºæ¬æ¥ä¸åºæ¥ã
æåï¼ç¬è«éåº¦ä¸è¦å¤ªå¿«ï¼å ä¸time.sleep(1),å°½éå°ç¨å¤çº¿ç¨ï¼å«äººå»ºç«ä¹ä¸å®¹æï¼ï¼å°¤å¶æ¯å°ç«ï¼ä½ ä¸ç»å«äººå¸¦æ¥å¾å¤§çéº»ç¦ï¼å«äººä¹å°±çä¸åªç¼éä¸åªç¼äºï¼å¦åå°IPä¸æ¯å¥½ç©çã

æäºé¡µé¢åæ¬¢ä½¿ç¨redirectï¼ç¶èrequestsçgetåpostæ¹æ³ä¸é»è®¤æ¯ç´æ¥è·³è½¬çï¼å¾å¯è½ä½ å°±å¸¦çéè¯¯çcookiesåheadersè·³è½¬äºï¼æä»¥å¡å¿å°allow_redirectsåæ°è®¾ä¸ºfalse

温馨提示：答案为网友推荐，仅供参考

当前网址：https://verywind.cn/ee/2vefyrxvyvvxvyefxe.html

相关了解……

你可能感兴趣的内容

大家正在搜

用Python 写爬虫时应该注意哪些坑

学习Python爬虫需要注意哪些问题

python编程遇到的几个坑

用Python来写爬虫遇到了一点小问题

基础的人，用python写爬虫前应要学会哪些知识

用Python 写爬虫时应该注意哪些坑

用Python 写爬虫时应该注意哪些坑

如果我用python爬虫爬本站内容，会遇到哪些问题

本站内容来自于网友发表，不代表本站立场，仅表示其个人看法，不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们 contact email
© 非常风气网