如何用Python爬取出HTML指定标签内的文本？

我想只要其中<tr>下<td>标签所包含的文本信息，或者有什么办法只留下页面显示的内容，把标签符号之类的去掉？最好能给出代码，谢谢啦！

推荐答案 2019-06-10

你好！

可以通过lxml来获取指定标签的内容。

#安装lxml
pip install lxml

import requests
from lxml import html

def getHTMLText(url):
    ....

etree = html.etree
root = etree.HTML(getHTMLText(url))
#这里得到一个表格内tr的集合
trArr  = root.xpath("//div[@class='news-text']/table/tbody/tr");

#循环显示tr里面的内容
for tr in trArr:
    rank = tr.xpath("./td[1]/text()")[0]
    name = tr.xpath("./td[2]/div/text()")[0]
    prov = tr.xpath("./td[3]/text()")[0]
    strLen = 22-len(name.encode('GBK'))+len(name)
    print('排名：{:<3},   学校名称：{:<{}}\t，   省份：{}'.format(rank,name,strLen,prov))

希望对你有帮助！

追问

这个可以用！谢谢啦！

温馨提示：答案为网友推荐，仅供参考

当前网址：https://verywind.cn/ee/jvj33vryyvxv7yf73y.html

其他回答

第1个回答 2019-06-10

这种情况用xpath啊，什么re和bs4都弱爆了。

import requests
from lxml import etree
def getHTMLtext(url):
    res=requests.get(url,timeout=30)
    # 处理中文编码问题
    res.encoding='gb2312'
    # 转化html
    html=etree.HTML(res.text)
    # xpath提取tr标签下td的内容
    HTMLtext=html.xpath("//tr/td/text()")
    return HTMLtext

追问

会乱码哦！

追答

这是中文编码问题，跟提取没有关系，通过res.apparent_encoding查看真实编码，然后把gb2312改成真实编码

第2个回答 2019-06-10

爬取这些主要看规则，如果就你刚才所说，可以用正则。可以试下一次正则是否能提取，如果不行的话，先取包含内容的部分，然后正则再区分。
当然还可以查下类似xml解析的方法将HTML转化为数组，然后取值

第3个回答 2019-06-09

如果只要tr td中的文本内容，建议还是用正则表达式来提取更为方便。追问

能给代码吗？我看到网上很多都说用正则表达式，但是那些代码复制来都报错。

本回答被网友采纳

第4个回答 2021-07-27

举个例子：
想要提取全部标签<h4></h4>内的文本，可使用如下Python代码：

import re
with open("html.html",'rU') as strf:
....str = strf.read()
res = r'(?<=<h4>).*?(?=</h4>)'
li = re.findall(res,str)
with open("new.txt","w") as wstr:
....for s in li:
........wstr.write(s)
........wstr.write(" ")
........print(s,' ')

正则表达式r'(?<=<h4>).*?(?=</h4>)中括号部分属于向后向前查找，相当于字符串作为边界进行查找。

运行后会将标签<h4></h4>内的文本提取到文件new.txt

1 2 下一页

你可能感兴趣的内容

大家正在搜

xpath的指定标签的前几个 js在指定标签后添加标签指定某标签的样式标签指定选择器一个标签可以指定多个属性标签指定选择器怎么写什么是标签指定样式选择符属性要在开始标签中指定指定链接地址标签

非常风气网www.verywind.cn

如何用Python爬取出HTML指定标签内的文本？

相关了解……

你可能感兴趣的内容