Python如何爬取网页文本内容?
我想爬取网页的内容然而,这样只能获取到源代码。
可以安装BeautifulSoup,然后查找DOM找到你要的文本标签例如是<div id="content"><p>文本内容</p></div>使用get_text()我用的python3from bs4 import BeautifulSoupfrom request。
urllib import urlopenhtml = urlopen("网址")bsObj =BeautifulSoup(html,"html。parser")getP = bsObj。find("div",{"id":"content"})。
find("p")contentText = getP。get_text()#contentText就是你要的文本内容print(ccontentText)可能会有错误,大概就是这么个意思可能你用别的库,或者python2会有点区别你还不会抓取文本内容,应该刚学,建议你先把基础内容学好,看书《python网络数据采集》,看教程"崔庆才的个人网站"这些东西网上很好查的,多查,查不到了再问。
后面难的东西还很多,要想自学就要多自己动手祝你学有所成。
问:获取远程网页的源代码 winform windows程序
答:可以通过流的方式来获取数据 net名称空间详情>>
答:详情>>