爱问知识人 爱问教育 医院库

Python如何爬取网页文本内容?

首页

Python如何爬取网页文本内容?

我想爬取网页的内容然而,这样只能获取到源代码。

提交回答

全部答案

    2019-06-20 12:00:26
  •   可以安装BeautifulSoup,然后查找DOM找到你要的文本标签例如是<div id="content"><p>文本内容</p></div>使用get_text()我用的python3from bs4 import BeautifulSoupfrom request。
      urllib import urlopenhtml = urlopen("网址")bsObj =BeautifulSoup(html,"html。parser")getP = bsObj。find("div",{"id":"content"})。
      find("p")contentText = getP。get_text()#contentText就是你要的文本内容print(ccontentText)可能会有错误,大概就是这么个意思可能你用别的库,或者python2会有点区别你还不会抓取文本内容,应该刚学,建议你先把基础内容学好,看书《python网络数据采集》,看教程"崔庆才的个人网站"这些东西网上很好查的,多查,查不到了再问。
      后面难的东西还很多,要想自学就要多自己动手祝你学有所成。

    仰***

    2019-06-20 12:00:26

类似问题

换一换

相关推荐

正在加载...
最新问答 推荐信息 热门专题 热点推荐
  • 1-20
  • 21-40
  • 41-60
  • 61-80
  • 81-100
  • 101-120
  • 121-140
  • 141-160
  • 161-180
  • 181-200
  • 1-20
  • 21-40
  • 41-60
  • 61-80
  • 81-100
  • 101-120
  • 121-140
  • 141-160
  • 161-180
  • 181-200
  • 1-20
  • 21-40
  • 41-60
  • 61-80
  • 81-100
  • 101-120
  • 121-140
  • 141-160
  • 161-180
  • 181-200
  • 1-20
  • 21-40
  • 41-60
  • 61-80
  • 81-100
  • 101-120
  • 121-140
  • 141-160
  • 161-180
  • 181-200

热点检索

  • 1-20
  • 21-40
  • 41-60
  • 61-80
  • 81-100
  • 101-120
  • 121-140
  • 141-160
  • 161-180
  • 181-200
返回
顶部
帮助 意见
反馈

确定举报此问题

举报原因(必选):