爱问知识人 爱问教育 医院库

百度图片都是从哪抓取的呢?

首页

百度图片都是从哪抓取的呢?

如题 都是从哪抓取的?

提交回答
好评回答
  • 2012-03-20 01:38:31
    确实来自百度网内和网外,最大的抓取量是百度空间,因为他们有自己的图片审核,比较放心自己的,所以你如果想让抓取到就去百度空间上传就行了

    从***

    2012-03-20 01:38:31

其他答案

    2012-03-19 23:49:57
  •   答:Ruby代码 
    require 'rubygems' 
    require 'hpricot' 
    require 'open-uri' 
    require 'net/http' 
           
    class BaiduPicture   
        def initialize(url,size)   
            @urls = []   
            @size = size   
            @urls  e   
              p "exception in get_picture_elements" 
              p e   
                []   
            end 
        end 
    # 获取图片   
        def get_picture(url)   
            get_picture_elements(url)。
      each do |link| begin href = t_attribute("href") if /^u。*/ =~ href。
      split("&")[1] pic_addr = href。split("&")[1]。split("=")[1] p pic_addr str = Net:: t( rse(URI。
      encode(pic_addr))) file = w(pic_addr。split("/")。last,"wb") file。write(str) ose else hole_link = " " + href p hole_link tmp = open(hole_link) tmp_doc = Hpricot(tmp) pic_tag = tmp_ t_element_by_id("main_pic")。
      get_elements_by_tag_name("img")。first pic_addr = pic_ t_attribute("src") str = Net:: t( rse(URI。
      encode(pic_addr))) file = w(pic_addr。split("/")。last,"wb") file。write str ose end rescue Exception => e p "exception in get_picture" next end end end # 轮询页面 def loop_pages @urls。
      each do |url| get_picture(url) sleep(10) end p "pictures over" end end require 'rubygems' require 'hpricot' require 'open-uri' require 'net/http' class BaiduPicture def initialize(url,size) @urls = [] @size = size @urls e p "exception in get_picture_elements" p e [] end end # 获取图片 def get_picture(url) get_picture_elements(url)。
      each do |link| begin href = t_attribute("href") if /^u。*/ =~ href。split("&")[1] pic_addr = href。
      split("&")[1]。split("=")[1] p pic_addr str = Net:: t( rse(URI。encode(pic_addr))) file = w(pic_addr。
      split("/")。last,"wb") file。write(str) ose else hole_link = " " + href p hole_link tmp = open(hole_link) tmp_doc = Hpricot(tmp) pic_tag = tmp_ t_element_by_id("main_pic")。
      get_elements_by_tag_name("img")。first pic_addr = pic_ t_attribute("src") str = Net:: t( rse(URI。
      encode(pic_addr))) file = w(pic_addr。split("/")。last,"wb") file。write str ose end rescue Exception => e p "exception in get_picture" next end end end # 轮询页面 def loop_pages @urls。
      each do |url| get_picture(url) sleep(10) end p "pictures over" end end Ruby代码 w(" ",10)。loop_pages w(" ",10)。
      loop_pages抓取10页 这个url使用需要 这样的格式,点击搜索结果的第二页连接能够得到这个连接 。

    篾***

    2012-03-19 23:49:57

  • 2012-03-19 22:12:00
  • 来自百度网内和网外。网内是各个空间相册里的图片,网外是互联网上。百度只是将缩略图及其链接收录在检索数据库里,这个数据库并不存储图片,用户搜索图片时,系统根据用户提供的信息,在数据库里搜索出相应的图片,我们搜索图片时,先看到的是缩略图,点击后才是原图。

    残***

    2012-03-19 22:12:00

  • 2012-03-19 21:28:52
  • 百度的图片都是爬虫从各个网站抓取来的,打开比喻,山有一伙强盗,他们会从各个地方打家劫舍,就就是他们的财产来源。百度的图片就是这样来的。爬虫去搜索所有的.jpg、.bmp等图片文件,判断文件名,然后添加进自己的数据库。

    l***

    2012-03-19 21:28:52

  • 2012-03-19 21:21:34
  • 不得而知,俺也很关心介果。。。

    ****

    2012-03-19 21:21:34

  • 2012-03-19 21:18:40
  • 是不是想知道要怎样才能保存百度图片在自己电脑里,可以在图片上右击,选择[另存为],然后选择存放地点即可。

    松***

    2012-03-19 21:18:40

类似问题

换一换

相关推荐

正在加载...
最新资料 推荐信息 热门专题 热点推荐
  • 1-20
  • 21-40
  • 41-60
  • 61-80
  • 81-100
  • 101-120
  • 121-140
  • 141-160
  • 161-180
  • 181-200
  • 1-20
  • 21-40
  • 41-60
  • 61-80
  • 81-100
  • 101-120
  • 121-140
  • 141-160
  • 161-180
  • 181-200
  • 1-20
  • 21-40
  • 41-60
  • 61-80
  • 81-100
  • 101-120
  • 121-140
  • 141-160
  • 161-180
  • 181-200
  • 1-20
  • 21-40
  • 41-60
  • 61-80
  • 81-100
  • 101-120
  • 121-140
  • 141-160
  • 161-180
  • 181-200

热点检索

  • 1-20
  • 21-40
  • 41-60
  • 61-80
  • 81-100
  • 101-120
  • 121-140
  • 141-160
  • 161-180
  • 181-200
返回
顶部
帮助 意见
反馈

确定举报此问题

举报原因(必选):