百度图片都是从哪抓取的呢?
如题 都是从哪抓取的?
确实来自百度网内和网外,最大的抓取量是百度空间,因为他们有自己的图片审核,比较放心自己的,所以你如果想让抓取到就去百度空间上传就行了
答:Ruby代码 require 'rubygems' require 'hpricot' require 'open-uri' require 'net/http' class BaiduPicture def initialize(url,size) @urls = [] @size = size @urls e p "exception in get_picture_elements" p e [] end end # 获取图片 def get_picture(url) get_picture_elements(url)。
each do |link| begin href = t_attribute("href") if /^u。*/ =~ href。
split("&")[1] pic_addr = href。split("&")[1]。split("=")[1] p pic_addr str = Net:: t( rse(URI。
encode(pic_addr))) file = w(pic_addr。split("/")。last,"wb") file。write(str) ose else hole_link = " " + href p hole_link tmp = open(hole_link) tmp_doc = Hpricot(tmp) pic_tag = tmp_ t_element_by_id("main_pic")。
get_elements_by_tag_name("img")。first pic_addr = pic_ t_attribute("src") str = Net:: t( rse(URI。
encode(pic_addr))) file = w(pic_addr。split("/")。last,"wb") file。write str ose end rescue Exception => e p "exception in get_picture" next end end end # 轮询页面 def loop_pages @urls。
each do |url| get_picture(url) sleep(10) end p "pictures over" end end require 'rubygems' require 'hpricot' require 'open-uri' require 'net/http' class BaiduPicture def initialize(url,size) @urls = [] @size = size @urls e p "exception in get_picture_elements" p e [] end end # 获取图片 def get_picture(url) get_picture_elements(url)。
each do |link| begin href = t_attribute("href") if /^u。*/ =~ href。split("&")[1] pic_addr = href。
split("&")[1]。split("=")[1] p pic_addr str = Net:: t( rse(URI。encode(pic_addr))) file = w(pic_addr。
split("/")。last,"wb") file。write(str) ose else hole_link = " " + href p hole_link tmp = open(hole_link) tmp_doc = Hpricot(tmp) pic_tag = tmp_ t_element_by_id("main_pic")。
get_elements_by_tag_name("img")。first pic_addr = pic_ t_attribute("src") str = Net:: t( rse(URI。
encode(pic_addr))) file = w(pic_addr。split("/")。last,"wb") file。write str ose end rescue Exception => e p "exception in get_picture" next end end end # 轮询页面 def loop_pages @urls。
each do |url| get_picture(url) sleep(10) end p "pictures over" end end Ruby代码 w(" ",10)。loop_pages w(" ",10)。
loop_pages抓取10页 这个url使用需要 这样的格式,点击搜索结果的第二页连接能够得到这个连接 。
来自百度网内和网外。网内是各个空间相册里的图片,网外是互联网上。百度只是将缩略图及其链接收录在检索数据库里,这个数据库并不存储图片,用户搜索图片时,系统根据用户提供的信息,在数据库里搜索出相应的图片,我们搜索图片时,先看到的是缩略图,点击后才是原图。
百度的图片都是爬虫从各个网站抓取来的,打开比喻,山有一伙强盗,他们会从各个地方打家劫舍,就就是他们的财产来源。百度的图片就是这样来的。爬虫去搜索所有的.jpg、.bmp等图片文件,判断文件名,然后添加进自己的数据库。
不得而知,俺也很关心介果。。。
是不是想知道要怎样才能保存百度图片在自己电脑里,可以在图片上右击,选择[另存为],然后选择存放地点即可。
答:ab=|a||b|cos45°=3 则向量a+λb与λa+b的夹角是锐角时有: (a+λb)(λa+b)>0 则 λa²+(1+λ²)ab+...详情>>
答:这个有很多详情>>
答:高手 很难的问题详情>>