使用python抓取百度搜索结果时不成功，怎么回事？如何用Python爬取搜索引擎的结果

作者&投稿：终纪（若有异议请与网页底部的电邮联系）

百度搜索有专门的接口，使用相应的API接口调用吧。你这直接调用它的主页，需要解决很多问题的。

这段代码访问的是百度主页,这里头不仅仅只是表面上的这些参数在起作用，还有cookie,session等在起作用，百度会通过这些信息对搜索信息进行整理，用于生成大数据集（比如哪个区域的人偏爱查询哪些词之类的），你的机子没有这些信息，调用百度主页进行搜索就会有问题。

请参照以下代码

起调百度地图API

异步加载(Ajax)动态渲染的网页，可能还要调用js函数去解密返回结果。如果用模拟浏览器(selemium库)获取渲染后的网页源码，难度会低很多。

网络不给力是安全验证了，我也在学，不过问题我已经解决，你要根据你正常浏览器里的 header 添加，如果实在不会，那就把出现的所有 header 内容加进去，下面是我测试写的代码，我这边是可以采集的，50多页完全没问题，不会出现网络不给力，自己参考下
import urllib.request
import re

keywords = 'python爬虫'
keywords = urllib.request.quote(keywords)

pages = 0 #页码数
pat_res = [] #定义集合，接收采集标题
fh = open('spider\\title.txt','a') #打开文件，以追加方式
for i,j in enumerate(range(0,50)):
url = 'https://www.baidu.com/s?wd=' + keywords + '&pn='+str(pages)+'&oq=' + keywords + '&ie=utf-8&usm=2&rsv_idx=1&rsv_pq=e4f7528300143ded&rsv_t=f9e5fE0a3Gy7yaLQX6JFJhnR6I1jYnAfL2t5SCcGSoJSAr3LogHutYZxP%2FY'
opener = urllib.request.build_opener()
Bdpagetype = ('Bdpagetype', '2')
Bdqid = ('Bdqid', '0xe4fd4d4f003005ff')
Cache_Control = ('Cache-Control', 'private')
Ckpacknum = ('Ckpacknum', '2')
Ckrndstr = ('Ckrndstr', 'f003005ff')
Connection = ('Connection', 'Keep-Alive')
Content_Encoding = ('Content-Encoding', 'gzip')
Content_Type = ('Content-Type', 'text/html;charset=utf-8')
Strict_Transport_Security = ('Strict-Transport-Security', 'max-age=172800')
Traceid = ('Traceid', '1576546102028799668216500429611456267775')
Transfer_Encoding = ('Transfer-Encoding', 'chunked')
Vary = ('Vary', 'Accept-Encoding')
X_Ua_Compatible = ('X-Ua-Compatible', 'IE=Edge,chrome=1')
Accept = ('Accept',
'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9')
Referer = ('Referer', 'https://www.baidu.com')
Sec_Fetch_Mode = ('Sec-Fetch-Mode', 'navigate')
Sec_Fetch_Site = ('Sec-Fetch-Site', 'same-origin')
Sec_Fetch_User = ('Sec-Fetch-User', '?1')
Upgrade_Insecure_Requests = ('Upgrade-Insecure-Requests', '1')
User_Agent = ('User-Agent',
'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.79 Safari/537.36 Edg/79.0.309.51')
opener.addheaders = [Bdpagetype]
opener.addheaders = [Bdqid]
opener.addheaders = [Cache_Control]
opener.addheaders = [Ckpacknum]
opener.addheaders = [Ckrndstr]
opener.addheaders = [Connection]
opener.addheaders = [Content_Encoding]
opener.addheaders = [Content_Type]
opener.addheaders = [Strict_Transport_Security]
opener.addheaders = [Traceid]
opener.addheaders = [Transfer_Encoding]
opener.addheaders = [Vary]
opener.addheaders = [X_Ua_Compatible]
opener.addheaders = [Accept]
opener.addheaders = [Referer]
opener.addheaders = [Sec_Fetch_Mode]
opener.addheaders = [Sec_Fetch_Site]
opener.addheaders = [Sec_Fetch_User]
opener.addheaders = [Upgrade_Insecure_Requests]
opener.addheaders = [User_Agent]

print('正在爬第：'+str(i)+'页')
data = opener.open(url)
print('当前地址：'+str(data.geturl()))
code = data.read().decode('utf-8')
pat = 'data-tools=\'{"title":"(.*?)"' #提取标题正则
print('成功获取数据，等待入库')
res_temp = re.compile(pat).findall(code)
pat_res += res_temp
print('添加入库成功')
pages = pages+10
print('采集完毕，等待写出文件...')
for w,j in enumerate(pat_res):
fh.write(str(pat_res[w])+'\n')
print('写入文件完毕！')
fh.close()

重搜索一下，提取下验证码试一下

把https改成http试试

根据关键词在百度搜索，python获取的结果不全~

百度的搜索结果第一个展示，和下面的9个结果不同，html源码结构不同，
另外百度自身产品的html结构也有所不同，除非你的正则能完整匹配。

我选取的是爬取百度知道的html 作为我的搜索源数据，目前先打算做网页标题的搜索，选用了 Python 的 scrapy 库来对网页进行爬取，爬取网页的标题，url，以及html，用sqlist3来对爬取的数据源进行管理。
爬取的过程是一个深度优先的过程，设定四个起始 url ，然后维护一个数据库，数据库中有两个表，一个 infoLib，其中存储了爬取的主要信息：标题，url ，html；另一个表为urlLib，存储已经爬取的url，是一个辅助表，在我们爬取每个网页前，需要先判断该网页是否已爬过（是否存在urlLib中）。在数据存储的过程中，使用了SQL的少量语法，由于我之前学过 MySQL ，这块处理起来比较驾轻就熟。
深度优先的网页爬取方案是：给定初始 url，爬取这个网页中所有 url，继续对网页中的 url 递归爬取。代码逐段解析在下面，方便自己以后回顾。
1.建一个 scrapy 工程：
关于建工程，可以参看这个scrapy入门教程，通过运行:

[python] view plain copy
scrapy startproject ***

在当前目录下建一个scrapy 的项目，然后在 spiders 的子目录下建立一个 .py文件，该文件即是爬虫的主要文件，注意：其中该文件的名字不能与该工程的名字相同，否则，之后调用跑这个爬虫的时候将会出现错误，见ImportError。
2.具体写.py文件：

[python] view plain copy
import scrapy
from scrapy import Request
import sqlite3

class rsSpider(scrapy.spiders.Spider): #该类继承自 scrapy 中的 spider
name = "zhidao" #将该爬虫命名为 “知道”，在执行爬虫时对应指令将为： scrapy crawl zhidao
#download_delay = 1 #只是用于控制爬虫速度的，1s/次，可以用来对付反爬虫
allowed_domains = ["zhidao.baidu.com"] #允许爬取的作用域
url_first = 'http://zhidao.baidu.com/question/' #用于之后解析域名用的短字符串
start_urls = ["http://zhidao.baidu.com/question/647795152324593805.html", #python
"http://zhidao.baidu.com/question/23976256.html", #database
"http://zhidao.baidu.com/question/336615223.html", #C++
"http://zhidao.baidu.com/question/251232779.html", #operator system
"http://zhidao.baidu.com/question/137965104.html" #Unix programing
] #定义初始的 url ，有五类知道起始网页

#add database
connDataBase = sqlite3.connect("zhidao.db") #连接到数据库“zhidao.db”
cDataBase = connDataBase.cursor() #设置定位指针
cDataBase.execute('''''CREATE TABLE IF NOT EXISTS infoLib
(id INTEGER PRIMARY KEY AUTOINCREMENT,name text,url text,html text)''')
#通过定位指针操作数据库，若zhidao.db中 infoLib表不存在，则建立该表，其中主键是自增的 id（用于引擎的docId）,下一列是文章的标题，然后是url，最后是html

#url dataBase
cDataBase.execute('''''CREATE TABLE IF NOT EXISTS urlLib
(url text PRIMARY KEY)''')
#通过定位指针操作数据库，若zhidao.db中urlLib表不存在，则建立该表，其中只存了 url，保存已经爬过的url，之所以再建一个表，是猜测表的主键应该使用哈希表存储的，查询速度较快，此处其实也可以用一个外键将两个表关联起来

2. .py文件中的parse函数：

.py文件中的parse函数将具体处理url返回的 response，进行解析，具体代码中说明：

[python] view plain copy
def parse(self,response):
pageName = response.xpath('//title/text()').extract()[0] #解析爬取网页中的名称
pageUrl = response.xpath("//head/link").re('href="(.*?)"')[0] #解析爬取网页的 url，并不是直接使用函数获取，那样会夹杂乱码
pageHtml = response.xpath("//html").extract()[0] #获取网页html

# judge whether pageUrl in cUrl
if pageUrl in self.start_urls:
#若当前url 是 start_url 中以一员。进行该判断的原因是，我们对重复的 start_url 中的网址将仍然进行爬取，而对非 start_url 中的曾经爬过的网页将不再爬取
self.cDataBase.execute('SELECT * FROM urlLib WHERE url = (?)',(pageUrl,))
lines = self.cDataBase.fetchall()
if len(lines): #若当前Url已经爬过
pass #则不再在数据库中添加信息，只是由其为跟继续往下爬
else: #否则，将信息爬入数据库
self.cDataBase.execute('INSERT INTO urlLib (url) VALUES (?)',(pageUrl,))
self.cDataBase.execute("INSERT INTO infoLib (name,url,html) VALUES (?,?,?)",(pageName,pageUrl,pageHtml))
else: #此时进入的非 url 网页一定是没有爬取过的（因为深入start_url之后的网页都会先进行判断，在爬取，在下面的for循环中判断）
self.cDataBase.execute('INSERT INTO urlLib (url) VALUES (?)',(pageUrl,))
self.cDataBase.execute("INSERT INTO infoLib (name,url,html) VALUES (?,?,?)",(pageName,pageUrl,pageHtml))

self.connDataBase.commit() #保存数据库的更新

print "-----------------------------------------------" #输出提示信息，没啥用

for sel in response.xpath('//ul/li/a').re('href="(/question/.*?.html)'): #抓出所有该网页的延伸网页，进行判断并对未爬过的网页进行爬取
sel = "http://zhidao.baidu.com" + sel #解析出延伸网页的url
self.cDataBase.execute('SELECT * FROM urlLib WHERE url = (?)',(sel,)) #判断该网页是否已在数据库中
lines = self.cDataBase.fetchall()
if len(lines) == 0: #若不在，则对其继续进行爬取
yield Request(url = sel, callback=self.parse)

什么是python爬虫
答：什么是python爬虫？让我们一起了解一下吧！Python爬虫就是使用 Python 程序开发的网络爬虫，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。主要用于搜索引擎，它将一个网站的所有内容与链接进行阅读，并建立相关的全文索引到数据库中，然后跳到另一个网站。拓展：python是什么 Python是一种跨...

python 爬虫,怎么获得输入验证码之后的搜索结果
答：首先，题主在程序中输入验证码，主要是想尽量模仿真人的搜索，结果发现所有cookie是一样的，无需做这一步验证码的输入，如果是这样的话，无需验证码。另外，按题主的代码来看，题主只要比较一下输入验证码之前和之后的cookie，如果没有差别，就去掉验证码处理。如果有差别，说明在验证码的处理中还是做...

python爬虫能做什么
答：除了刷流量外，还可以参与各种秒杀活动，包括但不限于在各种电商网站上抢商品，优惠券，抢机票和火车票。拓展：Python爬虫是什么 Python爬虫就是使用 Python 程序开发的网络爬虫，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。主要用于搜索引擎，它将一个网站的所有内容与链接进行阅读，并建立...

python爬虫是什么
答：Python爬虫是指在某种原因进行互联网请求获取信息

Python是什么?它有何用途?
答：爬虫是搜索引擎的第一步也是最容易的一步。用什么语言写爬虫？C，C++。高效率，快速，适合通用搜索引擎做全网爬取。缺点，开发慢，写起来又臭又长，例如：天网搜索源代码。脚本语言：Perl, Python, Java, Ruby。简单，易学，良好的文本处理能方便网页内容的细致提取，但效率往往不高，适合对少量网站的...

Python爬虫是什么?
答：网络爬虫为一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。将根据一定的搜索策略从队列中选择下一步要抓取的网页URL...

python 能获取网页的网络请求吗
答：本篇文章主要记录我学习GET和POST请求方式的过程首先，如何区分GET 和POST请求？我们可以简单地通过浏览器地址栏是否改变来加以区分。举例说明，在百度上搜索CSDN时，页面会跳转到搜索结果页，同时浏览器上方的URL也会发生改变。如上图所示，变化就在于，在最初的url后面会附加相关的字段，以？分割url和...

如何用Python做爬虫
答：3）集群化抓取爬取豆瓣的时候，我总共用了100多台机器昼夜不停地运行了一个月。想象如果只用一台机子你就得运行100个月了...那么，假设你现在有100台机器可以用，怎么用python实现一个分布式的爬取算法呢？我们把这100台中的99台运算能力较小的机器叫作slave，另外一台较大的机器叫作master，那么...

python怎么抓取网页中DIV的文字
答：在Network中可以看到很多信息，我们在页面上看到的文字信息都保存在一个html文件中。点击文件后可以看到response，文字信息都包含在response中。对于需要输入的信息，可以使用ctrl+f，进行搜索。查看信息前后包含哪些特定字段。对于超链接的提取，可以使用最左边的箭头点击超链接，这时Elements会打开有该条超链接...

基于Python的网络爬虫系统的设计与实现
答：网络爬虫可以快速抓取互联网各类信息，本文以抓取二手房信息为例，实现基于Python的网络爬虫信息系统，完成了目标数据的高效获取。实验结果表明：本程序提供了一种快速获取网页数据的方法，为后续的数据挖掘研究提供支持。关键词:搜索引擎;Python;网络爬虫中图分类号:TP393文献标识码:A文章编号：1673-1131(2017...

星空网络

使用python抓取百度搜索结果时不成功，怎么回事？如何用Python爬取搜索引擎的结果

相关热门

星空网络

使用python抓取百度搜索结果时不成功，怎么回事？ 如何用Python爬取搜索引擎的结果

相关热门

使用python抓取百度搜索结果时不成功，怎么回事？如何用Python爬取搜索引擎的结果