博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python3中request模块访问网页以及客户端伪装
阅读量:6846 次
发布时间:2019-06-26

本文共 2568 字,大约阅读时间需要 8 分钟。

在python3中我们使用request模块访问一个网页,可以选择对文件的读写或者urllib.request.urlretrieve()方法将我们浏览的页面保存到本地。

方法1:
url_list=[""]
for urlinfo in url_list:
file=urllib.request.urlopen(urlinfo)
data=file.read()
with open(str(urlinfo).split(".")[1]+".html","wb") as fileinfo:
fileinfo.write(data)

方法2:

filename=urllib.request.urlretrieve(")
检查Web服务器Nginx的访问日志:
IP地址 时间 访问方法 访问协议 访问状态等
180.156.222.228 - - [26/Nov/2017:20:02:02 +0800] "GET / HTTP/1.1" 200 4462 "-" "Python-urllib/3.5" "-"
180.156.222.228 - - [26/Nov/2017:20:02:03 +0800] "GET / HTTP/1.1" 200 4462 "-" "Python-urllib/3.5" "-"
180.156.222.228 - - [26/Nov/2017:20:02:03 +0800] "GET / HTTP/1.1" 200 4462 "-" "Python-urllib/3.5" "-"
180.156.222.228 - - [26/Nov/2017:20:02:03 +0800] "GET / HTTP/1.1" 200 4462 "-" "Python-urllib/3.5" "-"
180.156.222.228 - - [26/Nov/2017:20:02:03 +0800] "GET / HTTP/1.1" 200 4462 "-" "Python-urllib/3.5" "-"
180.156.222.228 - - [26/Nov/2017:20:02:03 +0800] "GET / HTTP/1.1" 200 4462 "-" "Python-urllib/3.5" "-"
180.156.222.228 - - [26/Nov/2017:20:02:03 +0800] "GET / HTTP/1.1" 200 4462 "-" "Python-urllib/3.5" "-"
180.156.222.228 - - [26/Nov/2017:20:02:03 +0800] "GET / HTTP/1.1" 200 4462 "-" "Python-urllib/3.5" "-"
180.156.222.228 - - [26/Nov/2017:20:02:03 +0800] "GET / HTTP/1.1" 200 4462 "-" "Python-urllib/3.5" "-"
模拟浏览器-Headers属性1:
import urllib.request
import re
url=""
headers = ("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:57.0) Gecko/20100101 Firefox/57.0")
opener = urllib.request.build_opener()
opener.addheaders=[headers]
data=opener.open(url).read()
with open( "1.html", "wb") as fileinfo:
fileinfo.write(data)

伪装后的请求:

180.156.222.228 - - [26/Nov/2017:20:57:22 +0800] "GET / HTTP/1.1" 200 4462 "-" "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:57.0) Gecko/20100101 Firefox/57.0" "-"
180.156.222.228 - - [26/Nov/2017:20:57:22 +0800] "GET / HTTP/1.1" 200 4462 "-" "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:57.0) Gecko/20100101 Firefox/57.0" "-"
180.156.222.228 - - [26/Nov/2017:20:57:22 +0800] "GET / HTTP/1.1" 200 4462 "-" "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:57.0) Gecko/20100101 Firefox/57.0" "-"
180.156.222.228 - - [26/Nov/2017:20:57:22 +0800] "GET / HTTP/1.1" 200 4462 "-" "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:57.0) Gecko/20100101 Firefox/57.0" "-"

模拟浏览器—Headers属性2

url=""
req=urllib.request.Request(url)
req.add_header("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:57.0) Gecko/20100101 Firefox/57.0")
data=urllib.request.urlopen(req).read()
print(data)

本文转自 tianya1993 51CTO博客,原文链接:http://blog.51cto.com/dreamlinux/2044474,如需转载请自行联系原作者

你可能感兴趣的文章
重磅!Java 性能监控调试工具 JMC 宣布开源
查看>>
翻译 Meteor React 制作 Todos - 01 - 创建应用
查看>>
[python作业AI毕业设计博客]英文原版新书下载:Impractical Python Projects - 2019.Pdf ...
查看>>
短视频APP源码直播APP源码什么样的好
查看>>
能一眼看懂这些C语言函数,你就是天生的程序员! ...
查看>>
Vue 组件实例属性的使用
查看>>
AI自学时代:Python、JavaScript、Swift 、Java如何选? ...
查看>>
SEO技巧:新网站关键词优化怎么优化到百度首页【思维篇】 ...
查看>>
第二十章:异步和文件I/O.(二十一)
查看>>
低成本学习IT技术
查看>>
用 Go 搭建 Kubernetes Operators
查看>>
kubernetes 服务发现和负载均衡
查看>>
腾讯系互联网券商富途证券将赴美IPO,最高融资3亿美元
查看>>
shell输入内容时不显示内容
查看>>
杭州国芯科技完成1.5亿元B轮融资,专注物联网人工智能芯片
查看>>
Python零基础学习笔记(七)—— Number数字类型及其转换
查看>>
浅析ServiceMesh & Istio
查看>>
python设计模式(十三):解释器模式
查看>>
列式存储系列(一)C-Store
查看>>
MINIEYE周翔:6年后更加清晰自己的定位是什么
查看>>