目录
一、什么是HTTP
二、抓包工具
三、请求的首行 URL
四、URL的各部分详细介绍
文章来源地址https://uudwc.com/A/y548m
一、什么是HTTP
现在网页上,我们常见的是https,但是在二十年前是以http为主,这个协议也叫超文本传输协议,文本->字符串,“超文本”->图片/视频
HTTP响应:比如搜狗版的HTML,这个响应的内容,往往是一个html内容
一个网站分为前端+后端(太多了,说不过来)
前端:html(描述网页的结构),css(描述网页的样式),js(网页的行为,与用户的交互)vue esc就不说了
网页上HTML,css,js都是在浏览器执行的,都是访问服务器的时候,从服务器下载到浏览器上,然后才能显示运行。其他的程序都是要先安装,才能够使用,网页是随时用随时下载。网页优势:服务器随时更新,用户就可以用上新版本
劣势:性能比较有限,很难去有一些复杂操作。
二、抓包工具
抓包工具是一种代理:但是代理不仅仅是抓包工具,还有很多体现形式。
代理客户端的叫正向代理
代理服务器的叫反向代理
抓包的工具有很多:wireshark(功能很丰富,但是却很复杂)
fiddler抓包工具(足以应对大部分场景,而且简单方便,但是功能比上面少点,但是够用)
1.直接搜索后安装
有验证码,为啥有复杂的验证码,互联网上80%带宽是被爬虫消耗的。
2.使用
左侧,当前机器上有哪些http数据报交互(不仅能抓浏览器,而且能抓到所有程序)
电脑程序在后台和服务器悄悄的交互(有的为了实现某种功能,有的偷拿你隐私)
右上角是请求的详情
右下角是响应的内容
刚好装完fidder之后,默认只能抓到http的数据,抓到了https,抓不到https(网络上httsp是主流)所以需要稍微设置一下,让fiddler可以抓到https。
1.点击tools->options->https勾上提示框(意思勾选有风险,一路yes)https是加密的,要显示,先解密,要信任保证书。
文章来源:https://uudwc.com/A/y548m
开了fidder,客户端服务器http,https的请求和响应都会在fidder过一遍(但有一些东西会影响fidder正确运行)
1.https要勾选正确
2.有的代理程序可能和fiddler冲突,确保使用fiddler的时候关闭其他代理。
3.有的浏览器插件,也可能和fiddler冲突
这个是抓去搜狗主页交互过程,上面这些标签页,站在不同视角来解析请求和响应,HTTP是文本协议,IP,TCP ,UDP二进制协议
HTTP加密后是二进制,但是我们勾选完毕就恢复成文本了。在这里我们点击row打开响应,当前http响应,经常会进行压缩(节省带宽)
http响应的内容通常是HTML,CSS,JS
这么看不太直观,干脆这么看
GET http://www.sougou.com/HTTP 11.1. //1.首行 ······ Accept:text/html,application/xhtml //2.请求头 //3.空行 body //4.正文
响应报文
HTTP/1.1 200 ok. //1.首行 Connection //2.响应头 //3.空行 body //4正文
三、请求的首行 URL
GET https://www.sogou.com/HTTP/1.1
GET:方法
https://www.sogou.com:URL(请求,就是客户端给服务器发起的一个数据,这里要明确指出要访问的服务器是啥,要访问的服务器资源是什么,我们在JDBC中讲过:URL是唯一资源定位符,用来描述网络上的资源的)
HTTP/1.1 :版本号
RFC标准文档,TCP,UDP,IP,HTTP等网络协议,RFC标准文档有更精准的细节内容
http://user:pass@www.example.jp:80/dir/index.html?uid=1#ch1 (URL的完整细节)
简单来说 协议名://IP地址:端口号/路径?querystring ->(querystring是键值对的数据,k=uid这个东西,value则是uid等于的那个东西
http:协议名字(协议方案名)
user:pass@ :大部分现在这个地方是不用的,所以也不用多介绍
www.example.jp:可以是IP地址,也可以是域名,也可是外网IP(本身唯一),也可以是内网(访问局域网中的设备)还可以是环回IP(访问自己)
80:服务器端口号
dir/index.html?:访问服务器上哪个资源
uid=1:查询字符串(访问资源,带上啥样的参数)
ch1:片段标识符 (不常见,主要文档类文件)
这个东西就如同卖烤冷面
http://bhu:18/烤冷面?葱花=正常&香菜=苦苦放&醋=必须多放
->针对访问资源进行的补充说明,查询字符串,是键值对的格式,键值对之间用&分隔,键和值之间,用&分隔,键与值之间,使用=分隔,查询字符串以?开始。
实践上,URL来说,上述的几个部分,都是可以省略的~不是说哪个部分必须得保存,IP地址/域省略,此时相当于是访问当前服务器的地址。
访问B站主页,必须带有bilibili主页的html这个html又回触发一些其他的http请求,这些后续触发的http请求,就可以省略ip,省略IP就相当于用bilibili一样的IP。
四、URL的各部分详细介绍
端口号其实也可以省略(常见),省略时,浏览器会自动加上端口(这个端口号表示的是访问目标服务器的是哪个端口)
http:端口号80
https:端口号443
知名端口号:1-1024,都被一些常用的服务器(知名的老东西服务器瓜分了),因此一个网页部署于服务器的时候,往往遵守上述规则,把http绑定到8080,https绑定到443,浏览器访问你的服务器,就不必去多余指定窗口。
其实带层次的路径也能够省略
https://sogou.com/
如果省略相当于访问的是/
/称为根目录(目录是一个树形结构,根目录,就相当于树根一样,服务器提供的资源,也是类似于目录结构一样的,树形结构来组织的,有树,那么就会有树根,/就是树根->通常根节点就会对立服务器的对应主页(约定的规则)
查询字符串也可以没有(有和没有是看我们后端程序员们决定的)
query string中带有一些特殊符号,这些特殊符号,可能在url本身就有一定含义,就导致浏览器/服务器解析失败!(在c++中+就属于特殊符号,+是%2B,假如加号不去切换,就可能导致浏览器/服务器解析失败
/,?,&,=,#同理,都要转换,url的encode的本质转义字符(和我们的/n还不一样这种有自己的规则)
如:c++你好
把转换的内容的二进制的每字节,都用十六进制表示出来,然后每字节前面加一个%
你:十六进制是:E4BDA0
好:十六进制是:E5A5BD
最后会C%2B%2B%E4%BD%A0%E5%A5%BD
经过URL的encode之后,此时querystring就不会出现特殊含义的符号,浏览器和服务器才可以正常识别~