HTTP/2 与 WEB 性能优化(三)

图片 2

构建高性能WEB之HTTP首部优化

2015/10/03 · HTML5,
JavaScript ·
HTTP

本文作者: 伯乐在线 –
十三号线上的蝼蚁
。未经作者许可,禁止转载!
欢迎加入伯乐在线 专栏作者。

1.TCP/IP协议族

在连续写了两篇关于「HTTP/2 与 WEB
性能优化」的文章后,今天来写这个系列的最后一篇。在正式开始之前,我们先来简单回顾下之前两篇文章:

0×00 前言

在讨论浏览器优化之前,首先我们先分析下从客户端发起一个HTTP请求到用户接收到响应之间,都发生了什么?知己知彼,才能百战不殆。这也是作为一个WEB开发者,为什么一定要深入学习TCP/IP等网络知识

  分层:应用层HTTP/DNS/FTP。传输层TCP/UDP。网络层IP/ARP。数据链路层(处理连接网络的硬件部分)

「HTTP/2 与 WEB 性能优化(一)」的结论是:HTTP/2 的 Server Push
机制,可以让重要的 JS、CSS 等资源尽快加载,从而不再需要 HTTP/1
中「将重要资源内联在页面头部」的优化方案了。

0×01 到底发生什么了?

当用户发起一个HTTP请求时,首先客户端将与服务端之间建立TCP连接,成功建立连接后,服务端将对请求进行处理,并对客户端做出响应,响应内容一般包括响应主体。
(此处我们仅简单说明,但真实的一次请求其中发生的事情是相当复杂的,这里贴条连接,讲得比较详细)。
从输入 URL
到页面加载完成的过程中都发生了什么事情?

  TCP三次握手:发送端发送SYN,接收端发送SYN/ACK,发送端再发送ACK。

「HTTP/2 与 WEB 性能优化(二)」的结论是:HTTP/2 支持了多路复用,HTTP
连接变得十分廉价,之前为了节省连接数所采用的类似于「资源合并、资源内联」等优化手段不再需要了。多路复用可以在一个
TCP 连接上建立大量 HTTP 连接,也就不存在 HTTP 连接数限制了,HTTP/1
中常见的「静态域名」优化策略不但用不上了,还会带来负面影响,需要去掉。另外,HTTP/2
的头部压缩功能也能大幅减少 HTTP 协议头部带来的开销。

建立TCP连接

为了进行可靠的数据传输,TCP在进行发送数据之前,会进行TCP三次握手,以此确定接收方能够成功收取传输的数据,而建立连接的过程,必然是要耗费系统资源,以及时间资源的。

  HTTP通信过程:客户端输入域名,DNS通过域名查找IP地址。HTTP协议生成针对目标WEB服务器的HTTP请求报文。TCP协议将HTTP请求报文分割成报文段,分别添加标记序号和端口号,把每段报文可靠的(三次握手)传给对方。IP协议搜索对方的地址,增加作为通信目的地的MAC地址,一边中转一边传送。服务器端TCP协议将接收到的报文段按序重组成请求报文。HTTP协议对WEB服务器请求的内容进行处理。响应的内容也按相同方式传给客户端。

但 HTTP/2 并不是万能的,并不是说用了 HTTP/2
就不再需要性能优化了。我在本系统第二篇文章末尾写到:

服务端处理并响应

当服务端接收到客户端发送来的请求之后,如果请求内容是静态资源,服务端会从硬盘中取出静态资源,然后将静态资源放在响应主体中,发送给客户端。如果是动态资源,服务端首先取出资源,并通过业务逻辑操作,动态生成最终的响应主体,然后发送给客户端。

2.HTTP协议

据官方预测,HTTP/1 至少还需要 10 年才能彻底退出历史舞台,另外尽管 HTTP/2
协议允许脱离 TSL 部署,但 Chrome 和 Firefox 都表示不支持非 TLS 的
HTTP/2,之后很可能一个网站会同时提供 HTTP/1.1、HTTP/1.1 over TLS、HTTP/2
over TLS
三种服务。如何在每种情况下,都能给用户提供最好的体验,需要更加深入的优化研究和更加精细的优化策略。

客户端渲染

客户端接受到服务端传输过来的网络资源,然后进行渲染,绘制等,最终展示给用户。

  HTTP协议肯定是先从客户端开始建立通信。对于一条通信路线来说,服务器端和客户端的角色是固定的。

实际上,除了前两篇文章中提到的这些需要为 HTTP/2
做出调整的优化策略之外,其余大部分 HTTP/1 时期的优化策略依然有效。HTTP/1
的 WPO 并不是什么新鲜话题,大家早就熟门熟路了,本文只打算列举其中几个:

0×02 优化点在哪里?

通过简单的了解,我们了解到TCP建立连接是有资源消耗,时间消耗的,那么如果我们无需每次简历TCP连接,那是否可以提高网站的性能呢?答案是肯定的。

  • 优化点1:减少TCP连接

我们知道,在获取资源的时候,以获取速度从慢到快是:网络资源->本地硬盘资源->本地内存资源。而网络资源也分硬盘资源以及内存资源。并且网络资源的传输,也是有相当大的时延的。

  • 优化点2:对数据进行缓存
  • 优化点3:减少数据传输量

  HTTP是无状态协议。

启用压缩

0×03 如何进行优化?

本篇文章主要说的优化点是与HTTP首部有关的优化,或者说是与浏览器端有关的优化,其它优化这里暂不赘述。

  HTTP可以保持TCP连接状态,在建立一次TCP连接后可进行多次HTTP请求和响应。

压缩的目的是让传输的数据变得更小。我们的线上代码(JS、CSS 和
HTML)都会做压缩,图片也会做压缩(PNGOUT、Pngcrush、JpegOptim、Gifsicle
等)。对于文本文件,在服务端发送响应之前进行 GZip
压缩也很重要,通常压缩后的文本大小会减小到原来的 1/4 –
1/3。对代码进行内容压缩已经有成熟的工具和标准流程了,而服务端的 GZip
更是标配,所以「压缩」是一项收益投入比很高的优化手段。

持久连接:Keep-Alive

HTTP连接设计之初是请求-响应-关闭,也就是每建立一次HTTP连接,只能进行一次资源请求,当需要在同一目标服务器上获取多个资源的时候,就需要多次建立HTTP连接,而这个多次建立连接的过程,便降低了网站的性能。

于是,出现了Connection:Keep-Alive,人称持久连接。Keep-Alive避免了建立或者说重新建立连接的过程,减少了HTTP连接。

而与此配套的有Keep-Alive:timeout=120,max=5

其中,timeout=120 是指这个TCP通道保持120S,max=5 指这个TCP通道最多接收5个HTTP请求,之后便自动关闭该连接。

  HTTP管线化:下一次请求不需要等待上一次的响应完成就可以进行。

使用 HTTP 缓存

修改时间:Last-Modified 和 If-Modified-Since

Last-Modified首部是服务端对客户端的HTTP响应所加的一个与缓存有关的HTTP首部,该首部标记了所请求资源在服务端的最后修改时间。类似:

Last-Modified : Fri , 12 May 2015 13:10:33 GMT

当客户端发现HTTP响应头中有Last-Modified,会对资源进行缓存,在下次请求资源时,在HTTP请求头中添加If-Modified-Since首部,首部中将会添加上次成功请求资源时响应头部的Last-Modified属性值,即:

If-Modified-Since : Fri , 12 May 2015 13:10:33 GMT

当服务端接收到的HTTP请求中,发现有If-Modified-Since头部时,会将该属性值与请求资源的最后修改时间进行比对,如果最后修改时间与该属性值一致时,服务端会返回一个304 Not Modified响应,该响应中不包括响应实体。浏览器收到304的响应后,会进行重定向,获取本地缓存资源。如果最后修改时间与该属性值不一致,则会从服务端重新获取资源,做出200响应。

  Cookie进行状态管理:服务器端在响应报文里添加Set-Cookie首部字段,通知客户端保存Cookie,下次客户端往服务器发送请求时,客户端在请求报文添加Cookie首部字段,服务器发现请求报文的Cookie后,检查究竟是哪一个客户端发送来的连接请求,然后对比服务器的记录,最后得到之前的状态信息。

任何一个 WEB 项目,要提高性能,各个环节的缓存必不可少。利用好 HTTP
协议的缓存机制,可以大幅减少传输数据,减少请求,这又是一项收益投入比超高的优化手段。这里把之前我写的
HTTP/1.1 缓存机制介绍翻出来:

版本标记:ETag 和 If-None-Match

ETag其实与Last-Modified是差不多的方式,但是ETag并没有选择以时间作为标记,而是对所请求文件进行某些算法来生成一串唯一的字符串,作为对某一文件的标记。当收到客户端对某一资源的请求时,服务端在响应时,添加ETag首部,如下:

ETag:W/"a627ff1c9e65d2dede2efe0dd25efb8c"

当客户端发现ETag头部时,同样会对资源进行缓存,并在下次请求时,在请求头部添加If-None-Match,如:

If-None-Match:W/"a627ff1c9e65d2dede2efe0dd25efb8c"

当服务端收到请求中含有该头部时,会使用同样的ETag生成算法对文件ETag进行计算,并与If-None-Match属性值进行比对,如果一致,则返回一个304 Not Modified响应,基本与上一种方式是一致的。

3.HTTP报文

首先,服务端可以通过响应头里的 Last-Modified(最后修改时间) 或者
ETag(内容特征) 标记实体。浏览器会存下这些标记,并在下次请求时带上
If-Modified-Since: 上次 Last-Modified 的内容 或 If-None-Match: 上次 ETag
的内容,询问服务端资源是否过期。如果服务端发现并没有过期,直接返回一个状态码为
304、正文为空的响应,告知浏览器使用本地缓存;如果资源有更新,服务端返回状态码
200、新的 Last-Modified、Etag 和正文。这个过程被称之为 HTTP
的协商缓存,通常也叫做弱缓存。

缓存时间:Expires 和 Cache-Control

上述两种方式中,每次请求资源时,虽然在有缓存的情况下,选择缓存进行渲染绘制,但是在这之前还是发起了一次HTTP请求,虽然并没有真实的响应实体,但是依然会造成一些资源消耗。而Expires与上述两种方式使用了不同的思路。

当服务端希望客户端浏览器对某一资源进行缓存时,为了免去客户端每次都要询问自己:我上次的缓存现在还能用吗?所以,服务端选择了放权。只去告诉浏览器,我这次给你的资源你可以用多长时间,在这个时间段内,你可以一直使用它,无需每次咨询我。而服务端就是通过Expires属性来告诉客户端浏览器可以多长时间内不需要询问服务端。如下:
Expires:Thu, 19 Nov 2015 15:00:00 GMT

当客户端在响应首部中发现该属性值时,便会将该资源缓存起来,而缓存的过期时间即是Expires中的时间。在这个时间段内,浏览器完全自主。

但是,Expires有一个不足的地方是,如果服务端时间与客户端本地时间不统一时,可能服务端让客户端可以对该资源缓存一个小时,而客户端本地时间比服务端时间快了两个小时,那就意味着,所有缓存都将不会生效。

于是有了弥补该不足的一个属性,即:Cache-Control。如果服务端在响应首部添加该属性时,客户端将直接使用该属性值来生成本地时间的缓存过期时间,这样便解决了这个问题,如下:

Cache-Control:max-age=3600

如果客户端在2015年10月01日13时00分00秒收到该响应时,便会加上3600秒也就是2015年10月01日14时00分00秒作为缓存过期时间。如果响应头部既有ExpiresCache-Control,浏览器会首选Cache-Control

  报文分请求报文和响应报文。报文由报文首部+空行+报文主体构成。

可以看到协商缓存并不会节省连接数,但是在缓存生效时,会大幅减小传输内容(304
响应没有正文,一般只有几百字节)。另外为什么有两个响应头都可以用来实现协商缓存呢?这是因为一开始用的
Last-Modified 有两个问题:1)只能精确到秒,1
秒内的多次变化反映不出来;2)在轮询的负载均衡算法中,如果各机器读到的文件修改时间不一致,有缓存无故失效和缓存不更新的风险。HTTP/1.1
并没有规定 ETag
的生成规则,而一般实现者都是对资源内容做摘要,能解决前面两个问题。

0×04 结束

这里,基本上说的都是与HTTP首部有关的网站性能优化。本文主要是在对《构建高性能WEB站点.
郭欣著》中第六章浏览器缓存的学习总结笔记。这本书对于WEB站点的优化,从各个层面都做了很详尽的讲解,确实是一本很棒的书,也在这里感谢HQBOSS的推荐。

1 赞 1 收藏
评论

  请求报文首部:请求行,请求首部字段,通用首部字段,实体首部字段,其他

另外一种缓存机制是服务端通过响应头告诉浏览器,在什么时间之前(Expires)或在多长时间之内(Cache-Control:
Max-age=xxx),不要再请求服务器了。这个机制我们通常称之为 HTTP 的强缓存。

关于作者:十三号线上的蝼蚁

图片 1

哈哈哈
个人主页 ·
我的文章 ·
3 ·
 

图片 2

  响应报文首部:状态行,响应首部字段,通用首部字段,实体首部字段,其他

一旦资源命中强缓存规则后,再次访问完全没有 HTTP 请求(Chrome 开发者工具的
Network 面板依然会显示请求,但是会注明 from cache;Firefox 的 firebug
也类似,会注明 BFCache),这会大幅提升性能。所以我们一般会对
CSS、JS、图片等资源使用强缓存,而入口文件(HTML)一般使用协商缓存或不缓存,这样可以通过修改入口文件中对强缓存资源的引入
URL 来达到即时更新的目的。

  HTTP状态码:1XX信息性状态码,接受的请求正在处理。

这里也解释下为什么有了 Expire,还要有
Cache-Control。也有两个原因:1)Cache-Control
功能更强大,对缓存的控制能力更强;2)Cache-Control 采用的 max-age
是相对时间,不受服务端 / 客户端时间不对的影响。

                  
  2XX成功状态码,请求正常处理完毕。200,204(响应不返回资源)

另外关于浏览器的刷新(F5 / cmd + r)和强刷(Ctrl + F5 / shift + cmd
+r):普通刷新会使用协商缓存,忽略强缓存;强刷会忽略浏览器所有缓存(并且请求头会携带
Cache-Control:no-cache 和
Pragma:no-cache,用来通知所有中间节点忽略缓存)。只有从地址栏或收藏夹输入网址、点击链接等情况下,浏览器才会使用强缓存。

        
 3XX重定向状态码,需要进行附加操作完成请求。304(服务器资源未改变,可直接使用客户端未过期的缓存)

减少 DNS 查询

        
 4XX客户端错误状态码,服务器无法处理请求。403(不允许访问该资源)404(服务器找不到请求资源)

我们知道,建立 TCP 连接需要知道目标
IP,而绝大部分时候给浏览器的是域名。浏览器需要先将域名解析为
IP,这个过程就是 DNS
查询,一般需要几毫秒到几百毫秒,移动环境下会更慢。DNS
解析完成之前,请求会被 Block。浏览器一般都会缓存 DNS
查询结果,页面使用的域名(包括子域名)越少,花费在 DNS
查询上的开销就越小。另外,合理使用浏览器的 DNS Prefetching
技术,也是很好的做法。

        
 5XX服务器错误状态码,服务器处理出错。500(服务器内部出错)503(服务器处于超负荷或者停机维护)

减少重定向

4.WEB服务器

无论是通过服务端响应头产生的重定向,还是通过 或者 JS
产生的重定向,都可能引入新的 DNS 查询、新的 TCP 连接以及新的 HTTP
请求,所以减少重定向也很重要。浏览器基本都会缓存通过 301 Moved
Permanently
指定的跳转,所以对于永久性跳转,可以考虑使用状态码301。对于启用了 HTTPS
的网站,配置 HSTS 策略,也可以减少从 HTTP 到 HTTPS 的重定向。

  代理:位于客户端和服务器之间,进行转发。作用:缓存,访问控制,获取访问日志。

WEB
性能优化是一个系统工程,不可能在这一篇文章里写完,我决定先就写到这儿。最后,推荐一个
Chrome 扩展:HTTP/2 and SPDY
indicator,它可以在地址栏显示当前网站是否启用了 SPDY 或者
HTTP/2,点击图标可以直接打开 Chrome 的 HTTP/2 的调试界面,十分方便。

You can leave a response, or trackback from your own site.

Leave a Reply

网站地图xml地图