图解HTTP 读书笔记

第一章了解Web及网络基础¶

不同硬件、操作系统之间的通信，所有这一切都需要一种规则，这种规则叫做协议

HTTP 协议是 TCP/IP 协议族中的一个协议

TCP/IP 分为四层：应用层、传输层、网络层和数据链路层

分层的好处是：每个层内部可以自由改动，不会影响其它层；每一层的设计也相对简单，不用考虑其它层。

【应用层】：应用层决定了向用户提供应用服务时通信的活动，有一些常见的应用层协议：HTTP、FTP、DNS

【传输层】：传输层提供网络上两台计算机之间的数据传输。有两个性质不同的协议：TCP（传输控制协议）和 UDP（用户数据报协议）

【网络层】：网络层（IP协议）用来处理网络上流动的数据包，数据包是网络传输的最小数据传输单位，该层规定了通过怎样的路径把数据包传送给对方

【数据链路层】：链路层用来处理网络的硬件部分，包括控制操作系统、硬件设备的驱动、网卡、光纤等硬件

IP 协议¶

IP协议（Internet Protocol）的作用就是把各种数据包传送给对方，而要保证实时传送到，需要两个重要条件：IP地址和MAC地址。IP间的通信依赖MAC地址，使用ARP协议才可以凭借MAC地址进行通信，使用ARP协议可以根据通信方的IP地址查出对应的MAC地址。

确保可靠性的TCP协议¶

TCP协议提供可靠的字节流服务，字节流服务是指将大块数据分割成以报文段为单位的数据包进行管理，TCP能确认数据是否传达到对方，使用三次握手策略准确无误地将数据送达目标处，三次握手的工作流程如下：

Text Only
1 2 3	`--SYN--> 客户端 <--SYN/ACK-- 服务器 --ACK-->`

在握手过程中如果有某个阶段莫名中断，TCP协议会再次以相同的顺序重发相同的数据包

DNS服务是应用层的服务，它提供域名到IP地址之间的解析服务

URL是URI的子集

第二章简单的HTTP协议¶

使用HTTP协议时，必定一端是客户端，另一端是服务器端

请求必定由客户端发出，服务器端回复相应

HTTP是不保存状态的协议（无状态协议），这是为了可以更快地处理大量事务。使用Cookie技术再用HTTP通信就可以管理状态了。

告知服务器意图的HTTP方法：

GET：获取资源
POST：传输实体主题
PUT：传输文件
HEAD：获得报文首部
DELETE：删除文件
OPTIONS：询问支持的方法
TRACE：追踪路径
CONNECT：要求用隧道协议连接代理

除了支持RESTful的API可使用PUT和DELETE，一般使用GET和POST方法

HTTP协议初始版本不支持持久连接，就是说每进行一次HTTP通信就要断开一次TCP连接（断开TCP连接需要四次挥手）

Text Only
1 2 3 4 5 6 7 8 9 10 11	`---SYN--> <--SYN/ACK--- ---ACK--> 【客户端】 --- HTTP Request --> 【服务器】 <-- HTTP Response -- <--FIN--- ---ACK--> ---FIN--> <--ACK--`

HTTP/1.1和一部分HTTP/1.0支持了持久连接，使用管线化可以并发请求

由于HTTP是无状态协议，节约了服务器的消耗。Cookie技术通过在请求和响应报文中写入Cookie信息来控制客户端的状态

第三章 HTTP报文中的HTTP信息¶

请求端（Client）的报文称为请求报文，响应端（Server）的报文称为响应报文，HTTP报文是由多行（使用CR+LF换行）字符串文本

HTTP报文的结构：报文首部+空行（CR+LF）+报文主体

可以使用Fiddler查看原始报文内容

Fiddler

报文主体和实体主体的差异： 1. 报文是HTTP通信的基本单位，通过HTTP通信传输 2. 实体作为请求或响应的有效载荷数据被传输，器内容由实体首部和实体主体组成

压缩传输的内容编码

通过服务器压缩后发送，客户端接收并解码

gizp

常用的内容编码方式：gzip（GNU）、compress（UNIX）、deflate（zlib）、identity（不进行编码）

可以通过分割发送的分块传输编码，让浏览器逐步显示页面；而不是全部传输完成，解码之后再显示页面。

通过MIME和Multipart方式，发送多种数据的多部分对象集合

范围请求：Range，请求一部分的文件内容

内容协商返回最适合的内容，通过请求报文某些首部字段，服务器自动返回最适合的内容（例如语言）

第四章返回结果的HTTP状态码¶

状态码告知从服务器端返回的请求结果

状态码由3位数字和原因短语组成，如：200 OK。第一位指定了响应类别，后两位无分类

Text Only

分类  分类描述
1** 信息，服务器收到请求，需要请求者继续执行操作
2** 成功，操作被成功接收并处理
3** 重定向，需要进一步的操作以完成请求
4** 客户端错误，请求包含语法错误或无法完成请求
5** 服务器错误，服务器在处理请求的过程中发生了错误

HTTP状态码

第五章与HTTP协作的Web服务器¶

使用单台虚拟主机（Virtual Host）实现多个域名，域名通过DNS服务映射到IP地址，由于虚拟主机可以寄存多个不同主机名和域名的网站，因此在发送HTTP请求时，必须在Host首部指定主机名或域名的URI

通信数据转发程序：代理、网关、隧道¶

代理可以做到对指定URI的访问控制；**缓存代理**通过将资源缓存到代理服务器加快客户端访问速度；**透明代理**不会对报文进行任何加工处理

网关的工作机制与代理十分相似，网关能使通信线路上的服务器提供非HTTP协议的服务，使用网关能提高通信的安全性

隧道可按要求建立起一条与其他服务器的通信线路，使用SSL等加密进行通信，保证客户端与服务端的安全通信

第六章 HTTP首部¶

请求报文和响应报文的首部

请求报文由方法、URI、HTTP版本、HTTP首部字段构成

响应报文由HTTP版本、状态码（数字和原因短语）、HTTP首部字段构成

HTTP首部字段传递许多重要信息，首部字段由字段名和字段值构成，中间用冒号分隔

Content-Type: text/html

首部字段可以有多个值：

Keep-Alive: timeout=5, max=100

4种首部字段类型¶

响应报文和请求报文首部

通用首部字段：请求报文和响应报文都会使用的首部

请求首部字段：客户端向服务端发送请求报文时使用的首部

响应首部字段：从服务端向客户端返回响应报文时使用的首部

实体首部字段：补充了资源内容更新时间等与实体有关的信息

Cookie、Set-Cookie等首部字段属于非HTTP/1.1正式的首部字段，使用频率很高

通过Cache-Control首部字段控制缓存

权重值

上图中，Accept首部字段告知服务器客户端能处理的媒体类型，以及优先级，其中q=代表权重，权重的范围在0~1之间（可精确到小数点后3位），默认权重是1，用分号;隔开

使用Host首部字段可以区分虚拟主机中指定的主机

User-Agent首部字段用于传达浏览器的种类

目前使用的Cookie标准是网景公司制定的标准的扩展，是一种事实上的标准

Set-Cookie：响应首部字段，开始状态管理所使用的Cookie信息 Cookie：请求首部字段，服务器接收到的Cookie信息

通过在Set-Cookie中设置HttpOnly属性可以让JS不能访问cookie，从而阻止XSS（跨站脚本攻击）

第七章确保Web安全的HTTPS¶

HTTP的缺点： 1. 通信使用明文（不加密），内容可能会被窃听（TCP/IP是可能被窃听的网络） 2. 不验证对方身份，有可能遭遇伪装 3. 无法证明报文的完整性（指的是准确度），可能被篡改

通信的加密：使用SSL（安全套接层）或TLS（安全层传输协议）的组合使用，加密HTTP的通信内容

用SSL简历安全通信之后，进行的HTTP通信，称为HTTPS（超文本安全传输协议HTTP Secure，或 HTTP over SSL）

可以对报文主体进行加密，但客户端和服务端必需支持相同的加密解密机制

SSL不仅提供加密处理，而且还使用了一种被称为**证书**的手段，可用于确定方

证书由值得信任的第三方机构颁发，用以证明服务器和客户端是实际存在的，伪造证书是异常困难的事

请求或响应在传输过程中，遭攻击者拦截并篡改内容的攻击称为中间人攻击

HTTP+加密+认证（证书）+完整性保护 = HTTPS¶

HTTPS是身披SSL协议的HTTP，运行在应用层的SMTP和TELNET协议均可配合SSL使用，SSL是当今世界上应用最广的网络安全技术

HTTPS采用对称秘钥（共享秘钥）加密和非对称秘钥（公开秘钥）加密混合的加密机制，在秘钥交换环节使用公开秘钥加密方式，之后建立的通信交换报文阶段使用共享秘钥加密方式

使用数字证书认证机构（CA）证明公钥的正确性

第八章确认访问用户身份的认证¶

确认登录者本人的方式：密码、动态令牌、数字证书、生物认证、IC卡

HTTP使用的认证方式：BASIC认证（基本认证）、DIGEST认证（摘要认证）、SSL客户端认证、FormBase认证（基于表单认证）

BASIC认证（HTTP/1.0起），是服务器与客户端之间的认证方式，BASIC认证在使用上不够便捷灵活（浏览器无法实现认证注销），达不到多数网站期望的安全等级（账号密码明文传输），因此并不常用

BASIC认证

DIGEST认证（HTTP/1.1起），提供了高于BASIC认证的安全等级，提供密码防窃听，但不存在防止用户伪装的保护机制，使用范围也有限

DIGEST认证

SSL客户端认证¶

使用ID和密码进行的认证，如果ID和密码被盗，就有可能被第三者冒充，利用SSL客户端认证可以避免该情况发生。

为了达到SSL客户端认证的目的，需要事先将客户端证书分发给客户端，并且客户端必须安装此证书

SSL客户端认证步骤： 1. 服务端发送Certificate Request报文，要求客户端提供证书 2. 客户端把证书信息以Client Certificate报文方式发给服务器 3. 服务端验证客户端证书通过后，领取客户端证书中的公钥，然后开始HTTPS加密通信

通常SSL客户端认证不仅依靠证书，还会和基于表单认证组合形成一种双因素认证。使用证书确认客户端身份，用表单来确认是用户本人行为

SSL客户端认证需要用到客户端证书，需要支付费用

基于表单认证¶

基于表单的认证并不是HTTP协议中定义的，客户端会向服务器上的Web应用程序发送登录信息（一般使用AJAX或者HTML Form），服务端Web应用基于认证结果来决定是否认证成功

认证多半为基于表单的认证，如果全面考虑过安全性能而实现的表单认证，可以具备高度的安全等级

基于表单认证，一般使用Cookie来管理Session会话，因为HTTP协议是无状态协议，不能通过协议层面保存会话状态。Set-Cookie（内容是Session ID）存在于服务端发出的响应报文中，Session ID被客户端接收，之后客户端发出的请求报文头部都会带上Cookie（Session ID），这样服务器就可以识别用户和其认证状态

第九章基于HTTP的功能追加协议¶

使用HTTP协议探知服务器上是否有内容更新，就必须频繁地从客户端到服务端进行确认，如果服务器上没有内容更新，就会产生徒劳的通信

为了解决频繁从服务器获取新信息的问题

HTTP通信的问题（瓶颈）： 1. 一条连接上只能发送一个请求 2. 请求只能从客户端开始，客户端不可以接收除响应以外的指令 3. 请求/响应首部未经压缩就发送，首部信息越多延迟越大 4. 发送冗长的首部。每次互相发送相同的首部造成的浪费较多 5. 可以任意选择数据压缩格式，费强制压缩发送

AJAX解决方法¶

AJAX（异步JavaScript和XML），是一种利用JavaScript和浏览器DOM的操作，局部更新页面数据的手段，不需要刷新整个页面就可以得到新的数据。利用AJAX有可能导致大量请求的产生，且并未解决HTTP协议本身存在的问题

Comet解决方法¶

Comet是一种用于web的推送技术，能使服务器实时地将更新的信息传送到客户端，而无须客户端发出请求，当前有两种实现方式，长轮询和iframe流。——维基百科

Comet为了维持连接会消耗更多的资源，仍未解决HTTP协议本身存在的问题

SPDY¶

SPDY是HTTP/2的前身，SPDY以会话层的形式加入，控制对数据的流动，但还是采用HTTP简历通信连接。使用SPDY后，HTTP协议额外获得以下功能： 1. 多路复用流：通过单一的TCP连接，可以无限制处理多个HTTP请求 2. 富裕请求优先级 3. 压缩HTTP首部 4. 推送功能：支持服务器主动向客户端推送数据 5. 服务器提示功能

使用浏览器进行全双工通信的 WebSocket¶

WebSocket允许**服务端主动向客户端推送数据**。在WebSocket API中，浏览器和服务器只需要完成**一次握手**，两者之间就直接可以创建**持久性的连接**，并进行双向数据传输**双向数据传输**。

WebSocket通信

HTTP/2¶

HTTP/2是HTTP协议自1999年HTTP 1.1发布后的首个更新，主要基于SPDY协议。——维基百科

WebDAV¶

基于Web的分布式编写和版本控制（WebDAV）是超文本传输协议（HTTP）的扩展，有利于用户间协同编辑和管理存储在万维网服务器文档。——维基百科

第十章构建Web内容的技术¶

（略）

第十一章 Web的攻击技术¶

跨站脚本攻击（XSS）是代码注入的一种，假设一个用户在网页评论输入框内输入含有恶意JavaScript的脚本，而Web应用没有过滤标签直接输出，这样就会影响其他用户浏览的页面，从而使恶意代码执行，用于盗取其他用户的信息

跨站请求伪造（CSRF）是攻击者通过一些技术手段欺骗用户的浏览器去访问一个自己曾经认证过的网站并运行一些操作（如发邮件，发消息，甚至财产操作如转账和购买商品）。由于浏览器曾经认证过，所以被访问的网站会认为是真正的用户操作而去运行。这利用了web中用户身份验证的一个漏洞：简单的身份验证只能保证请求发自某个用户的浏览器，却不能保证请求本身是用户自愿发出的。——维基百科

SQL注入攻击

OS命令注入攻击

HTTP首部注入攻击，可造成以下影响： 1. 设置任何Cookie信息 2. 重定向至任意URL 3. 显示任意的主体（HTTP响应截断攻击）

邮件首部注入攻击

目录遍历攻击