缓存代理服务

代理的工作机制

代替客户向网站请求数据，从而可以隐藏用户的真实IP地址

将获得的网页数据(静态 web 元素) 保存到缓存中并发送给客户端，以便下次请求相同的数据时快速响应

代理服务器的概念及作用

代理服务器是一个位于客户端和原始(资源)服务器之间的服务器，为了从原始服务器取得内容，客户端向代理服务器发送一个请求并指定目标原始服务器，然后代理服务器向原始服务器转交请求并获得的内容返回客户端

缓存代理对于web至关重要，尤其对于大型高负载web站点。缓存可作为性能优化的一个重要手段，可以极大减轻后端服务器的负载。通常对于静态资源，即较少经常更新的资源，如图片，css或js等进行缓存，从而在每次刷新浏览器的时候，不用重新请求，
而是从缓存里面读取，这样就可以减轻服务器的压力。

其主要作用

资源获取:代替客户端实现从原始服务器的资源获取;

加速访问：代理服务器可能离原始服务器更近，从而起到一定的加速作用;

缓存作用:代理服务器保存从原始服务器所获取的资源，从而实现客户端快速的获取;

隐藏真实地址:代理服务器代替客户端去获取原始服务器资源，从而隐藏客户端真实信息。

三种缓存区别

#squid、Varinsh和Nginx有什么区别，工作中你怎么选择？

Squid、Varinsh和Nginx都是代理服务器什么是代理服务器:能当替用户去访问公网，并且能把访问到的数据缓存到服务器本地，等用户下次再访问相同的资源的时候，代理服务器直接从本地回应给用户，当本地没有的时候，我代替你去访问公网，我接收你的请求，我先在我自已,的本地缓存找，如果我本地缓存有，我直接从我本地的缓存里回复你如果我在我本地没有找到你要访问的缓存的数据，那么代理服务器就会代替你去访问公网。

#区别:
1)Nginx本来是反向代理/web服务器，用了插件可以做做这个副业但是本身不支持特性挺多，只能缓存静态文件;
2)从这些功能上。varnish和squid是专业的cache服务，而nginx这些是第三方模块完成;
3)varnish本身的技术上优势要高于squid，它采用了可视化页面缓存技术;在内存的利用上，Varnish比Squid具有优势，性能要比Squid高。还有强大的通过Varnish管理端口，可以使用正则表达式快速、批量地清除部分缓存它是内存缓存，速度一流，但是内存缓存也限制了其容量，缓存页面和图片一般是挺好的;
4)squid的优势在于完整的庞大的cache技术资料，和很多的应用生产环境

#工作中选择:
要做cache服务的话，我们肯定是要选择专业的cache服务，优先选择squid或者varnish。

缓存状态

MISS #未命中缓存
HIT #命中缓存
EXPIRED #缓存过期
STALE #命中了陈旧缓存
REVALIDDATED # Nginx 验证陈旧缓存依然有效
UPDATING #内容陈旧，但正在更新
BYPASS #x响应从原始服务器获取

nginx 缓存代理

http {
    proxy_cache_path /data/nginx/cache levels=1:2 keys_zone=my_cache:10m max_size=10g inactive=60m use_temp_path=off;
    
    
 #################################################
●path：强制参数，指定缓存文件的存放路径。
●levels：定义了缓存目录的层级。每层可以用1（最多16种选择，0-f）或2（最多256种选择，00-ff）表示，中间用 : 分隔。
proxy_cache_path /data/nginx/cache;  代表所有缓存只有一个目录，比如/data/nginx/cache/d7b6e5978e3f042f52e875005925e51b
proxy_cache_path /data/nginx/cache levels=1:2;  代表缓存是二层目录（有16*256=4096个目录），比如/data/nginx/cache/b/51/d7b6e5978e3f042f52e875005925e51b
●keys_zone：强制参数，定义共享内存区的名称和大小，该共享内存用于保存缓存项目的元数据（所有活动的key和缓存数据相关的信息），这样nginx可以快速判断一个request是否命中或者未命中缓存，1m可以存储8000个key，10m可以存储80000个key。
●inactive：删除指定时间内未被访问的缓存文件，默认10分钟。
●max_size：设置了缓存存储的上限，如果不指定，最大会用掉所有磁盘空间。
●use_temp_path：直接把临时文件放在缓存目录中。   
#################################################


upstream cache_server{
        server 192.168.80.20:80;
        server 192.168.80.30:80;
    }
    
    server {
        listen 80;
        server_name www.kgc.com;
        location / {
            proxy_cache my_cache;               #指定用于页面缓存的共享内存，zone名称由proxy_cache_path指令定义
            proxy_cache_valid 200 5m;           #为不同的响应状态码设置不同的缓存时间，此为缓存状态码为200的请求，缓存时长为5分钟
            proxy_cache_key $request_uri;       #指定缓存文件的key为请求的URI
            add_header Nginx-Cache-Status $upstream_cache_status      #把缓存状态设置为头部信息，响应给客户端
            proxy_pass http://cache_server;     #设置代理转发的后端服务器的协议和地址
        }
    }
}



#对于一些实时性要求非常高的页面或数据来说，就不应该去设置缓存，下面来看看如何配置不缓存的内容。
proxy_cache_path /data/nginx/cache levels=1:2 keys_zone=my_cache:10m max_size=10g inactive=60m use_temp_path=off;(是否保存历史文件，不保存)
server {
  listen 80;
  server_name cache.lion.club;
  #URI 中后缀为 .txt 或 .text 的设置变量值为 "no cache"
  if ($request_uri ~ \.(txt|text)$) {
   set $cache_name "no cache"
  }
  
  location / {
    proxy_no_cache $cache_name;      #判断该变量是否有值，如果有值则不进行缓存，如果没有值则进行缓存
    proxy_cache my_cache;            #设置缓存内存
    proxy_cache_valid 200 5m;        #缓存状态为200的请求，缓存时长为5分钟
    proxy_cache_key $request_uri;    #缓存文件的key为请求的URI
    add_header Nginx-Cache-Status $upstream_cache_status    #把缓存状态设置为头部信息，响应给客户端
    proxy_pass http://cache_server;  #代理转发
  }
}


#详细可参考：
https://blog.csdn.net/qq_34556414/article/details/106490874
https://blog.csdn.net/weixin_30795127/article/details/97385091#proxy_cache_path

实现部署

nginx缓存服务器：192.168.19.26

两个nginx应用缓存服务器：192.168.19.27，192.168.19.28

#三个服务器编译安装nginx，并开启

#修改nginx配置文件

#访问服务器地址加节点指定缓存路径

#在刷新下，已有缓存。状态为HIT，命中缓存

CDN缓存代理

CDN的全称是(Content Delivery Network)，即内容分发网络。其目的是通过在现有的Internet中增加一层新的CACHE(缓存)层，将网站的内容发布到最接近用户的网络”边缘“的节点，使用户可以就近取得所需的内容，提高用户访问网站的响应速度。从技术上全面解决由于网络带宽小、用户访问量大、网点分布不均等原因，提高用户访问网站的响应速度。
简单的说，CDN的工作原理就是将您源站的资源缓存到位于全球各地的CDN节点上，用户请求资源时，就近返回节点上缓存的资源，而不需要每个用户的请求都回您的源站获取，避免网络拥塞、缓解源站压力，保证用户访问资源的速度和体验

CDN的基本原理是广泛采用各种缓存服务器，将这些缓存服务器分布到用户访问相对集中的地区或网络中，在用户访问网站时，利用全局负载技术将用户的访问指向距离最近的工作正常的缓存服务器上，由缓存服务器直接响应用户请求。

全局负载均衡主要用于在多个区域拥有自己服务器的站点，为了使全球用户只以一个IP地址或域名就能访问到离自己最近的服务器，从而获得最快的访问速度。

CDN 基本思路是尽可能避开互联网上有可能影响数据传输速度和稳定性的瓶颈和环节使内容传输的更快、更稳定。通过在网络各处放置节点服务器所构成的在现有的互联网基础之上的一层智能虚拟网络，CDN 系统能够实时地根据网络流量和各节点的连接、负载状况以及到用户的距离和响应时间等综合信息将用户的请求重新导向离用户最近的服务节点上。

其目的是使用户可就近取得所需内容，解决 Internet 网络拥挤的状况，提高用户访问网站的响应速度。

CDN对网络的优化作用主要体现在如下几个方面

解决服务器端的“第一公里”问题
缓解甚至消除了不同运营商之间互联的瓶颈造成的影响
减轻了各省的出口带宽压力
缓解了骨干网的压力
优化了网上热点内容的分布

CDN工作原理

#传统访问过程

1.用户输入访问的域名,操作系统向 LocalDns 查询域名的ip地址.
2.LocalDns向 ROOT DNS 查询域名的授权服务器(这里假设LocalDns缓存过期)
3.ROOT DNS将域名授权dns记录回应给 LocalDns
4.LocalDns得到域名的授权dns记录后,继续向域名授权dns查询域名的ip地址
5.域名授权dns 查询域名记录后，回应给 LocalDns
6.LocalDns 将得到的域名ip地址，回应给 用户端
7.用户得到域名ip地址后，访问站点服务器
8.站点服务器应答请求，将内容返回给客户端.



#CDN访问过程
1.用户输入访问的域名,操作系统向 LocalDns 查询域名的ip地址.
2.LocalDns向 ROOT DNS 查询域名的授权服务器(这里假设LocalDns缓存过期)
3.ROOT DNS将域名授权dns记录回应给 LocalDns
4.LocalDns得到域名的授权dns记录后,继续向域名授权dns查询域名的ip地址
5.域名授权dns 查询域名记录后(一般是CNAME)，回应给 LocalDns
6.LocalDns 得到域名记录后,向智能调度DNS查询域名的ip地址
7.智能调度DNS 根据一定的算法和策略(比如静态拓扑，容量等),将最适合的CDN节点ip地址回应给 LocalDns
8.LocalDns 将得到的域名ip地址，回应给 用户端
9.用户得到域名ip地址后，访问站点服务器
10.CDN节点服务器应答请求，将内容返回给客户端.(缓存服务器一方面在本地进行保存，以备以后使用，二方面把获取的数据返回给客户端，完成数据服务过程)

#通过以上的分析我们可以得到，为了实现对普通用户透明(使用缓存后用户客户端无需进行任何设置)访问，需要使用DNS(域名解析)来引导用户来访问Cache服务器，以实现透明的加速服务. 由于用户访问网站的第一步就是域名解析,所以通过修改dns来引导用户访问是最简单有效的方式

CDN网络的组成要素

对于普通的Internet用户，每个CDN节点就相当于一个放置在它周围的网站服务器. 通过对dns的接管，用户的请求被透明地指向离他最近的节点，节点中CDN服务器会像网站的原始服务器一样，响应用户的请求. 由于它离用户更近，因而响应时间必然更快.


#智能调度DNS(比如f5的3DNS)
智能调度DNS是CDN服务中的关键系统.当用户访问加入CDN服务的网站时，域名解析请求将最终由 “智能调度DNS”负责处理。它通过一组预先定义好的策略，将当时最接近用户的节点地址提供给用户，使用户可以得到快速的服务。同时它需要与分布在各地的CDN节点保持通信，跟踪各节点的健康状态、容量等信息，确保将用户的请求分配到就近可用的节点上.

#缓存功能服务
负载均衡设备(如lvs,F5的BIG/IP)
内容Cache服务器(如squid）
共享存储

总结

# web缓存代理
#作用：
存储一些之前被访问的，且可能将要再次被访问的静态网页资源对象，使用户可以直接从缓存代理服务器获取资源，从而减少上游原始服务器的负载压力，加快整个访问速度。
代理服务器还可以代替客户端去获取原始服务器资源，从而隐藏客户端真实地址。


#常见的web缓存代理应用
本地实现：nginx  squid Varnish
云环境远端实现：CDN


#数据库的缓存代理：
redis  memcached



#Nginx 缓存代理

#缓存总目录
/data/nginx/cache/

levels=1 /data/nginx/cache/{0,1,2,3,4..9,a,b,c..f}
levels=1:2 /data/nginx/cache/{00,01,10,11,..ff}

proxy_cache_path /data/nginx/cache levels=1:2 keys_zone=my_cache:10m max_size=10g inactive=60m use_temp_path=off;

upstream  web应用服务器池名 {
     SERVER IP:PORT;   #定义上游原始服务器的IP和端口号
     .....
}

server {
   LISTERN   端口;
    server_name  主机名;
   LOCATION  匹配路径 {
   proxy_no_cache $cache_name;      #判断该变量是否有值，如果有值则不进行缓存，如果没有值则进行缓存
    proxy_cache my_cache;            #设置缓存内存
    proxy_cache_valid 200 5m;        #缓存状态为200的请求，缓存时长为5分钟
    proxy_cache_key $request_uri;    #缓存文件的key为请求的URI
    add_header Nginx-Cache-Status $upstream_cache_status    #把缓存状态设置为头部信息，响应给客户端
   
 }
   }
}





#CDN 缓存代理
CDN 内容分发网络
在最接近用户网络"边缘"增加一层CDN缓存代理服务器，将原站点的内容发布CDN节点，可以使用户就近取得所需的内容，提高用户访问网站的响应速度

#CDN工作原理
将原站点(web应用服务器)的静态网页资源缓存到CDN节点上，用户请求资源时就近返回CDN节点上缓存的资源，而不需要每个用户的请求都去原站点获取，从而避免网络拥塞，缓解原站点的压力，保证用户资源的速度和体验


CDN的内容是如何获取的？
1）对于热点资源，要定时做缓存预热
2）如果CDN节点没有，会从上游原始服务器或原站点获取资源，并同步到CDN节点的缓存中