Haproxy的介绍
Haproxy提供高可用性、负载均衡以及基于TCP(第四层)和HTTP(第七层)应用的代理,支持虚拟主机,它是免费、快速并且可靠的一种解决方案。
haproxy特别适用于那些负载特别大的web站点,这些站点通常又需要会话保持或七层处理。haproxy运行在时下的硬件上,完全可以支持数以万计的并发连接,并且它的运行模式使得它可以很简单安全的整合进您当前的架构中,同时可以保护你的web服务器不被暴露到网络上。
haproxy实现了一种事件驱动、单一进程模型,此模型支持非常大的并发连接数。多进程或多线程模型受内存限制、系统调度器限制以及无处不在的锁限制,很少能处理数千并发连接。事件驱动模型因为在有更好的资源和时间管理的用户端(User-Space)实现所有这些任务,所以没有这些问题。此模型的弊端是,在多核系统上,这些程序通常扩展性较差。这就是为什么他们必须进行优化以使每个CPU时间片(Cycle)做更多的工作。
haproxy的优点
(1)免费开源,稳定性也是非常好。单haproxy也跑得不错,稳定性可以与硬件级的F5相媲美。
(2)根据官方文档,haproxy可以跑满10Gbps,这个数值作为软件级负载均衡器是相当惊人的。
(3)haproxy支持连接拒绝:因为维护一个连接的打开的开销是很低的,有时我们很需要限制攻击蠕虫(attack bots),也就是说限制它们的连接打开从而限制它们的危害。这个已经为一个陷于小型DDoS攻击的网站开发了而且已经拯救了很多站点,这个优点也是其它负载均衡器没有的。
(4)haproxy支持全透明代理(已具备硬件防火墙的典型特点):可以用客户端IP地址或者任何其他地址来连接后端服务器。这个特性仅在Linux 2.4/2.6内核打了tcp proxy补丁后才可以使用。这个特性也使得为某特殊服务器处理部分流量同时又不修改服务器的地址成为可能。
(5)haproxy现多于线上的Mysql集群环境,我们常用于它作为MySQL(读)负载均衡。
(6)自带强大的监控服务器状态的页面,实际环境中我们结合Nagios进行邮件或短信报警。
(7)HAProxy支持虚拟主机,许多朋友说它不支持虚拟主机是错误的,通过测试我们知道,HAProxy是支持虚拟主机的。
Haproxy的安装
以在ubantu-16.04操作系统为例
|
|
常用命令如下:
|
|
Haproxy的配置
启动监控界面
|
|
关键词解析
balance
balance用于定义负载均衡的算法,可用于defaults、listen和backend中。
balance使用方法如下:
balance <algorithm>
[ <arguments> ]
balance url_param [check_post [<max_wait>]
]
balance支持的算法有:
roundrobin:基于权重进行轮询,在服务器的处理时间保持均匀分布时,这是最平衡、最公平的算法。此算法是动态的,这表示其权重可以在运行时进行调整。不过在设计上,每个后端服务器仅能最多接受4128个连接。
source:将请求的源地址进行hash运算,并由后端服务器的权重总数相除后派发至某匹配的服务器。这可以使得同一个客户端IP的请求始终被派发至某特定的服务器;不过,当服务器权重总数发生变化时,如某服务器宕机或添加了新的服务器,许多客户端的请求可能会被派发至与此前请求不同的服务器;常用于负载均衡无cookie功能的基于TCP的协议;其默认为静态,不过也可以使用hash-type修改此特性。
static-rr:基于权重进行轮询,与roundrobin类似,但是为静态方法,在运行时调整其服务器权重不会生效;不过,其在后端服务器连接数上没有限制。
leastconn:新的连接请求被派发至具有最少连接数目的后端服务器;在有着较长时间会话的场景中推荐使用此算法,如LDAP、SQL等,其并不太适用于较短会话的应用层协议,如HTTP;此算法是动态的,可以在运行时调整其权重。
uri:对URI的左半部分(“问题”标记之前的部分)或整个URI进行hash运算,并由服务器的总权重相除后派发至某匹配的服务器;这可以使得对同一个URI的请求总是被派发至某特定的服务器,除非服务器的权重总数发生了变化;此算法常用于代理缓存或反病毒代理以提高缓存的命中率;需要注意的是,此算法仅应用于HTTP后端服务器场景;其默认为静态算法,不过也可以使用hash-type修改此特性。
url_param:通过
hdr(
bind
bind仅能用于frontend和listen区段,用于定义一个或几个监听的套接词。
bind使用方法如下:
bind [
]:bind [
]:*
。省略此选项、将其指定为*
或0.0.0.0时,将监听当前系统的所有IPv4地址。
需要注意的是,每组监听的套接词
mode
mode用于设定实例的运行模式或协议。当实现内容交换时,前端和后端必须工作于同一种模式(一般说来都是HTTP模式),否则将无法启动实例。
mode可被用与listen、defaults、frontend、backend区段。
mode使用方法如下:
mode { tcp|http|health }
tcp:实例运行于纯TCP模式(即4层),在客户端和服务器端之间将建立一个全双工的连接,且不会对7层报文做任何类型的检查;此为默认模式,通常用于SSL、SSH、SMTP等应用。
http:实例运行于HTTP模式(即7层),客户端请求在转发至后端服务器之前将被深度分析,所有不与RFC格式兼容的请求都会被拒绝。
health:实例工作于health模式,其对入站请求仅响应“OK”信息并关闭连接,且不会记录任何日志信息;此模式将用于响应外部组件的健康状态检查请求;目前此模式已经废弃,因为tcp或http模式中的monitor关键词可完成类似功能;
hash-type
hash-type定义用于将hash码映射至后端服务器的方法;其不能用于frontend区段;可用方法有map-based和consistent,在大多数场景下推荐使用默认的map-based方法。
hash-type使用方法如下:
hash-type
map-based:hash表是一个包含了所有在线服务器的静态数组。其hash值将会非常平滑,会将权重考虑在列,但其为静态方法,对在线服务器的权重进行调整将不会生效,这意味着其不支持慢速启动。此外,挑选服务器是根据其在数组中的位置进行的,因此,当一台服务器宕机或添加了一台新的服务器时,大多数连接将会被重新派发至一个与此前不同的服务器上,对于缓存服务器的工作场景来说,此方法不甚适用。
consistent:hash表是一个由各服务器填充而成的树状结构;基于hash键在hash树中查找相应的服务器时,最近的服务器将被选中。此方法是动态的,支持在运行时修改服务器权重,因此兼容慢速启动的特性。添加一个新的服务器时,仅会对一小部分请求产生影响,因此,尤其适用于后端服务器为cache的场景。不过,此算法不甚平滑,派发至各服务器的请求未必能达到理想的均衡效果,因此,可能需要不时的调整服务器的权重以获得更好的均衡性。
log
log为每个实例启用事件和流量日志,因此可用于所有区段。每个实例最多可以指定两个log参数,不过,如果使用了“log global”且”global”段已经定了两个log参数时,多余了log参数将被忽略。
log global
log
global:当前实例的日志系统参数同”global”段中的定义时,将使用此格式;每个实例仅能定义一次“log global”语句,且其没有任何额外参数。
:定义日志发往的位置,其格式之一可以为maxconn
maxconn设定一个前端的最大并发连接数,因此,其不能用于backend区段。
maxconn使用方法如下:
maxconn
对于大型站点来说,可以尽可能提高此值以便让haproxy管理连接队列,从而避免无法应答用户请求。当然,此最大值不能超出“global”段中的定义。此外,需要留心的是,haproxy会为每个连接维持两个缓冲,每个缓冲的大小为8KB,再加上其它的数据,每个连接将大约占用17KB的RAM空间。这意味着经过适当优化后,有着1GB的可用RAM空间时将能维护40000-50000并发连接。
如果为
default_backend
default_backend定义在没有匹配的use_backend规则时为实例指定使用的默认后端服务器,因此,其不可应用于backend区段。在frontend和backend之间进行内容交换时,通常使用use-backend定义其匹配规则;而没有被规则匹配到的请求将由此参数指定的后端服务器接收。
default_backend使用方法如下:
default_backend
server
server为后端声明一个server,因此,不能用于defaults和frontend区段。
server使用方法如下:
server <name> <address>[:port][param *]
<name>:
为此服务器指定的内部名称,其将出现在日志及警告信息中;如果设定了http-send-server-name,它还将被添加至发往此服务器的请求首部中。
<address>:
为此服务器的的IPv4地址,支持使用可解析的主机名,同时也支持域名,只不过在启动时需要解析主机名至相应的IPv4地址。
[:port]:
指定将连接请求所发往的此服务器时的目标端口,其为可选项;未设定时,将使用客户端请求时的同一相端口。
[param*]:
为此服务器设定的一系参数;其可用的参数非常多,具体请参考官方文档中的说明,下面仅说明几个常用的参数;
服务器或默认服务器参数:
backup:设定为备用服务器,仅在负载均衡场景中的其它server均不可用于启用此server。
check:启动对此server执行健康状态检查,其可以借助于额外的其它参数完成更精细的设定,如:
inter
rise
fall
cookie
maxconn
maxqueue
observe
redir
server srv1 192.168.5.174:80 redir http://www.baidu.com check
weight
stats enable
stats enable启用基于程序编译时默认设置的统计报告,stats enable不能用于frontend区段。只要没有另外的其它设定,它们就会使用如下的配置:
stats uri : /stats
stats realm : “HAProxy Statistics”
stats auth : no authentication
stats scope : no restriction
尽管stats enable一条就能够启用统计报告,但还是建议设定其它所有的参数,以免其依赖于默认设定而带来非期望的后果。
stats hide-version
stats hide-version隐藏统计报告中haproxy版本号,不能用于frontend区段。默认情况下,统计页面会显示一些有用信息,包括haproxy的版本号。然而,向所有人公开haproxy的精确版本号是非常有风险的,因为它能帮助恶意用户快速定位版本的缺陷和漏洞。
stats realm
stats realm启用统计报告并高精认证领域,不能用于“frontend”区段。
stats realm
haproxy在读取realm时会将其视作一个单词,因此,中间的任何空白词符都必须使用反斜线进行转义。此参数仅在与“stats auth”配置使用时有意义。
stats scope
stats scope启用统计报告并限定报告的区段,不能用于frontend区段。
当指定此语句时,统计报告将仅显示其列举出区段的报告信息,所有其它区段的信息将被隐藏。如果需要显示多个区段的统计报告,此语句可以定义多次。需要注意的是,区段名称检测仅仅是以词符串比较的方式进行,它不会真检测指定的区段是否真正存在。
stats scope {
stats auth
stats auth启用带认证的统计报告功能并授权一个用户帐号,其不能用于frontend区段。
stats auth
此语句将基于默认设定启用统计报告功能,并仅允许其定义的用户访问,其也可以定义多次以授权多个用户帐号。可以结合“stats realm”参数在提示用户认证时给出一个领域说明信息。在使用非法用户访问统计功能时,其将会响应一个“401 Forbidden”页面。其认证方式为HTTP Basic认证,密码传输会以明文方式进行,因此,配置文件中也使用明文方式存储以说明其非保密信息故此不能相同于其它关键性帐号的密码。
stats admin
stats admin在指定的条件满足时启用统计报告页面的管理级别功能,它允许通过web接口启用或禁用服务器,不过,基于安全的角度考虑,统计报告页面应该尽可能为只读的。此外,如果启用了HAProxy的多进程模式,启用此管理级别将有可能导致异常行为。
stats admin { if | unless }
目前来说,POST请求方法被限制于仅能使用缓冲区减去保留部分之外的空间,因此,服务器列表不能过长,否则,此请求将无法正常工作。因此,建议一次仅调整少数几个服务器。下面是两个案例,第一个限制了仅能在本机打开报告页面时启用管理级别功能,第二个定义了仅允许通过认证的用户使用管理级别功能。
backend stats_localhost
stats enable
stats admin if LOCALHOST
backend stats_auth
stats enable
stats auth admin:password
stats admin if TRUE
option httplog
option httplog启用记录HTTP请求、会话状态和计时器的功能。
option httplog [ clf ]
clf:使用CLF格式来代替HAProxy默认的HTTP格式,通常在使用仅支持CLF格式的特定日志分析器时才需要使用此格式。
默认情况下,日志输入格式非常简陋,因为其仅包括源地址、目标地址和实例名称,而“option httplog”参数将会使得日志格式变得丰富许多,其通常包括但不限于HTTP请求、连接计时器、会话状态、连接数、捕获的首部及cookie、“frontend”、“backend”及服务器名称,当然也包括源地址和端口号等。
option logasap
option logasap
启用提前将HTTP请求记入日志,不能用于backend区段。
默认情况下,HTTP请求是在请求结束时进行记录以便能将其整体传输时长和词节数记入日志,由此,传较大的对象时,其记入日志的时长可能会略有延迟。option logasap参数能够在服务器发送complete首部时即时记录日志,只不过,此时将不记录整体传输时长和词节数。此情形下,捕获Content-Length响应首部来记录传输的词节数是一个较好选择。
option forwardfor
option forwardfor允许在发往服务器的请求首部中插入“X-Forwarded-For”首部。即启用获取客户端真实IP功能。
option forwardfor [ except
if-none:仅在此首部不存在时才将其添加至请求报文问道中。
haproxy工作于反向代理模式,其发往服务器的请求中的客户端IP均为haproxy主机的地址而非真正客户端的地址,这会使得服务器端的日志信息记录不了真正的请求来源,“X-Forwarded-For”首部则可用于解决此问题。haproxy可以向每个发往服务器的请求上添加此首部,并以客户端IP为其value。
需要注意的是,haproxy工作于隧道模式,其仅检查每一个连接的第一个请求,因此,仅第一个请求报文被附加此首部。如果想为每一个请求都附加此首部,请确保同时使用了“option httpclose”、“option forceclose”和“option http-server-close”几个option。
errorfile
errorfile在用户请求不存在的页面时,返回一个页面文件给客户端而非由haproxy生成的错误代码;可用于所有段中。
errorfile
:指定对HTTP的哪些状态码返回指定的页面;这里可用的状态码有200、400、403、408、500、502、503和504。
例如:
errorfile 400 /etc/haproxy/errorpages/400badreq.http
errorfile 403 /etc/haproxy/errorpages/403forbid.http
errorfile 503 /etc/haproxy/errorpages/503sorry.http
rrorloc和errorloc302
errorloc
errorloc302
请求错误时,返回一个HTTP重定向至某URL的信息;可用于所有配置段中。
:指定对HTTP的哪些状态码返回指定的页面;这里可用的状态码有200、400、403、408、500、502、503和504;
需要留意的是,这两个关键词都会返回302状态吗,这将使得客户端使用同样的HTTP方法获取指定的URL,对于非GET法的场景(如POST)来说会产生问题,因为返回客户的URL是不允许使用GET以外的其它方法的。如果的确有这种问题,可以使用errorloc303来返回303状态码给客户端。
errorloc303
errorloc303
请求错误时,返回一个HTTP重定向至某URL的信息给客户端,可用于所有配置段中。
:指定对HTTP的哪些状态码返回指定的页面;这里可用的状态码有400、403、408、500、502、503和504;
例如:
backend webserver
server 172.16.100.6 172.16.100.6:80 check maxconn 3000 cookie srv01
server 172.16.100.7 172.16.100.7:80 check maxconn 3000 cookie srv02
errorloc 403 /etc/haproxy/errorpages/sorry.htm
errorloc 503 /etc/haproxy/errorpages/sorry.htm
配置文件解析
haproxy的配置文件主要包含以下几个部分:
global全局配置、defaults默认配置、监控页面配置、frontend配置、backend配置。
global:全局配置参数,进程级的,用来控制Haproxy启动前的一些进程及系统设置。
defaults:配置一些默认的参数,可以被frontend,backend,listen段继承使用。
frontend:用来匹配接收客户所请求的域名,uri等,并针对不同的匹配,做不同的请求处理。
backend:定义后端服务器集群,以及对后端服务器的一些权重、队列、连接数等选项的设置。
listen:我将其理解为frontend和backend的组合体。
global全局配置
全局配置的标志参数为global,全局配置主要用于设定义全局参数,属于进程级的配置,通常和操作系统配置有关。
进程管理及安全相关的参数:
chroot
使用方法为:
chroot /var/lib/haproxy
daemon:让haproxy以守护进程的方式工作于后台,其等同于“-D”选项的功能。当然,也可以在命令行中以“-db”选项将其禁用。
uid:以指定的uid身份运行haproxy进程。
user:同uid参数,但使用的是用户名。
gid
group
log
log-send-hostname [
nbproc
pidfile:将haproxy的进程写入pid文件。
ulimit-n:设定每进程所能够打开的最大文件描述符数目,默认情况下其会自动进行计算,因此不推荐修改此选项。
stats socket
性能调整相关的参数:
maxconn
maxpipes
noepoll:在Linux系统上禁用epoll机制。
nokqueue:在BSE系统上禁用kqueue机制。
nopoll:禁用poll机制。
nosepoll:在Linux禁用启发式epoll机制。
nosplice:禁止在Linux套接字上使用内核tcp重组,这会导致更多的recv/send系统调用;不过,在Linux 2.6.25-28系列的内核上,tcp重组功能有bug存在。
spread-checks <0..50, in="" percent="">:在haproxy后端有着众多服务器的场景中,在精确的时间间隔后统一对众服务器进行健康状况检查可能会带来意外问题;此选项用于将其检查的时间间隔长度上增加或减小一定的随机时长。0..50,>
tune.bufsize
tune.chksize
tune.maxaccept
tune.maxpollevents
tune.maxrewrite
tune.rcvbuf.client
tune.rcvbuf.server
tune.sndbuf.client:定义在客户端内核套接字发送缓冲区的大小,单位为字节,建议不要调整此值。
tune.sndbuf.server:定义在服务端内核套接字发送缓冲区的大小,单位为字节,建议不要调整此值。
上边的这些指令大多也是作为了解即可,在实际中并不常会调整这些参数。
debug相关的参数:
debug:在调度haproxy时可以启用此参数,但在生产环境不应该启用。
quiet:haproxy启动后不会显示任何相关信息,这与在命令行启动haproxy时加上参数“-q”相同。
defaults默认配置
defaults段用于为所有其它配置段提供默认参数,这配置默认配置参数可由下一个defaults所重新设定。
下面提供一个defaults模版配置,如下:
defaults
mode http
设置haproxy的运行模式,有三种{http|tcp|health}。注意:如果haproxy中还要使用4层的应用(mode tcp)的话,不建议在此定义haproxy的运行模式。
log global
设置日志继承全局配置段的设置。
option httplog
表示开始打开记录http请求的日志功能。
option dontlognull
如果产生了一个空连接,那这个空连接的日志将不会记录。
option http-server-close
打开http协议中服务器端关闭功能,使得支持长连接,使得会话可以被重用,使得每一个日志记录都会被记录。
option forwardfor except 127.0.0.0/8
如果上游服务器上的应用程序想记录客户端的真实IP地址,haproxy会把客户端的IP信息发送给上游服务器,在HTTP请求中添加”X-Forwarded-For”字段,但当是haproxy自身的健康检测机制去访问上游服务器时是不应该把这样的访问日志记录到日志中的,所以用except来排除127.0.0.0,即haproxy身。
option redispatch
当与上游服务器的会话失败(服务器故障或其他原因)时,把会话重新分发到其他健康的服务器上,当原来故障的服务器恢复时,会话又被定向到已恢复的服务器上。还可以用”retries”关键字来设定在判定会话失败时的尝试连接的次数。
retries 3
向上游服务器尝试连接的最大次数,超过此值就认为后端服务器不可用。
option abortonclose
当haproxy负载很高时,自动结束掉当前队列处理比较久的链接。
timeout http-request 10s
客户端发送http请求的超时时间。
timeout queue 1m
当上游服务器在高负载响应haproxy时,会把haproxy发送来的请求放进一个队列中,timeout queue定义放入这个队列的超时时间。
timeout connect 5s
haproxy与后端服务器连接超时时间,如果在同一个局域网可设置较小的时间。
timeout client 1m
定义客户端与haproxy连接后,数据传输完毕,不再有数据传输,即非活动连接的超时时间。
timeout server 1m
定义haproxy与上游服务器非活动连接的超时时间。
timeout http-keep-alive 10s
设置新的http请求连接建立的最大超时时间,时间较短时可以尽快释放出资源,节约资源。
timeout check 10s
健康检测的时间的最大超时时间。
maxconn 3000
最大并发连接数。
contimeout 5000
设置成功连接到一台服务器的最长等待时间,默认单位是毫秒,新版本的haproxy使用timeout connect替代,该参数向后兼容。
clitimeout 3000
设置连接客户端发送数据时的成功连接最长等待时间,默认单位是毫秒,新版本haproxy使用timeout client替代。该参数向后兼容。
srvtimeout 3000
设置服务器端回应客户度数据发送的最长等待时间,默认单位是毫秒,新版本haproxy使用timeout server替代。该参数向后兼容。
监控页面配置
listen admin_status
frontend和backend的组合体,监控组的名称,按需自定义名称。
bind 0.0.0.0:1080
配置监听端口。
mode http
配置监控运行的模式,在这为http模式。
log 127.0.0.1 local3 err
配置错误日志记录。
stats refresh 5s
配置每隔5秒自动刷新监控页面。
stats uri /stats
配置监控页面的url。
stats realm Haproxy\ Statistics
配置监控页面的提示信息。
stats auth admin:admin
配置监控页面的用户和密码admin,可以设置多个用户名。如下:
stats auth admin1:admin1
配置监控页面的用户和密码admin1。
stats hide-version
配置隐藏统计页面上的HAproxy版本信息。
stats admin if TRUE
配置手工启用/禁用,后端服务器(haproxy-1.4.9以后版本)。
frontend配置
frontend web_demo
定义一个名为 web_demo的frontend。
bind 0.0.0.0:80
定义haproxy前端部分监听的端口。
mode http
定义为http模式。
log global
继承global中log的定义。
option forwardfor
使后端server获取到客户端的真实IP。
acl php_web path_end .php
定义一个名叫php_web的acl,当请求的url末尾是以.php结尾的,将会被匹配到。
use_backend php_server if php_web
如果满足策略php_web时,就将请求交予backend php_server处理。
default_backend backend_default
如果以上策略都不满足时,就将请求交予default_backend处理。
|
|
backend配置
backend dgserver
定义dgserver服务器组
balance source
定义负载均衡方式,roundrobin平均方式
mode http
option httpchk GET /index.html
心跳检测的文件
server web1 192.168.5.171:8080 maxconn 1024 weight 3 check inter 2000 rise 2 fall 3
服务器定义,maxconn 1024 表示该服务器的最大连接数,check inter 2000是检测心跳频率,rise 2是2次正确认为服务器可用,fall 3是3次失败认为服务器不可用,weight代表权重
Haproxy的使用示例
haproxy 的ssl 配置(处理https)
方式一:haproxy 本身提供ssl 证书,后面的web 服务器走正常的http
配置示例如下:
|
|
附录:简单地演示生成自签名证书的方式
|
|
当购买真正的证书 时,你不一定会获取拼接后的文件。你可以要自己拼接它们。然而,很多机构也会提供一份拼接好的文件给你。如果你没有获取到拼接后的文件,则它可能不是一个 pem 文件,而是 bundle、cert、cert、key文件或一些相同概念但名称类似的文件。
方式二:haproxy 本身只提供代理,后面的web服务器https
又称SSL穿透,不需要重新编译支持ssl,简单方便。需要后面的web服务器配置好ssl 即可。
配置示例如下:
|
|
haproxy的tcp应用
haproxy代理ssh
为了安全起见,要求所有业务服务器都关闭公网的连接,只开放haproxy所在的服务器,并且其他业务服务器的ssh连接通过haproxy来实现。
实际业务,访问192.168.5.171的8098端口就是访问192.168.5.174的ssh端口。
haproxy代理mysql
为了安全起见,要求mysql数据库的连接只能通过内网IP,但是因为使用的是云数据库,所以如果公司内部要连接数据库的话要通过haproxy来实现。实际业务,访问192.168.5.171的8099端口就是访问192.168.7.7的3306端口。
以上两个需求的配置如下:
因为是haproxy的7层和4层混合使用,所以在defaults中,我们不定义haproxy的运行模式。
注意:有关http模式的相关配置参数不要出现在default中。
|
|
参考:
http://www.ilanni.com/?s=haproxy
http://cbonte.github.io/haproxy-dconv/1.6/intro.html#3
https://www.oschina.net/translate/haproxy-ssl-termation-pass-through?lang=chs&page=2#
http://virtuallyhyper.com/2013/05/configure-haproxy-to-load-balance-sites-with-ssl/
http://www.rackspace.com/knowledge_center/article/setting-up-haproxy