社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

用Python实现多站点运维监控

运维 • 7 年前 • 719 次点击  

来源:python运维技术


在小型公司里如果产品线单一的话,比如就一个app,  一般1~2个运维就够用了。如果产品过于庞大,就需要多个运维人员。

但对于多产品线的公司来说,运维人员就要必须分多个人负责,因为超过200个站点让1个人维护,那工作量是巨大的,就单单给开发的沟通时间,估计就要占用一整天时间了。

目前我所在的公司站点非常多,为管理方便,之前我们这里是实行过一段叫站长制的方式,就是不同人承担不同的项目维护,每个人就是自己所负责项目的站长,这个站长制实行完后,就有个监控问题,之前只要站点有问题,是每个人都可以收到,但为了防止报警泛滥,所以就需要把监控改成故障站点只发给负责该站点的站长。

有了这个背景,我们今天就来实现这个需求,脚本基本实现首先要有一个能够报警的函数,还需要一个检查站点是否故障的函数,最后一个函数是如果站点恢复后,要重新加入要监控的列表中,到这基本差不多了,但如果站点太多,用循环去检查还是效率太低了点,所以我们考虑采用线程并发执行。


如果都想清楚了,就可以开始着手我们代码的编写了。

首先导入我们所需要的模块:

from threading import Thread
import requests
import time
import smtplib


然后定义要检查的站点列表和报警邮件发送人:

clients = {
   "http://www.mindg.cn": "xxx@xx.com",
   "http://www.google.com": "gg@gg.com",
   "http://www.baidu.com": "cc@cc.com"
}


接下来实现检查是否站点故障函数:

temp_dic = {}

def site_up():
   while True:
       for client, email in clients.items():
           try:
               r = requests.get(client)
               if r.status_code == 200:
                   print client, 'Site ok'
                   time.sleep(60)
               else:
                   print client, 'Site first registered as down - added to the "site down" monitoring'
                   temp_dic[client]=email
                   del clients[client]
           except requests.ConnectionError:
               print client, 'Site first registered as down - added to the "site down" monitoring'
               temp_dic[client]=email
               del clients[client]

这个函数就是用requests检查站点返回的状态码,如果是200就认为正常,否则就把该站点加到临时的一个字典中,然后从检查字典中删除该站点。


因为站点偶尔出现问题不代表是站点问题,也可能是网络抖动,所以重新检查站点是否故障要等待一个固定时间,实现如下:

def site_down():
   while True:
       time.sleep(900)
       for client, email in temp_dic.items():
           try:
               r = requests.get(client)
               if r.status_code == 200:
                   print client, 'Site is back up!!'
                   email_sender('Site back up!! ', email, client)
                   clients[client]=email
                   del temp_dic[client]
               else:
                   email_sender('Site down!! ', email, client)
                   print client, 'Site Currently down - email sent'
           except requests.ConnectionError:
               email_sender('Site down!! ', email, client)
               print client, 'Site Currently down - email sent'

这个函数就是从临时字典中取出第一次检查出有问题的站点,15分钟后再次检查,如果返回200,就发送邮件,并从临时字典中移除,重新加入监控列表中,如果仍然未恢复,就要发送报警邮件了。


最后,我们采用并发的方式执行函数:

t1 = Thread(target = site_up)
t2 = Thread(target = site_down)
t1.start()
t2.start()

如果到这里就算结束这篇文章, 大家拿着脚本肯定是不能运行的。

因为少代码,有兴趣的也可以sleep 2分钟,仔细再看看,是否发现漏掉了什么?是的,我还没给出发报警邮件的函数代码,不但没贴而且不妨告诉大家我是故意的,之所以没直接给呢

是因为现在报警方式太多了,我建议大家在这个脚本基础上进行修改实现自己想要的报警方式

就当是留个作业吧,毕竟多动手才能提高编程水平,其它不多说了




●编号201,输入编号直达本文

●输入m获取文章目录

推荐↓↓↓
 

Python编程

更多推荐18个技术类微信公众号

涵盖:程序人生、算法与数据结构、黑客技术与网络安全、大数据技术、前端开发、Java、Python、Web开发、安卓开发、iOS开发、C/C++、.NET、Linux、数据库、运维等。


今天看啥 - 高品质阅读平台
本文地址:http://www.jintiankansha.me/t/5SfbyXZKPt
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/22929
 
719 次点击