运维必备的好帮手:SREAgent

摘要

近期我们发布了公共云版,开箱即用的 SREAgent,对运维而言这是一个必备的好助手,简单看下它给运维带来的一些直接的帮助。

近期我们发布了公共云版,开箱即用的 SREAgent,对运维而言这是一个必备的好助手,简单看下它给运维带来的一些直接的帮助。

在介绍能带来的一些帮助之前,要先强调下,因为运维通常是高风险的操作,SREAgent 为了避免造成问题,目前采用的避免误操作导致生产环境各种问题的方法是:
1. 给 SREAgent 配置的权限尽量是只读的,例如云账号的权限,或者其他例如运维平台的权限等,因为这个需要用户自己控制,所以 SREAgent 也只能是在配置账号的时候强调;

2. 做具体的操作时,SREAgent 内置了白名单机制,对于高危的操作直接拒绝执行。

有了这样的安全保障后,才可以放心的使用 SREAgent 来做运维的一些事情,来继续看它可以给运维带来的一些直接的帮助的事情:

1. 帮助回答研发的各种问题以及运维自己处理各种问题

运维通常要面对众多的研发,经常会需要回答各种问题,通过 SREAgent,研发则可以自助的去问各种问题,因为和环境(测试、预发或生产)是直接关联了的,所以和泛泛而问的情况是完全不同的。同样,运维自己也可以用这个来处理各种问题,无论是了解环境情况,还是排查某些问题等。2. 自动处理众多的告警

可以给 SREAgent 配置对接一些告警源,这样 SREAgent 会自动的来接这些告警,并自动的进行排查,标识为高风险的告警,还是可忽略的,以及该怎么解决(通过将贝联珠贯团队的经验沉淀为内置的 skills,提高排查的准确性等),同样,为了避免风险,具体的操作目前阶段还是会交给人来决定和执行(在告警治理或运维大盘中都可以看到 SREAgent 处理的结果)。

告警源配置目前可支持以下几种监控系统的对接:

告警源 说明 同步模式
AliyunCmsAlertSource 阿里云云监控(CMS)告警 拉取
CdhEventSource CDH 事件源 拉取
K8sEventSource Kubernetes 事件源 拉取
TencentEmrAlertSource 腾讯云 EMR 告警 拉取
TencentWedataAlertSource 腾讯云 WeData 告警 拉取
AliyunEmrAlertSource 阿里云 EMR 告警 拉取
DatapilotAlertSource DataPilot 告警 拉取
FlashcatAlertSource Flashcat(夜莺监控)告警 拉取
GrafanaWebhookEventSource Grafana Webhook 事件源 推送
ZabbixAlertSource Zabbix 告警 拉取
TdhAlertSource TDH 告警 拉取

3. 自动巡检避免一些高风险或其他的潜在问题

对于不同的系统,都有一些高风险或其他需要关注的情况,对于这些情况,自动的巡检是非常的关键的,例如简单的有系统核心的功能是否可用,甚至系统的某些存储策略、架构原则是否生效,成本是否有严重浪费等,在 SREAgent 里不需要编写代码,而是可以自然语言的方式直接来写需要怎么巡检就可以,非常方便。除了以上这些开箱即用的直接的帮助外,SREAgent 还有很多其他的能力,例如成本分析、拓扑关系分析等。如果觉得还不够用或有自己私有的环境、产品等,可通过自行开发 skill,安装到 SREAgent 中,来扩展 SREAgent 的能力。欢迎运维岗或研发岗的都给自己配备上这个好用的帮手,具体试用 SREAgent 的方法请见 199 元,10 亿运维 token,快来抢

来源:互联网

最新文章

极客公园

用极客视角,追踪你不可错过的科技圈.

极客之选

新鲜、有趣的硬件产品,第一时间为你呈现。

张鹏科技商业观察

聊科技,谈商业。