-
产品及方案 产品及方案
-
数据驱动型组织通过体系化的方法构建全域数据能力,实现数据驱动运营,重塑组织生产力
- 行业方案
- 典型方案
- 产品
-
数据驱动型组织
- 服务与支持
- 社区
- 合作伙伴
- 关于爱数
请选择咨询类型
扫码关注
爱数技术支持中心公众号
我们将在 24 小时之内联系你。
几乎没有任何一种复杂的操作系统,能够在不需要用户介入的情况下仍然稳定正常运行。作为系统管理员,运维人员经常需要定期执行特定的任务,以保障系统稳定运行。例如分析磁盘用量并清理旧文件。不过,将这些繁杂而重复的工作编写为脚本,并通过定时任务来进行调度执行,可以减少工作负担,降低出错的风险。因此,运维工作中的批任务,几乎都会以脚本的形式来运行。
<一>在运维工作中,脚本发挥着不可替代的作用。
下面是运维工作中一些常见的通过脚本执行的批任务:
1) 系统巡检:检查业务程序的任务执行情况,各系统资源使用情况;
2) 版本发布:新版本程序的上传、替换、配置修改、程序重新启动;
3) 备份管理:定期对指定目录下所有文件进行备份;
4) 文件传输:扫描特定目录下的文件,并通过ftp/sftp进行上传、下载;
5) 日志分析:分析web站点日志,分析用户通过何处方式跳转到本站点等业务指标。
批任务脚本在业务系统运维的方方面面都发挥着重要作用,但由于系统的复杂性,有很多因素可能导致脚本失败。如果没有及时发现,可能会造成更大的后果。
1) 脚本执行失败,未及时发现
a) 备份脚本失败:尽管备份脚本的备份策略已经留有一定的安全冗余,但由于脚本连续多次失败未及时发现,在数据丢失时仍然未能成功找回;
b) 文件传输失败:因为磁盘写满、网络故障等原因,文件传输失败,造成文件积压,影响后续业务的正常进行;
c) 日志分析:数据库管理员更新的存储程序存在BUG,导致数据库IO延时高,用户访问响应变慢。但由于日志分析脚本运行失败,未能及时发现此问题,站点长时间处于无法正常访问状态,导致客户大量投诉。
2) 脚本长时间未产生日志,未能发现
脚本没有产生日志的原因可能有很多,例如,由于脚本修改过程的失误出现语法错误。由于这种情况下没有生成失败日志,因此通过简单的grep命令无法发现这种异常情况。
3) 事件日志查看方式落后
由于脚本执行日志分散在系统各处且数量众多,当发现脚本执行失败时,登录脚本执行的主机,通过tail、grep等命令查看事件发生时的日志,这种方式繁琐且效率低效。
4) 缺乏对全量脚本执行情况的统计分析
为了了解全量脚本的执行情况,执行失败脚本的分布,需要对脚本的日志进行分析汇总。但由于脚本过于分散,这种方式过于复杂且统计结果的呈现不够直观。
<二>AnyRobot跑批任务脚本监控分析解决方案
1、可管控的Agent,实时采集数据
1) 通过Web页面将Agent批量发布到主机,指定采集的日志路径;
2) 脚本在执行过程中,实时产生记录,Agent探测到新增的日志记录,立即同步到AnyRobot。
2、实时告警
1) 根据脚本日志的字段格式,创建相应的解析规则;对于接收到的每一条日志记录,AnyRobot根据对应的解析规则进行实时解析;
2) 当脚本执行失败,错误日志进入系统,AnyRobot实时产生告警记录,并发送邮件提醒运维人员;
3) 脚本长时间没有产生日志记录,达到设定的时长,例如12小时,触发源端日志未采集告警,发送邮件提醒。
3、故障分析
1) 运维人员收到告警提醒,登录AnyRobot平台后,可以通过告警记录的链接直接查看告警日志,并通过告警上下文功能,快速到事件发生时的记录。
告警日志
2) 日志搜索引擎,支持全文关键词、字段值检索、逻辑运算符、SPL命令等方式精准查询日志记录。
4、监控报表
1) 脚本总数:过去24小时执行过的脚本的数量,如果脚本数量相对于前一天减少,可能是因为有的脚本未成功启动运行;
2) 执行次数:过去24小时所有脚本执行的次数;
3) 失败次数:过去24小时所有脚本执行失败的次数;
4) 执行结果分布:过去24小时所有脚本执行情况的成功、失败占比;
通过上述4个指标,可以了解整个业务系统脚本的总体情况:
5)失败时间分布:过去24小时每个时间段脚本执行的成功数、失败数;
6)执行失败主机分布:过去24小时执行失败脚本的主机分布情况;
7) 最近启动时间:过去24小时每个脚本的最近一次执行的开始时间,按启动时间由近到远排序,用于查看是否有脚本未按时正常运行;
8)执行失败记录:过去24小时所有执行日志中报错的记录列表,以便快速查看报错记录;
9) 上述的所有可视化图表,都集中在一个仪表盘中显示,便于快速了解所有脚本的运行情况。
10) 仪表盘订阅:通过AnyRobot平台设置计划任务,设置每天定时发送监控报表,可以设置在上班前发送,以便第一时间了解过去一天的系统情况。
<三>AnyRobot跑批任务监控分析价值请就本文对您的益处进行评级: