open-falcon 技术分享会总结

open-falcon 技术分享会总结

滴滴出行

滴滴出行主要介绍了open-falcon v0.1.0的新特性,以及未来open-falcon未来的规划

新特性

  1. graph扩容不再丢失数据
  2. 自定义dashboard
  3. 自定义汇报时间间隔(放到配置中)
  4. 支持openTSDB
  5. 适配Grafana-一个全球广泛使用的dashboard
  6. 集群监控
  7. nodata监控
  8. 文档完善

规划

  1. 前端模块合并(dashboard, portal)
  2. 权限控制
  3. API重新整理设计
  4. 组合策略告警, tag反选(不等于某一条件时报警)

美团 mt-falcon

美团机器2w+, 监控指标5kw+,open-falcon集群100+台服务器

  • 动态服务树整合: 机器上有告警接收人, 策略中也有告警接受人,告警时取并集发送
  • 字符串监控(监控日志信息)
  • Docker监控: 最早为宿主机监控
  • 告警合并: 第一条告警直接发送, 之后的告警通过提取主机组字段合并发送。机器合并,同一metric合并好做。 服务依赖直接的告警合并不好处理
  • UI重构
  • 服务内嵌: 把汇报代码直接打入Lib包,不用安装agent
  • 告警屏蔽: 可以选择屏蔽主机, 策略。最多2周,2周后恢复。

运维、监控的一些思考

  • 一切为了运维友好, 解放生产力
  • open-falcon本身的日志需要更加完善
  • 监控的路线为: 基础监控–>聚合监控–>智能监控(定位,自愈)。 基础监控尤为重要

Q&A

Q: open-falcon的自监控如何处理?

A: 生产环境下很少需要运维, 因为设计上无核心down点。 有anti-eye的工具来监控每个模块


Q: 与服务树如何对接?

A: 同步机器列表。open-falcon只做监控, 对于资产的对接需要开发完成。具体怎么对接的滴滴和美团都没有太详细说明


Q:open-falcon如何去单点

A:美团多机房部署


Q:graph历史数据的迁移

A:美团SSD,3T硬盘,定期删除数据


Q: zibbix数据如何迁移?

A:数据不迁移。在zabbix和open-falcon共存阶段, 数据同时往两个地方写入


Q: 模板的对接问题?

A: 模板还是open-falcon的模板, 权限自己开发