排查
从 CPU 到网络记录一次排查应用慢的过程
· ☕ 7 分钟
1. 现象 业务反馈应用 app-a 的接口慢,查看日志发现是某一个 Pod 慢,删除该 Pod 让其更换节点就好。 从监控指标可以看到,Pod 的 CPU 使用率确实有剧增。 但该 Pod 没有达到 Limit 的限制,没有被限流 CPU。 接着看节点的 CPU 监控,发现节点的 CPU 使用率也有剧增。 并且增加的部分是 System C

Celery 处理大文件失败问题排查与解决
· ☕ 3 分钟
1. 一个小需求 经常遇到一些小的需求,但是实现起来并不简单。这里就有一个文件上传的简单需求,分为下面几个步骤: 用户在页面上传一个大文件 大文件会被暂存在内网的 Ceph 后台任务,将 Ceph 中的大文件,下载到 Docker 内 后台任务,将 Docker 中的大文件,上传到外网的 COS 后台使用的