看日志痛苦——可能是你方法不对

tech2022-08-07  142

看日志,是研发的日常工作,相信你已经从各种报错日志中查出许多BUG,但也被冗长、复杂的日志困扰过无数次。

在日常工作中,我也经常痛苦于看日志,一般是这些日志长得面目狰狞:

日志文件太大,打开都很困难日志文件里的信息错综复杂,各个模块的时序纠缠不清日志搜集引擎导出的文件被切割成多个文件,很难联系上下文来看

不仅日志看的不顺眼,看日志的工具也不蹭手:

搜索完关键词,上下跳几次,就忘记要干什么了(我是谁,我在哪,我在干嘛?)想按某个关键字过滤日志,有的工具还不支持刚刚自己分析得头头是道,一叫人过来就忘记从哪看起了

其实,这些问题,我们可以分为两类来看待。一类是工具问题,也就是工具的功能还不够完善;一类是方法问题,也就是缺少系统的方法来从日志中排查问题。

对于前者,我们需要的是专业的日志查看工具,而不是使用编辑器;对于后者,我有总结了一些方法论,倒是可以分享分享。

思路可视化

回顾看,排查日志一般步骤是:了解问题 => 定位出错位置 => 查看上下文 => 推测出错原因

而在这个过程中,如果我们把日志看做一维的线条,那么看日志就是在线条里,前前后后的跳转,搜集信息,然后总结得出结论。

而上面提到的一些问题,比如看日志忘记看到哪里了,讲解不知从而谈起等等,其实是没有把日志浏览的足迹、搜集的信息、总结的疑点、结论记录下来。

要把这些信息记录并可视化,你认为最合适的方式是什么呢?

我的方式是“时间线”。

像整理历史事件,分析历史事件一样,我们看到日志中有价值的地方,就做一个标记,把它放入时间线里。

起初,时间线只是一个书签栏,帮我们记录位置信息。比如出错位置在哪里,xx时间xxx在干嘛,xx在xx之前/之后等等

接着,我们开始结合日志+时间线,找到一些疑点。这个地方可疑,加个备注;这个地方的时序貌似不对,标个黄色;这个事件似乎没啥意义,先删了

上面的可疑点的梳理,基本围绕着“时间线条”这个工具在走,但,其实本质上是对你自己思路的检视,也就是,这个时候的“时间线”已经在扮演思路可视化的过程了。

最后,我们对可疑点进一步升华,发现了这份日志对应问题的根本原因。

这时候,时间线(思路的可视化),还能给你带来另一个价值——我们可以把这一份整理后的时间线发给相关人员,陈述你对日志的分析过程,是不是比直接文字表述更直观了?

主体+辅助

上面提到的“时间线”,其核心是保持思路一直延续,不被工具操作,或是其他信息干扰、打断。

思路在线,是排查日志最关键的一点。时间线是从时间维度来帮助我们做到思路在线,而“过滤窗”则可以帮助我们在“信息维度”保持思路在线。

日志排查的过程中,经常要用到的功能是:过滤含某个关键字的日志。但是仅仅过滤就行了吗?

如果只是过滤的话,会导致信息丢失。我们其实需要了解的是在整个日志范畴,这个过滤规则下的行为发生了什么,分布在哪些位置,上下文(其他模块)在干嘛,与我刚刚记录到时间线里的信息前后关系是怎样的……

也就是说,按关键字过滤出的信息除本身的信息价值外,还需要对照主体日志来提取更多信息。换言之,既是平行的,又是交错的。

那么,怎样才能合理的解决这个矛盾呢?

我把关键字过滤出的信息定义为辅助信息,放在过滤小窗,主体窗口显示完整日志,实现平行查看;同时,以“时间”为“纽带”连接“主体窗口”、“过滤小窗”、“时间线”,无论双击哪一个窗口中的事件,其他两个窗口都会立即定位到对应位置,这就实现了信息交织。

且看下图:

图中3大区域,左上是主体窗口,左下是过滤小窗,右边是时间线。

TAG

仍然围绕“思路在线”,时间(思路)和信息维度,我们都有工具辅助了,还有什么困扰呢?

工具!

看日志可不是一两个关键词搜索就能搞定的(能搜索一两个关键词搞定的,那只能叫做瞄一眼),而是很多。那么,最好能把搜索过的关键词记录下来,最好还能用不同的颜色标记出来。

所以,我还设计了一个TAG栏,记录当前高亮的关键词;然后在搜索栏里,加入了历史功能,可以自动补全之前输入过的单词。

其他

为了让天下没有难看的日志,定位到xx行、前进/后退、反向搜索、字体设置……等等,这些功能也不能少

既然把日志分析这件事已经摸索出了一定的经验和方法,而现有工具又没有特别蹭手的,当然是要自己写一个了!

来看看我写的loginsight吧:loginsight

最新回复(0)