如何解决使用Python分析日志
我有一个带日志的csv文件。 我需要对其进行分析,然后从文件中选择必要的信息。 问题在于它有很多带有标题的表。他们没有名字。 表由空行分隔,并且也彼此分隔。 假设我需要从%idle列中选择所有数据,其中CPU = all
结构:
09:20:06,CPU,%usr,%nice,%sys,%iowait,%steal,%irq,%soft,%guest,%idle
09:21:06,all,4.98,0.00,5.10,0.06,89.86
09:21:06,12.88,5.62,0.03,0.02,1.27,80.18
12:08:06,%idle
12:09:06,5.48,5.24,0.12,89.15
12:09:06,18.57,5.35,3.00,73.06
09:20:06,runq-sz,plist-sz,ldavg-1,ldavg-5,ldavg-15
09:21:06,3,1444,2.01,2.12,2.15
09:22:06,4,2.15,2.14,2.15
解决方法
一个相当愚蠢的解决方案是对原始CSV使用“普通”文件阅读器。您可以将所有内容(直到新换行符为止)读取为单个CSV,然后读取parse the text you just read in memory。
每次“看到”换行符时,您都知道将其视为全新的CSV,因此您可以重复上述过程。
例如,您将有一个包含以下内容的字符串:
09:20:06,CPU,%usr,%nice,%sys,%iowait,%steal,%irq,%soft,%guest,%idle
09:21:06,all,4.98,0.00,5.10,0.06,89.86
09:21:06,12.88,5.62,0.03,0.02,1.27,80.18
,然后将其解析到内存中。此后到达换行符,您将知道需要一个包含以下内容的新字符串:
12:08:06,%idle
12:09:06,5.48,5.24,0.12,89.15
12:09:06,18.57,5.35,3.00,73.06
等-您可以继续使用尽可能多的表。
,您可以使用下面的程序来解析此csv。
result={}
with open("log.csv","r") as f:
for table in f.read().split("\n\n"):
rows=table.split("\n")
header=rows[0]
for row in rows[1:]:
for i,j in zip(header.split(",")[1:],row.split(",")[1:]):
if i in result:
result[i].append(j)
else:
result[i]=[j]
print(result["%idle"])
输出(%idle的值)
['89.86','80.18','89.15','73.06']
这假定表的列和行值的顺序相同,并且没有两个表具有相同的列名。