Python:解析日志文件中的成对行

如何解决Python:解析日志文件中的成对行

我有一个日志文件,需要针对特定​​事件进行解析。问题是我需要的数据来自成对的事件条目,每个事件条目都包含所需的数据。

例如,将有一行事件类型= test并包含一些数据,然后不久之后又有另一行事件类型= test2并包含一些数据。

文件中这些数据对可能有很多实例,或者没有。

我需要做的是告诉代码,当它找到带有event = test的行时,还要查找event = test2的下一个实例,通常在日志的后面几行。

这是数据文件的示例:

2020-08-25 03:36:56.006 INFO    Panda HOOK: {"event":"keepalive","time":1600.0064477}
2020-08-25 03:37:01.006 INFO    Panda HOOK: {"event":"keepalive","time":1605.0066958}
2020-08-25 03:37:06.004 INFO    Panda HOOK: {"event":"keepalive","time":1610.004206}
2020-08-25 03:37:11.003 INFO    Panda HOOK: {"event":"keepalive","time":1615.0032498}
2020-08-25 03:37:16.005 INFO    Panda HOOK: {"event":"keepalive","time":1620.0056292}
2020-08-25 03:37:21.001 INFO    Panda HOOK: {"event":"keepalive","time":1625.0011002}
2020-08-25 03:37:26.007 INFO    Panda HOOK: {"event":"keepalive","time":1630.0073155}
2020-08-25 03:37:31.008 INFO    Panda HOOK: {"event":"keepalive","time":1635.0086481}
2020-08-25 03:37:32.687 INFO    Scripting: event:type=test,initiator=Abe Lincoln,place=Washinton,2020-08-25 03:37:21.001 INFO    Panda HOOK: {"event":"keepalive","time":1635.0086481}
2020-08-25 03:37:34.414 INFO    Scripting: event:type=test2,t=25277.04,type=comment,

这是我必须获得第一行2020-08-25 03:37:32.687 INFO Scripting: event:type=test,

的一些代码
f = open('data.log','r')
lines = f.readlines()
test2Event = 'event:type=test2'
testEvent = 'event:type=test'
for string in lines:
    if testEvent in string:
        initPerson = string.split('initiator=')[1]
f = open('data.log','r')
lines = f.readlines()
test2Event = 'event:type=test2'
testEvent = 'event:type=test'
for string in lines:
    if testEvent in string:
        initPerson = string.split('initiator=')[1]
        person = initPerson.split(',')[0]
        print(person)

到目前为止,我在使用此代码以及所需的结果时遇到错误。我不明白为什么,因为我使用了这个完全相同的脚本,并使用了不同的字符串来进行拆分,而没有任何问题。

结果

Abe Lincoln
Traceback (most recent call last):
  File "main.py",line 15,in <module>
    initPerson = string.split('initiator=')[1]
IndexError: list index out of range

任何有关如何获取下一行数据的建议,以便我可以将数据合并到db或类似数据库中,以及对为什么出现错误消息的任何帮助都将受到赞赏,因为我没有看看问题出在哪里。

代码和数据可在https://onlinegdb.com/Hyuuj7Mmv进行测试

解决方法

两次读取整个文件绝对是多余的。相反,请在遍历文件时跟踪以前所做的事情。

seen_test = False   # state variable for keeping track of what you have done
init_person = None  # note snake_case variable convention pro headlessCamelCase

with open('data.log','r') as f:
    for lineno,line in enumerate(f,start=1):
        if 'event:type=test,' in line:
            if seen_test:
                raise ValueError(
                    'line %i: type=test without test2: %s' % (
                        lineno,line))
            init_person = line.split('initiator=')[1].split(',')[0]
            seen_test = True
        elif 'event:type=test2' in line:
            if seen_test:
                # ... do whatever you want with init_person
                # maybe something like
                result = line.rstrip('\n').split(',')
                print('Test by %s got results %s' % (init_person,result[1:]))
            else:
                raise ValueError(
                    'line %i: type=test2 without test: %s' % (
                        lineno,line))
            seen_test = False

enumerate只是为了在发生故障时在错误消息中添加有用的行号;如果您确定文件始终格式正确,则可以将其删除。

如果type=test行中不包含initiator=,这仍然会失败,但是我们不知道在这种情况下有什么用处,所以我不会尝试解决。

演示:https://repl.it/repls/OverdueFruitfulComputergames#main.py

,

这应该做您想要的:

import re

f = open('data.log','r')
lines = f.readlines()
results = {}
for line in lines:
    if "Scripting:" in line.strip():
        res = dict(re.findall(r"([^= ]+)=(.+?),",line.strip(),re.DOTALL))
        # if the eventtype ends with `2` and match an existing key in results,update data
        if res['event:type'][-1] == '2' and res['event:type'][:-1] in results:
            results[res['event:type'][:-1]].update(res)
        else:
            results[res['event:type']] = res

print(results)

# {'test': {'event:type': 'test2','initiator': 'Abe Lincoln','place': 'Washinton','t': '25277.04','type': 'comment'}}

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


依赖报错 idea导入项目后依赖报错,解决方案:https://blog.csdn.net/weixin_42420249/article/details/81191861 依赖版本报错:更换其他版本 无法下载依赖可参考:https://blog.csdn.net/weixin_42628809/a
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下 2021-12-03 13:33:33.927 ERROR 7228 [ main] o.s.b.d.LoggingFailureAnalysisReporter : *************************** APPL
错误1:gradle项目控制台输出为乱码 # 解决方案:https://blog.csdn.net/weixin_43501566/article/details/112482302 # 在gradle-wrapper.properties 添加以下内容 org.gradle.jvmargs=-Df
错误还原:在查询的过程中,传入的workType为0时,该条件不起作用 &lt;select id=&quot;xxx&quot;&gt; SELECT di.id, di.name, di.work_type, di.updated... &lt;where&gt; &lt;if test=&qu
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct redisServer’没有名为‘server_cpulist’的成员 redisSetCpuAffinity(server.server_cpulist); ^ server.c: 在函数‘hasActiveC
解决方案1 1、改项目中.idea/workspace.xml配置文件,增加dynamic.classpath参数 2、搜索PropertiesComponent,添加如下 &lt;property name=&quot;dynamic.classpath&quot; value=&quot;tru
删除根组件app.vue中的默认代码后报错:Module Error (from ./node_modules/eslint-loader/index.js): 解决方案:关闭ESlint代码检测,在项目根目录创建vue.config.js,在文件中添加 module.exports = { lin
查看spark默认的python版本 [root@master day27]# pyspark /home/software/spark-2.3.4-bin-hadoop2.7/conf/spark-env.sh: line 2: /usr/local/hadoop/bin/hadoop: No s
使用本地python环境可以成功执行 import pandas as pd import matplotlib.pyplot as plt # 设置字体 plt.rcParams[&#39;font.sans-serif&#39;] = [&#39;SimHei&#39;] # 能正确显示负号 p
错误1:Request method ‘DELETE‘ not supported 错误还原:controller层有一个接口,访问该接口时报错:Request method ‘DELETE‘ not supported 错误原因:没有接收到前端传入的参数,修改为如下 参考 错误2:cannot r
错误1:启动docker镜像时报错:Error response from daemon: driver failed programming external connectivity on endpoint quirky_allen 解决方法:重启docker -&gt; systemctl r
错误1:private field ‘xxx‘ is never assigned 按Altʾnter快捷键,选择第2项 参考:https://blog.csdn.net/shi_hong_fei_hei/article/details/88814070 错误2:启动时报错,不能找到主启动类 #
报错如下,通过源不能下载,最后警告pip需升级版本 Requirement already satisfied: pip in c:\users\ychen\appdata\local\programs\python\python310\lib\site-packages (22.0.4) Coll
错误1:maven打包报错 错误还原:使用maven打包项目时报错如下 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0:resources (default-resources)
错误1:服务调用时报错 服务消费者模块assess通过openFeign调用服务提供者模块hires 如下为服务提供者模块hires的控制层接口 @RestController @RequestMapping(&quot;/hires&quot;) public class FeignControl
错误1:运行项目后报如下错误 解决方案 报错2:Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.1:compile (default-compile) on project sb 解决方案:在pom.
参考 错误原因 过滤器或拦截器在生效时,redisTemplate还没有注入 解决方案:在注入容器时就生效 @Component //项目运行时就注入Spring容器 public class RedisBean { @Resource private RedisTemplate&lt;String
使用vite构建项目报错 C:\Users\ychen\work&gt;npm init @vitejs/app @vitejs/create-app is deprecated, use npm init vite instead C:\Users\ychen\AppData\Local\npm-