在Python中导入类似Excel的文本:自动解析固定宽度的列

如何解决在Python中导入类似Excel的文本:自动解析固定宽度的列

|| 在Excel中,如果您导入空白描述的文本,其中各列的排列不完全,并且数据可能会丢失,例如
  pH             pKa/Em  n(slope) 1000*chi2      vdw0  
CYS-I0014_        >14.0                          0.00  
LYS+I0013_       11.827     0.781     0.440      0.18
您可以选择将其视为固定宽度的列,Excel可以自动计算出列的宽度,通常效果很好。 Python中是否有一个库可以以类似的自动方式分解格式不正确的固定宽度文本? 编辑: 这就是固定宽度文本导入在Excel中的外观。在第一步中,您只需选中\'fixed-width \'单选按钮,然后在此处的第二步中,Excel已自动添加到分行符中。唯一无法正确执行此操作的情况是,每行的每个换行符中至少没有一个空格字符重叠。     

解决方法

        首先,Excel(2003,在家)并不十分聪明。如果您的列1000 * chi2包含空格,例如1000 * chi2,excel会猜错。 普通情况:如果您的数据最初是用制表符(而不是空格)分隔的,并且使用多个制表符来表示空列,那么至少在TCL中,按制表符内容拆分每一行很容易,我想这很简单在Python中也是如此。 但是我猜你的问题是他们只使用了空格字符。 我看到解决此问题的最大线索是将您的文本粘贴到记事本中,然后选择固定大小的字体。一切都整齐地排列,您可以将每行中的字符数用作\“ length \”的度量。 因此,如果您可以依靠输入的此功能,则可以使用“筛子”方法来自动识别分行符的位置。当您在第一遍中仔细检查行时,请注意沿行被非空白占据的“位置”,如果列表曾经被非空白占据,则从列表中删除该位置。使用时,您将快速到达一组永远不会被非空白占据的位置。这些就是您的列分隔符。在您的示例中,您的“筛子”最终将处于10-16、23-24.32、42-47的位置,这些位置永远不会被非空格占用(假设我可以计数)。 因此,该集合的补充是您的数据必须位于的一组列位置。 因此,对于每行,非空白的每个块都将恰好适合上述确定的一组位置(即补集)中的一列。 我从来没有用Python编写过代码,因此附上了一个TCL脚本,该脚本将使用筛子方法识别文本中的分行符,并发出一个新的文本文件,其中的空格字符完全由单个制表符代替-即。 10-16替换为一个标签,23-24替换为另一个,依此类推。 生成的文件用制表符分隔,即小写。我承认我只对您的小案例数据进行过尝试,将其复制到名为ex.txt的文本文件中;输出到ex_.txt。我怀疑如果标题包含空格也可能会有问题。 希望这可以帮助!
set fh [open ex.txt]
set contents [read $fh];#ok for small-to-medium files.
close $fh

#first pass
set occupied {}
set lines [split $contents \\n];#split contents at line breaks.
foreach line $lines {
  set chrs [split $line {}];#split each line into chars.
  set pos 0
  foreach chr $chrs {
    if {$chr ne \" \"} {
      lappend occupied $pos
    }
    incr pos
  }
}

#drop out with long list of occupied \"positions\": sort to create
#our sieve.
set datacols [lsort -unique -integer $occupied]
puts \"occupied: $datacols\"

#identify column boundaries.
set colset {}
set start [lindex $datacols 0];#first occupied pos might be > 0??
foreach index $datacols {
  if {$start < $index} {
    set end $index;incr end -1
    lappend colset [list $start $end]
    puts \"col break starts at $start,ends at $end\";#some instro!
    set start $index
  }
  incr start
}

#Now convert input file to trivial case output file,replacing
#sieved space chars with tab characters.
set tesloc [lreverse $colset];#reverse the column list!
set fh [open ex_.txt w]
foreach line $lines {
  foreach ele $tesloc {
    set line [string replace $line [lindex $ele 0] [lindex $ele 1] \"\\t\" ]
  }
  puts \"newline is $line\"
  puts $fh $line
}
close $fh
    

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


依赖报错 idea导入项目后依赖报错,解决方案:https://blog.csdn.net/weixin_42420249/article/details/81191861 依赖版本报错:更换其他版本 无法下载依赖可参考:https://blog.csdn.net/weixin_42628809/a
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下 2021-12-03 13:33:33.927 ERROR 7228 [ main] o.s.b.d.LoggingFailureAnalysisReporter : *************************** APPL
错误1:gradle项目控制台输出为乱码 # 解决方案:https://blog.csdn.net/weixin_43501566/article/details/112482302 # 在gradle-wrapper.properties 添加以下内容 org.gradle.jvmargs=-Df
错误还原:在查询的过程中,传入的workType为0时,该条件不起作用 &lt;select id=&quot;xxx&quot;&gt; SELECT di.id, di.name, di.work_type, di.updated... &lt;where&gt; &lt;if test=&qu
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct redisServer’没有名为‘server_cpulist’的成员 redisSetCpuAffinity(server.server_cpulist); ^ server.c: 在函数‘hasActiveC
解决方案1 1、改项目中.idea/workspace.xml配置文件,增加dynamic.classpath参数 2、搜索PropertiesComponent,添加如下 &lt;property name=&quot;dynamic.classpath&quot; value=&quot;tru
删除根组件app.vue中的默认代码后报错:Module Error (from ./node_modules/eslint-loader/index.js): 解决方案:关闭ESlint代码检测,在项目根目录创建vue.config.js,在文件中添加 module.exports = { lin
查看spark默认的python版本 [root@master day27]# pyspark /home/software/spark-2.3.4-bin-hadoop2.7/conf/spark-env.sh: line 2: /usr/local/hadoop/bin/hadoop: No s
使用本地python环境可以成功执行 import pandas as pd import matplotlib.pyplot as plt # 设置字体 plt.rcParams[&#39;font.sans-serif&#39;] = [&#39;SimHei&#39;] # 能正确显示负号 p
错误1:Request method ‘DELETE‘ not supported 错误还原:controller层有一个接口,访问该接口时报错:Request method ‘DELETE‘ not supported 错误原因:没有接收到前端传入的参数,修改为如下 参考 错误2:cannot r
错误1:启动docker镜像时报错:Error response from daemon: driver failed programming external connectivity on endpoint quirky_allen 解决方法:重启docker -&gt; systemctl r
错误1:private field ‘xxx‘ is never assigned 按Altʾnter快捷键,选择第2项 参考:https://blog.csdn.net/shi_hong_fei_hei/article/details/88814070 错误2:启动时报错,不能找到主启动类 #
报错如下,通过源不能下载,最后警告pip需升级版本 Requirement already satisfied: pip in c:\users\ychen\appdata\local\programs\python\python310\lib\site-packages (22.0.4) Coll
错误1:maven打包报错 错误还原:使用maven打包项目时报错如下 [ERROR] Failed to execute goal org.apache.maven.plugins:maven-resources-plugin:3.2.0:resources (default-resources)
错误1:服务调用时报错 服务消费者模块assess通过openFeign调用服务提供者模块hires 如下为服务提供者模块hires的控制层接口 @RestController @RequestMapping(&quot;/hires&quot;) public class FeignControl
错误1:运行项目后报如下错误 解决方案 报错2:Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.8.1:compile (default-compile) on project sb 解决方案:在pom.
参考 错误原因 过滤器或拦截器在生效时,redisTemplate还没有注入 解决方案:在注入容器时就生效 @Component //项目运行时就注入Spring容器 public class RedisBean { @Resource private RedisTemplate&lt;String
使用vite构建项目报错 C:\Users\ychen\work&gt;npm init @vitejs/app @vitejs/create-app is deprecated, use npm init vite instead C:\Users\ychen\AppData\Local\npm-