如何解决使用for循环向表中添加新行:python
我试图在DNA序列中搜索两个正则表达式后创建一个.bed文件。理想情况下,我想生成一个制表符分隔的文件,其中包含序列说明,第一个正则表达式的开始位置和第二个正则表达式的结束位置。我知道正则表达式部分有效,它只是创建我正在努力的\ t分隔文件。
我希望我可以打开/创建一个文件,并为包含该信息的for loop
的每次迭代简单地打印一行,就像这样:
with open("Mimp_hits.bed","a+") as file_object:
for line in file_object:
print(f'{sequence.description}\t{h.start()}\t{h_rc.end()}')
file_object.close()
但这似乎不起作用(创建空文件)。我也尝试过使用file_object.write
,但同样会创建一个空文件。
这是我拥有的所有代码,包括搜索正则表达式:
import re,sys
from Bio import SeqIO
from Bio.SeqRecord import SeqRecord
infile = sys.argv[1]
for sequence in SeqIO.parse(infile,"fasta"):
hit = re.finditer(r"CAGTGGG..GCAA[TA]AA",str(sequence.seq))
mimp_length = 400
for h in hit:
h_start = h.start()
hit_rc = re.finditer(r"TT[TA]TTGC..CCCACTG",str(sequence.seq))
for h_rc in hit_rc:
h_rc_end = h_rc.end()
length = h_rc_end - h_start
if length > 0:
if length < mimp_length:
with open("Mimp_hits.bed","a+") as file_object:
for line in file_object:
print(sequence.description,h.start(),h_rc.end())
file_object.close()
这是所需的输出:
Focub_II5_mimp_1__contig_1.16(656599:656809) 2 208
Focub_II5_mimp_2__contig_1.47(41315:41540) 2 223
Focub_II5_mimp_3__contig_1.65(13656:13882) 2 224
Focub_II5_mimp_4__contig_1.70(61591:61809) 2 216
这是示例输入:
>Focub_II5_mimp_1__contig_1.16(656599:656809)
TACAGTGGGATGCAAAAAGTATTCGCAGGTGTGTAGAGAGATTTGTTGCTCGGAAGCTAGTTAGGTGTAGCTTGTCAGGTTCTCAGTACCCTATATTACACCGAGATCAGCGGGATAATCTAGTCTCGAGTACATAAGCTAAGTTAAGCTACTAACTAGCGCAGCTGACACAACTTACACACCTGCAAATACTTTTTGCATCCCACTGTA
>Focub_II5_mimp_2__contig_1.47(41315:41540)
TACAGTGGGAGGCAATAAGTATGAATACCGGGCGTGTATTGTTTTCTGCCGCTAGCCCATTTTAACAGCTAGAGTGTGTATATTAACCTCACACATAGCTATCTCTTATACTAATTGGTTAGGGAAAACCTCTAACCAGGATTAGGAGTCAACATAGCTTGTTTTAGGCTAAGAGGTGTGTGTCAGTACACCAAAGGGTATTCATACTTATTGCCCCCCACTGTA
>Focub_II5_mimp_3__contig_1.65(13656:13882)
TACAGTGGGAGGCAATAAGTATGAATACCGGGCGTGTATTGTTTTTCTGCCGCTAGCCTATTTTAATAGTTAGAGTGTGCATATTAACCTCACACATAGCTATCTTATATACTAATCGGTTAGGGAAAACCTCTAACCAGGATTAGGAGTCAACATAGCTTCTTTTAGGCTAAGAGGTGTGTGTCAGTACACCAAAGGGTATTCATACTTATTGCCCCCCACTGTA
>Focub_II5_mimp_4__contig_1.70(61591:61809)
TACAGTGGGATGCAATAAGTTTGAATGCAGGCTGAAGTACCAGCTGTTGTAATCTAGCTCCTGTATACAACGCTTTAGCTTGATAAAGTAAGCGCTAAGCTGTATCAGGCAAAAGGCTATCCCGATTGGGGTATTGCTACGTAGGGAACTGGTCTTACCTTGGTTAGTCAGTGAATGTGTACTTGAGTTTGGATTCAAACTTATTGCATCCCACTGTA
有人可以帮忙吗?
谢谢:)
解决方法
您正在尝试以“ a +”模式打开文件,并在文件中循环浏览(因为这样做时文件位于末尾,因此找不到任何内容)。无论如何,如果这只是一个输出文件,那么您将以“ a”模式打开它以附加到该文件。
可能您只想打开一次文件进行追加,并且在with
语句中,当您想将字符串实际追加到文件时,使用file_object.write(...)
进行主循环。请注意,使用此file_object.close()
构造时不需要with
。
with open("Mimp_hits.bed","a") as file_object:
for sequence in SeqIO.parse(infile,"fasta"):
# ... etc per original code ...
if length < mimp_length:
file_object.write("{}\t{}\t{}\n".format(
sequence.description,h.start(),h_rc.end()))
,
要将行写到文件中,您将执行以下操作:
with open("file.txt","a") as f:
print("new line",file=f)
,如果您希望它用制表符分隔,还可以添加sep="\t"
,这就是python 3做成print
a function的原因,因此您可以使用sep
,end
,{{1 }}和file
关键字参数。 :)
打开要附加的文件意味着文件指针从文件的末尾开始,这意味着向其写入不会覆盖任何数据(将附加到文件末尾的数据)并遍历该文件(或以其他方式从中读取)它)什么也不会提供,就像您已经到达文件末尾一样。
因此,无需遍历文件的行,而只需向其写一行:
flush
您还可以考虑仅在循环开始时打开文件,因为打开一次并多次写入比打开多次更有效,并且with块会自动关闭文件,因此无需明确地执行该操作。
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。