将一个文本文件文件夹与一个单元格中的每个内容合并为一个CSV文件

如何解决将一个文本文件文件夹与一个单元格中的每个内容合并为一个CSV文件?

开发过程中遇到将一个文本文件文件夹与一个单元格中的每个内容合并为一个CSV文件的问题如何解决?下面主要结合日常开发的经验,给出你关于将一个文本文件文件夹与一个单元格中的每个内容合并为一个CSV文件的解决方法建议,希望对你解决将一个文本文件文件夹与一个单元格中的每个内容合并为一个CSV文件有所启发或帮助;

问题描述

可以使用 更加紧凑地 。

>>> import os
>>> os.chdir('c:/scratch/folder to process')
>>> from pathlib import Path
>>> with open('big.csv', 'w') as out_file:
...     csv_out = csv.writer(out_file)
...     csv_out.writerow(['FileName', 'Content'])
...     for fileName in Path('.').glob('*.txt'):
...         csv_out.writerow([str(fileName),open(str(fileName.absolute())).read().strip()])

由该glob产生的项目提供对完整路径名和文件名的访问,因此不需要级联。

编辑:我检查了一个文本文件,发现阻塞处理的字符之一看起来像“ fi”,但实际上这两个字符一起作为一个字符。考虑到此csv可能的实际用途,我建议进行以下处理,该处理将忽略诸如此类的奇怪字符。我删除了结尾,因为我怀疑这会使csv处理更加复杂,并且可能是另一个问题的话题。

import csv
from pathlib import Path

with open('big.csv', 'w', encoding='Latin-1') as out_file:
    csv_out = csv.writer(out_file)
    csv_out.writerow(['FileName', 'Content'])
    for fileName in Path('.').glob('*.txt'):
        lines = [ ]
        with open(str(fileName.absolute()),'rb') as one_text:
            for line in one_text.readlines():
                lines.append(line.decode(encoding='Latin-1',errors='ignore').strip())
        csv_out.writerow([str(fileName),' '.join(lines)])

解决方法

我有一个包含数千个.txt文件的文件夹。我想根据以下模型将它们合并到一个大的.csv文件中:

在此处输入图片说明

我发现应该执行此工作的R脚本(https://gist.github.com/benmarwick/9265414),但它显示此错误。

Error in read.table(file = file,header = header,sep = sep,quote = quote,: duplicate 'row.names' are not allowed

我不明白我的错是什么。

没关系,我很确定没有R也可以做到这一点。如果您知道一个非常优雅和简单的方法,将不胜感激(这对像我这样的很多人很有用)

精度:文本文件为法语,而不是ASCII。这是一个示例:https
:
//www.dropbox.com/s/rj4df94hqisod5z/Texts.zip?dl=0

喜欢与人分享编程技术与工作经验,欢迎加入编程之家官方交流群!

猜你在找的编程问答相关文章

怎样才能让 Git“忘记”一个被跟踪但现在在 .gitignore 中的文件?
Python 中的metaclasses是什么?
如何在 Linux 上查找包含特定文本的所有文件?
如何从异步调用返回响应
如何在一个表达式中合并两个字典(取字典的并集)?
HTTP 中的 POST 和 PUT 有什么区别?
使用 Git 将最近的提交移动到新分支
在 JavaScript 比较中应该使用哪个等于运算符 (== vs ===)?
微信公众号搜索 “ 程序精选 ” ,选择关注!
微信公众号搜 "程序精选"关注