数据库 – 小文件大容量存储的策略

通过自动修剪超过20分钟的文件,数百万个小文件(平均约50 KB)的大容量存储的优秀策略是什么?我需要从Web服务器编写和访问它们.

我目前正在使用ext4,并且在删除期间(在cron中安排)硬盘使用率高达100%,[flush-8:0]显示为创建负载的进程.此负载会干扰服务器上的其他应用程序.如果没有删除,则最大HDD利用率为0-5%.嵌套和非嵌套目录结构的情况相同.最糟糕的是,峰值负载期间的质量去除似乎比插入速率慢,因此需要删除的文件数量越来越大.

我尝试过更改调度程序(截止日期,cfq,noop),但它没有帮助.我也试过设置ionice来删除脚本,但它也没有帮助.

我已经尝试过使用MongoDB 2.4.3的GridFS,它表现很好,但在大量删除旧文件时​​很糟糕.我已经尝试运行MongoDB关闭日志(nojournal)并且没有写入确认删除和插入(w = 0)并且它没有帮助.只有在没有删除的情况下,它才能快速顺畅地工作.

我还尝试在InnoDB表中的BLOB列中的MySQL 5.5中存储数据,InnoDB引擎设置为使用innodb_buffer_pool = 2GB,innodb_log_file_size = 1GB,innodb_flush_log_on_trx_commit = 2,但性能更差,HDD负载总是在80% – 100%(预计,但我不得不尝试).表仅使用BLOB列,DATETIME列和CHAR(32)latin1_bin UUID,其中包含UUID和DATETIME列的索引,因此没有优化空间,并且所有查询都使用索引.

我已经研究了pdflush设置(在大规模删除过程中创建负载的Linux刷新过程),但更改值对任何事情没有帮助,所以我恢复为默认值.

我运行自动修剪脚本的频率并不重要,每1秒,每1分钟,每5分钟,每30分钟一次,无论哪种方式都严重扰乱服务器.

我试图存储inode值,并在删除时,先按顺序删除旧的文件,然后用它们的inode编号排序,但它没有帮助.

使用CentOS 6. HDD是SSD RAID 1.

对于解决自动修剪性能问题的任务,什么是好的和合理的解决方案?

最佳答案
删除是一种性能麻烦,因为数据和元数据都需要在磁盘上销毁.

他们真的需要单独的文件吗?是否真的需要删除旧文件,或者如果它们被覆盖就可以了吗?

如果第二个问题的答案是“否”,请尝试以下方法:

>保留按年龄粗略排序的文件列表.也许按文件大小来缩小它.
>如果要写入新文件,请找到一个旧文件,该文件最好大于您要替换它的文件.而不是吹走旧文件,将其截断()到适当的长度,然后覆盖其内容.确保更新旧文件列表.
>清理偶尔没有明确替换的旧东西.
>对这些文件建立索引可能是有利的.尝试使用一个完整的符号链接到真实文件系统的tmpfs.

通过将文件分块到可管理大小的子目录,您可能会或可能不会在此方案中获得性能优势.

如果你可以在同一个文件中存在多个内容:

>将相似大小的文件保存在一起,将每个文件作为偏移量存储到类似大小的文件数组中.如果每个文件都是32k或64k,请保留一个满32k块的文件和一个满64k块的文件.如果文件具有任意大小,则向上舍入到下一个2的幂.
>您可以通过跟踪每个文件的陈旧程度来执行延迟删除操作.如果您正在尝试编写并且某些东西过时,请覆盖它而不是附加到文件的末尾.

另一个想法是:通过截断()以inode顺序将所有文件截断为长度0然后取消链接()来获得性能优势吗?无知阻止我知道这是否真的有用,但似乎它会将数据归零并且元数据类似地编写在一起.

还有一个想法:XFS的写入排序模型比ext4弱,data = ordered.在XFS上它足够快吗?

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


文章浏览阅读1.8k次,点赞63次,收藏54次。Linux下的目录权限!!!粘滞位!!!超详解!!!
文章浏览阅读1.6k次,点赞44次,收藏38次。关于Qt的安装、Windows、Linux、MacBook_mack book 安装qt
本文介绍了使用shell脚本编写一个 Hello
文章浏览阅读1.5k次,点赞37次,收藏43次。【Linux】初识Linux——了解操作系统的发展历史以及初次体验Linux编程环境
文章浏览阅读3k次,点赞34次,收藏156次。Linux超详细笔记,个人学习时很认真的记录的,觉得好的麻烦点个赞。
文章浏览阅读6.8k次,点赞109次,收藏114次。【Linux】 OpenSSH_9.3p1 升级到 OpenSSH_9.5p1(亲测无问题,建议收藏)_openssh_9.5p1
文章浏览阅读3.5k次,点赞93次,收藏78次。初识Linux中的线程,理解线程的各种概念,理解进程地址空间中的页表转换,介绍pthread线程库并理解线程库!
文章浏览阅读863次。出现此问题为Linux文件权限问题,解决方案为回到引擎目录执行命令。输入用户密码后运行./UnrealEditor。_increasing per-process limit of core file size to infinity.
文章浏览阅读2.9k次。使用文本编辑器:打开CSV文件,并使用文本编辑器(如Notepad++、Sublime Text、Visual Studio Code等)来查看文件的字符编码格式。通常在编辑器的底部状态栏或设置中可以找到当前编码的显示。请注意,上述方法并非绝对准确,特别是当文件没有明确的编码标识时。因此,如果你发现CSV文件在不同的工具或方法中显示不同的编码格式,可能需要进行进一步的分析和判断,或者尝试使用不同的编码转换方法。该命令将输出文件的MIME类型和编码信息。使用命令行工具:在命令行中,你可以使用。_shell读取csv文件逐行处理
本文介绍了如何在Linux系统中升级gcc版本,以便更好地支持C++11及以上版本的新特性。通过升级gcc,可以提升编译器的功能和性能,获得更好的开发体验。详细的步骤和方法请参考原文链接。
文章浏览阅读4.4k次,点赞6次,收藏19次。Mosquitto是一个开源的MQTT消息代理服务器。MQTT是一个轻量级的、基于发布/订阅模式的消息传输协议。 mosquitto的安装使用比较简单,可以方便的来进行一些测试。_linux mosquitto
文章浏览阅读7.2k次,点赞2次,收藏12次。Linux中,用于根目录下有一个.ssh目录,保存了ssh相关的key和一些记录文件。_~/.ssh/
文章浏览阅读4.5k次,点赞5次,收藏18次。首先需要安装 snmp ,使用下面的命令进行安装安装完毕之后,使用下面的命令查看是否安装成功当命令行显示如图即为安装成功。_snmp工具
文章浏览阅读3.5k次,点赞7次,收藏24次。本地部署和使用llama.cpp进行量化Llama2,linux和Windows平台方案,支持CPU和GPU多版本。_llama cpp gpu
文章浏览阅读1.4k次,点赞46次,收藏44次。在vim中,最为常见的有三种模式,分别是:命令模式(command mode)、插 入模式(Insert mode)和底行模式(last line mode)文件保存或退出,也可以进行文件替换,找字符串,列出行号等操作。在命令模式下,shift+: 即可进入该模 式。在进入vim后,使用 i 进入插入模式,插入模式就是vim的编辑模式,可以在vim中进行内容的编辑和修改。vim的核心模式,使用vim进入文件编辑时的最初模式,在该模式中只能移动光标和使用命令对文件内容进行编辑。
Linux常用命令大全,包括目录操作命令和文件操作命令,以及查看登录用户命令和文件内容查看命令等。
文章浏览阅读1.7k次,点赞57次,收藏50次。Yearning 简单, 高效的MYSQL 审计平台 一款MYSQL SQL语句/查询审计工具,为DBA与开发人员使用.本地部署,注重隐私,简单高效的MYSQL审计平台。下面介绍Linux 简单部署Yearning 并结合cpolar 内网穿透工具实现远程访问,破除访问限制,提高工作效率!!
文章浏览阅读1.9w次,点赞7次,收藏18次。Microsoft Edge是一款现代化的浏览器,它拥有众多功能和强大的性能,为用户带来更加流畅的浏览体验。Edge最近推出了分屏功能,支持一个窗口同时显示两个选项卡,这可以大大提高生产力和多任务处理能力。欢迎大家使用分屏及其他新功能后分享自己的使用心得与建议。首先,使用Microsoft Edge的分屏功能确实能够提高生产力,尤其是在需要同时浏览两个不同网页的情况下。分屏功能使得在一个窗口中同时显示两个选项卡,用户可以在两个网页之间快速切换,而无需打开新的窗口或使用多个浏览器窗口。_edge linux
文章浏览阅读1.8k次,点赞83次,收藏71次。C语言实现倒计时和进度条并进行演示。_linux不换行输出倒计时
文章浏览阅读1.5k次,点赞28次,收藏25次。基于嘉立创泰山派开发板,本机使用VMware+Unbuntu,编译泰山派的Linux SDK。详细教程,0基础小白可操作!内涵大量基础操作和linux基本知识。_立创泰山派sdk编译