SQLite在Python上插入数百万行的性能

SOLVED: CL.’s comment solved it – increasing the cache size works. Apparently primary keys are very memory heavy during inserts on large tables.

我正在尝试使用Python脚本来解析Wikipedia档案. (是的,我知道.)当然:

>维基百科XML:45.95 GB
>可用内存:16 GB

这样就无法将文件加载到内存中,进入虚拟内存的情况也不会好得多.因此,为了处理数据,我决定将必要的信息解析为SQLite数据库.对于XML解析,我使用了ElementTree库,它执行得非常好.我确认只运行XML解析(只是注释掉数据库调用)它线性运行,并且在遍历文件时没有减速.

问题在于尝试将数百万行插入SQLite数据库(每个维基百科文章一个).我用于测试的表的简单版本如下:

CREATE TABLE articles(
    id INTEGER NOT NULL PRIMARY KEY,
    title TEXT NOT NULL UNIQUE ON CONFLICT IGNORE);

所以我在这个初始阶段只有id和一个文本字段.当我开始通过以下方式添加行:

INSERT OR IGNORE INTO articles(title) VALUES(?1);

它起初表现良好.但是在大约800万行中,它开始急剧减速,达到一个数量级或更多.

当然需要一些细节.我正在使用cur.executemany(),在insert语句之前创建了一个游标.每次调用此函数都有一批约100,000行.在插入所有百万行之前,我不会调用db.commit().根据我读过的内容,只要只有INSERT语句,executemany()就不应该在db.commit()之前提交事务.

正在读取的源XML和正在写入的数据库位于两个独立的磁盘上,我也尝试在内存中创建数据库,但无论如何我都看到了减速.我还尝试了isolation_level = None选项,在开头和结尾自己添加BEGIN TRANSACTION和COMMIT TRANSACTION调用(所以整个解析序列是一个事务),但它仍然无济于事.

一些other questions on this site表明索引是问题所在.我桌子上没有任何索引.我确实尝试删除UNIQUE约束,只是将其限制为id INTEGER PRIMARY KEY和标题TEXT NOT NULL,但也没有效果.

在SQLite中为大型数据集执行这些类型的插入的最佳方法是什么?当然,这个简单的查询只是众多中的第一个;还有其他查询将更复杂,涉及外键(此表中的文章的ID)以及嵌入了选择的insert语句(在插入期间从articles表中选择id).这些问题肯定会出现同样的问题,但会大幅加剧 – 文章表的行数少于1500万行,其他表可能会有超过10亿行.所以这些性能问题更令人担忧.

解决方法:

插入时发生的一个“不可见”事情是更新表的索引(并检查索引相关的约束,如UNIQUE).由于您无论如何都忽略了UNIQUE违规,您可能会发现在加载表时禁用表上的索引很有用,如果确实需要它们,请在加载完成后构建索引一次.

但是请注意,SQLite对小数据的闪电速度来自某些隐含的假设,这些假设在处理大数据时会越来越严重.它可能不适合您当前硬件上的当前问题.

原文地址:https://codeday.me/bug/20190629/1324466.html

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


SQLite架构简单,又有Json计算能力,有时会承担Json文件/RESTful的计算功能,但SQLite不能直接解析Json文件/RESTful,需要用Java代码硬写,或借助第三方类库,最后再拼成insert语句插入数据表,代码非常繁琐,这里就不展示了。参考前面的代码可知,入库的过程比较麻烦,不能只用SQL,还要借助Java或命令行。SPL是现代的数据计算语言,属于简化的面向对象的语言风格,有对象的概念,可以用点号访问属性并进行多步骤计算,但没有继承重载这些内容,不算彻底的面向对象语言。...
使用Python操作内置数据库SQLite以及MySQL数据库。
破解微信数据库密码,用python导出微信聊天记录
(Unity)SQLite 是一个软件库,实现了自给自足的、无服务器的、零配置的、事务性的 SQL 数据库引擎。SQLite 是在世界上最广泛部署的 SQL 数据库引擎。SQLite 源代码不受版权限制。本教程将告诉您如何使用 SQLite 编程,并让你迅速上手。.................................
安卓开发,利用SQLite实现登陆注册功能
相比大多数数据库而言,具有等优势,广泛应用于、等领域。
有时候,一个项目只有一个数据库,比如只有SQLite,或者MySQL数据库,那么我们只需要使用一个固定的数据库即可。但是一个项目如果写好了,有多个用户使用,但是多个用户使用不同的数据库,这个时候,我们就需要把软件设计成可以连接多个数据库的模式,用什么数据库,就配置什么数据库即可。4.Users实体类,这个实体类要和数据库一样的,形成一一对应的关系。11.Sqlite数据库,需要在代码里面创建数据库,建立表,再建立数据。8.我们开启MySQL数据库,然后进行调试,看程序的结果。2.安装SqlSugar。
基于Android的背单词软件,功能强大完整。
SQLite,是一款轻型的数据库,是遵守ACID的关系型数据库管理系统。说白了就是使用起来轻便简单,
Android的简单购物车案例
SQLite,是一款轻型的数据库,是遵守ACID的关系型数据库管理系统,它包含在一个相对小的C库中。它是D.RichardHipp建立的公有领域项目。它的设计目标是嵌入式的,而且已经在很多嵌入式产品中使用了它,它占用资源非常的低,在嵌入式设备中,可能只需要几百K的内存就够了。它能够支持Windows/Linux/Unix等等主流的操作系统,同时能够跟很多程序语言相结合,比如 Tcl、C#、PHP、Java等,还有ODBC接口,同样比起Mysql、PostgreSQL这两款开源的世界著名数据库...
Qt设计较为美观好看的登录注册界面(包含SQLite数据库以及TCP通信的应用)
SQLite是用C语言开发的跨平台小型数据库,可嵌入其他开发语言,也可在单机执行。SPL是用Java开发的跨平台的数据计算语言,可嵌入Java,可在单机执行,可以数据计算服务的形式被远程调用。两者的代码都是解释执行的。...
新建库.openDATA_BASE;新建表createtableLIST_NAME(DATA);语法:NAME关键字...<用逗号分割>删除表droptableNAME;查看表.schema查看表信息新建数据insertintoLIST_NAMEvalues();语法:CLASS,PARAMETER...,CLASS是类别,PARAMETER是参数<用逗号分割新建的
importsqlite3classDemo01:def__init__(self):self.conn=sqlite3.connect("sql_demo_001.db")self.cursor1=self.conn.cursor()self.cursor1.execute("select*fromtable_001wherename=?andid=?",('ssss&#0
 在客户端配置文件<configuration>节点下,添加:<connectionStrings>      <add name="localdb" connectionString="Data Source=config/local.db;Version=3;UseUTF16Encoding=True;" providerName="System.Data.SQLite.SQLiteFactory"/&g
提到锁就不得不说到死锁的问题,而SQLite也可能出现死锁。下面举个例子:连接1:BEGIN(UNLOCKED)连接1:SELECT...(SHARED)连接1:INSERT...(RESERVED)连接2:BEGIN(UNLOCKED)连接2:SELECT...(SHARED)连接1:COMMIT(PENDING,尝试获取EXCLUSIVE锁,但还有SHARED锁未释放,返回SQLITE_BUSY)连接2:INSERT...
SQLite是一种嵌入式数据库,它的数据库就是一个文件。由于SQLite本身是C写的,而且体积很小,所以,经常被集成到各种应用程序中,甚至在iOS和Android的App中都可以集成。Python就内置了SQLite3,所以,在Python中使用SQLite,不需要安装任何东西,直接使用。在使用SQLite前,我们先要搞清楚几个概念:表
设计思想————首先要确定有几个页面、和每个页面的大致布局由于是入门,我也是学习了不是很长的时间,所以项目比较low。。。。第一个页面,也就是打开APP的首页面:今天这个博客,先实现添加功能!:首先对主界面进行布局:其中activity_main.xml的代码为<?xmlversion="1.0"encoding="