Python 写数据库菜鸟教程

对python这个高级语言感兴趣的小伙伴,下面一起跟随编程之家 jb51.cc的小编两巴掌来看看吧!

本文介绍的是以为中国的IT资深人士写的一个简单的数据库,没有我们使用的数据库那么强大,但是值得大家借鉴。可以用在特定环境中,更加灵活方便。

数据库的名字叫WawaDB,是用python实现的。由此可见python是灰常强大啊!

简介

记录日志的需求一般是这样的:

只追加,不修改,写入按时间顺序写入;

大量写,少量读,查询一般查询一个时间段的数据;

MongoDB的固定集合很好的满足了这个需求,但是MongoDB占内存比较大,有点儿火穿蚊子,小题大做的感觉。

WawaDB的思路是每写入1000条日志,在一个索引文件里记录下当前的时间和日志文件的偏移量。

然后按时间询日志时,先把索引加载到内存中,用二分法查出时间点的偏移量,再打开日志文件seek到指定位置,这样就能很快定位用户需要的数据并读取,而不需要遍历整个日志文件。

性能

Core 2 P8400,2.26GHZ,2G内存,32 bit win7

写入测试:

模拟1分钟写入10000条数据,共写入5个小时的数据, 插入300万条数据,每条数据54个字符,用时2分51秒

读取测试:读取指定时间段内包含某个子串的日志

数据范围 遍历数据量 结果数 用时(秒)

5小时 300万 604 6.6

2小时 120万 225 2.7

1小时 60万 96 1.3

30分钟 30万 44 0.6

索引

只对日志记录的时间做索引, 简介里大概说了下索引的实现,二分查找肯定没B Tree效率高,但一般情况下也差不了一个数量级,而且实现特别简单。

因为是稀疏索引,并不是每条日志都有索引记录它的偏移量,所以读取数据时要往前多读一些数据,防止漏读,等读到真正所需的数据时再真正给用户返回数据。

如下图,比如用户要读取25到43的日志,用二分法找25,找到的是30所在的点,

索引:0 10 20 30 40 50 日志:|.........|.........|.........|.........|.........|>>>a = [0,10,20,30,40,50]>>>bisect.bisect_left(a,35)>>>3>>>a[3]>>>30>>>bisect.bisect_left(a,43)>>>5>>>a[5]>>>50

所以我们要往前倒一些,从20(30的前一个刻度)开始读取日志,21,22,23,24读取后因为比25小,所以扔掉,读到25,26,27,...后返回给用户

读取到40(50的前一个刻度)后就要判断当前数据是否大于43了,如果大于43(返回全开区间的数据),就要停止读了。

整体下来我们只操作了大文件的很少一部分就得到了用户想要的数据。

缓冲区

为了减少写入日志时大量的磁盘写,索引在append日志时,把buffer设置成了10k,系统默认应该是4k。

同理,为了提高读取日志的效率,读取的buffer也设置了10k,也需要根据你日志的大小做适当调整。

索引的读写设置成了行buffer,每满一行都要flush到磁盘上,防止读到不完整的索引行(其实实践证明,设置了行buffer,还是能读到半拉的行)。

查询

啥?要支持SQL,别闹了,100行代码怎么支持SQL呀。

现在查询是直接传入一个lambada表达式,系统遍历指定时间范围内的数据行时,满足用户的lambada条件才会返回给用户。

当然这样会多读取很多用户不需要的数据,而且每行都要进行lambda表达式的运算,不过没办法,简单就是美呀。

以前我是把一个需要查询的条件和日志时间,日志文件偏移量都记录在索引里,这样从索引里查找出符合条件的偏移量,然后每条数据都如日志文件里seek一次,read一次。这样好处只有一个,就是读取的数据量少了,但缺点有两个:

索引文件特别大,不方便加载到内存中

每次读取都要先seek,貌似缓冲区用不上,特别慢,比连续读一个段的数据,并用lambda过滤慢四五倍

写入

前面说过了,只append,不修改数据,而且每行日志最前面是时间戳。

多线程

查询数据,可以多线程同时查询,每次查询都会打开一个新的日志文件的描述符,所以并行的多个读取不会打架。

写入的话,虽然只是append操作,但不确认多线程对文件进行append操作是否安全,所以建议用一个队列,一个专用线程进行写入。

没有任何锁。

排序

默认查询出来的数据是按时间正序排列,如需其它排序,可取到内存后用python的sorted函数排序,想怎么排就怎么排。

100多行的数据库代码

# @param 教你用100多行写一个数据库(附源码)
# @author 编程之家 jb51.cc|www.jb51.cc 

# -*- coding:utf-8 -*-
import os
import time
import bisect
import itertools
from datetime import datetime
import logging
 
default_data_dir = './data/'
default_write_buffer_size = 1024*10
default_read_buffer_size = 1024*10
default_index_interval = 1000
 
def ensure_data_dir():
    if not os.path.exists(default_data_dir):
        os.makedirs(default_data_dir)
 
def init():
    ensure_data_dir()
 
class WawaIndex:
    def __init__(self,index_name):
        self.fp_index = open(os.path.join(default_data_dir,index_name + '.index'),'a+',1)
        self.indexes,self.offsets,self.index_count = [],[],0
        self.__load_index()
 
    def __update_index(self,key,offset):
        self.indexes.append(key)
        self.offsets.append(offset)
 
    def __load_index(self):
        self.fp_index.seek(0)
        for line in self.fp_index:
            try:
                key,offset  = line.split()
                self.__update_index(key,offset)
            except ValueError: # 索引如果没有flush的话,可能读到有半行的数据
                pass
 
    def append_index(self,offset):
        self.index_count += 1
        if self.index_count % default_index_interval == 0:
            self.__update_index(key,offset)
            self.fp_index.write('%s %s %s' % (key,offset,os.linesep))
 
    def get_offsets(self,begin_key,end_key):
        left = bisect.bisect_left(self.indexes,str(begin_key))
        right = bisect.bisect_left(self.indexes,str(end_key))
        left,right = left - 1,right - 1
        if left < 0: left = 0
        if right < 0: right = 0
        if right > len(self.indexes) - 1: right = len(self.indexes) - 1
        logging.debug('get_index_range:%s %s %s %s %s %s',self.indexes[0],self.indexes[-1],end_key,left,right)
        return self.offsets[left],self.offsets[right] 
 
 
class WawaDB:
    def __init__(self,db_name):
        self.db_name = db_name
        self.fp_data_for_append = open(os.path.join(default_data_dir,db_name + '.db'),'a',default_write_buffer_size)
        self.index = WawaIndex(db_name)
 
    def __get_data_by_offsets(self,begin_offset,end_offset):
        fp_data = open(os.path.join(default_data_dir,self.db_name + '.db'),'r',default_read_buffer_size)
        fp_data.seek(int(begin_offset))
         
        line = fp_data.readline()
        find_real_begin_offset = False
        will_read_len,read_len = int(end_offset) - int(begin_offset),0
        while line:
            read_len += len(line)
            if (not find_real_begin_offset) and  (line < str(begin_key)): 
                line = fp_data.readline()
                continue
            find_real_begin_offset = True
            if (read_len >= will_read_len) and (line > str(end_key)): break
            yield line.rstrip('\r\n')
            line = fp_data.readline()
 
    def append_data(self,data,record_time=datetime.now()):
        def check_args():
            if not data:
                raise ValueError('data is null') 
            if not isinstance(data,basestring):
                raise ValueError('data is not string') 
            if data.find('\r') != -1 or data.find('\n') != -1:
                raise ValueError('data contains linesep') 
 
        check_args()
         
        record_time = time.mktime(record_time.timetuple()) 
        data = '%s %s %s' % (record_time,os.linesep)
        offset = self.fp_data_for_append.tell()
        self.fp_data_for_append.write(data)
        self.index.append_index(record_time,offset)
 
    def get_data(self,begin_time,end_time,data_filter=None):
        def check_args():
            if not (isinstance(begin_time,datetime) and isinstance(end_time,datetime)):
                raise ValueError('begin_time or end_time is not datetime') 
 
        check_args()
 
        begin_time,end_time = time.mktime(begin_time.timetuple()),time.mktime(end_time.timetuple()) 
        begin_offset,end_offset = self.index.get_offsets(begin_time,end_time)
 
        for data in self.__get_data_by_offsets(begin_time,end_offset):
            if data_filter:
                if data_filter(data):
                    yield data
            else:
                yield data
 
def test():
    from datetime import datetime,timedelta
    import uuid,random
    logging.getLogger().setLevel(logging.NOTSET) 
 
    def time_test(test_name):
        def inner(f):
            def inner2(*args,**kargs):
                start_time = datetime.now()
                result = f(*args,**kargs)
                print '%s take time:%s' % (test_name,(datetime.now() - start_time))
                return result
            return inner2
        return inner
 
    @time_test('gen_test_data')    
    def gen_test_data(db):
        now = datetime.now()
        begin_time = now - timedelta(hours=5)
        while begin_time < now:
            print begin_time
            for i in range(10000):
                db.append_data(str(random.randint(1,10000))+ ' ' +str(uuid.uuid1()),begin_time)
            begin_time += timedelta(minutes=1)
     
    @time_test('test_get_data')    
    def test_get_data(db):
        begin_time = datetime.now() - timedelta(hours=3) 
        end_time = begin_time + timedelta(minutes=120)
        results = list(db.get_data(begin_time,lambda x: x.find('1024') != -1))
        print 'test_get_data get %s results' % len(results)
 
    @time_test('get_db')    
    def get_db():
        return WawaDB('test')
 
    if not os.path.exists('./data/test.db'):
        db = get_db()
        gen_test_data(db)
        #db.index.fp_index.flush()
   
    db = get_db() 
    test_get_data(db)
 
init()
 
if __name__ == '__main__':
    test()

# End www.jb51.cc

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Python中的函数(二) 在上一篇文章中提到了Python中函数的定义和使用,在这篇文章里我们来讨论下关于函数的一些更深的话题。在学习C语言函数的时候,遇到的问题主要有形参实参的区别、参数的传递和改变、变量的作用域。同样在Python中,关于对函数的理解和使用也存在这些问题。下面来逐一讲解。一.函
Python中的字符串 可能大多数人在学习C语言的时候,最先接触的数据类型就是字符串,因为大多教程都是以&quot;Hello world&quot;这个程序作为入门程序,这个程序中要打印的&quot;Hello world&quot;就是字符串。如果你做过自然语言处理方面的研究,并且用Python
Python 面向对象编程(一) 虽然Python是解释性语言,但是它是面向对象的,能够进行对象编程。下面就来了解一下如何在Python中进行对象编程。一.如何定义一个类 在进行python面向对象编程之前,先来了解几个术语:类,类对象,实例对象,属性,函数和方法。 类是对现实世界中一些事物的封装,
Python面向对象编程(二) 在前面一篇文章中谈到了类的基本定义和使用方法,这只体现了面向对象编程的三大特点之一:封装。下面就来了解一下另外两大特征:继承和多态。 在Python中,如果需要的话,可以让一个类去继承一个类,被继承的类称为父类或者超类、也可以称作基类,继承的类称为子类。并且Pytho
Python中的函数(一) 接触过C语言的朋友对函数这个词肯定非常熟悉,无论在哪门编程语言当中,函数(当然在某些语言里称作方法,意义是相同的)都扮演着至关重要的角色。今天就来了解一下Python中的函数用法。一.函数的定义 在某些编程语言当中,函数声明和函数定义是区分开的(在这些编程语言当中函数声明
在windows下如何快速搭建web.py开发框架 用Python进行web开发的话有很多框架供选择,比如最出名的Django,tornado等,除了这些框架之外,有一个轻量级的框架使用起来也是非常方便和顺手,就是web.py。它由一名黑客所创建,但是不幸的是这位创建者于2013年自杀了。据说现在由
将Sublime Text 2搭建成一个好用的IDE 说起编辑器,可能大部分人要推荐的是Vim和Emacs,本人用过Vim,功能确实强大,但是不是很习惯,之前一直有朋友推荐SUblime Text 2这款编辑器,然后这段时间就试了一下,就深深地喜欢上这款编辑器了...
Python中的模块 有过C语言编程经验的朋友都知道在C语言中如果要引用sqrt这个函数,必须用语句&quot;#include&lt;math.h&gt;&quot;引入math.h这个头文件,否则是无法正常进行调用的。那么在Python中,如果要引用一些内置的函数,该怎么处理呢?在Python中
Python的基础语法 在对Python有了基础的认识之后,下面来了解一下Python的基础语法,看看它和C语言、java之间的基础语法差异。一.变量、表达式和语句 Python中的语句也称作命令,比如print &quot;hello python&quot;这就是一条语句。 表达式,顾名思义,是
Eclipse+PyDevʽjango+Mysql搭建Python web开发环境 Python的web框架有很多,目前主流的有Django、Tornado、Web.py等,最流行的要属Django了,也是被大家最看好的框架之一。下面就来讲讲如何搭建Django的开发环境。一.准备工作 需要下载的
在windows下安装配置Ulipad 今天推荐一款轻便的文本编辑器Ulipad,用来写一些小的Python脚本非常方便。 Ulipad下载地址: https://github.com/limodou/ulipad http://files.cnblogs.com/dolphin0520/u...
Python中的函数(三) 在前面两篇文章中已经探讨了函数的一些相关用法,下面一起来了解一下函数参数类型的问题。在C语言中,调用函数时必须依照函数定义时的参数个数以及类型来传递参数,否则将会发生错误,这个是严格进行规定的。然而在Python中函数参数定义和传递的方式相比而言就灵活多了。一.函数参数的
在Notepad++中搭配Python开发环境 Python在最近几年一度成为最流行的语言之一,不仅仅是因为它简洁明了,更在于它的功能之强大。它不仅能够完成一般脚本语言所能做的事情,还能很方便快捷地进行大规模的项目开发。在学习Python之前我们来看一下Python的历史由来,&quot;Pytho
Python中的条件选择和循环语句 同C语言、Java一样,Python中也存在条件选择和循环语句,其风格和C语言、java的很类似,但是在写法和用法上还是有一些区别。今天就让我们一起来了解一下。一.条件选择语句 Python中条件选择语句的关键字为:if 、elif 、else这三个。其基本形式如
关于raw_input( )和sys.stdin.readline( )的区别 之前一直认为用raw_input( )和sys.stdin.readline( )来获取输入的效果完全相同,但是最近在写程序时有类似这样一段代码:import sysline = sys.stdin.readline()
初识Python 跟学习所有的编程语言一样,首先得了解这门语言的编程风格和最基础的语法。下面就让我们一起来了解一下Python的编程风格。1.逻辑行与物理行 在Python中有逻辑行和物理行这个概念,物理行是指在编辑器中实际看到的一行,逻辑行是指一条Python语句。在Python中提倡一个物理行只
当我们的代码是有访问网络相关的操作时,比如http请求或者访问远程数据库,经常可能会发生一些错误,有些错误可能重新去发送请求就会成功,本文分析常见可能需要重试的场景,并最后给出python代码实现。
1.经典迭代器 2.将Sentence中的__iter__改成生成器函数 改成生成器后用法不变,但更加简洁。 3.惰性实现 当列表比较大,占内存较大时,我们可以采用惰性实现,每次只读取一个元素到内存。 或者使用更简洁的生成器表达式 4.yield from itertools模块含有大量生成器函数可
本文介绍简单介绍socket的常用函数,并以python-kafka中的源码socketpair为例,来讲解python socket的运用
python实践中经常出现编码相关的异常,大多网上找资料而没有理解原理,导致一次次重复错误。本文对常用Unicode、UTF-8、GB2312编码的原理进行介绍,接着介绍了python字符类型unicode和str以及常见编解码错误UnicodeEncodeError和UnicodeDEcodeEr