【数据结构】哈希表

哈希表(散列表),是通过关键字key而直接访问在内存存储位置的一种数据结构,它就是 以空间换取时间。通过多开辟几个空间,来实现查找的高效率。
对于哈希表,我们并不是很陌生:在c语言学习阶段,给定一个字符串,查找第一个只出现过一次的字符;在数据结构 矩阵的高效转置方法中,计算原矩阵中每一列中有效数字的个数;在文件压缩项目(之后给出分析总结)中,计算中文件中各个字符出现的次数。
对于构造哈希表,有以下几种方法:
1)直接定址法:取关键字key的某个线性函数为散列地址
2)除留余数法:散列地址为,key模一个小于或者等于表长的数,如果key不是整数,可以通过各种途径转换,下边介绍~~
3)折叠法
4)平方取中法
5)随机数法
6)数学分析法
下边的几种方法,只需要知道就好~~重点掌握前两种~
对于直接定址法,给定一个key,就可以对应一个地址(这种比较适用于key值比较集中的情况,如果key值过于分散,就需要浪费很多空间)
对于除留余数法,不同的key有可能对应同一个散列地址。当多个key对应一个散列地址值时,这样就发生了冲突,这种冲突叫做哈希冲突或者哈希碰撞。
既然有了冲突,我们该如何解决冲突呢???这里就会有几种方法:
1)线性探测:对于一个给定的key,当有别的key值占了它的散列地址的位置,他就应该以线性方式去找下一个空位置
2)二次探测:实际是二次方探测,当发生冲突时,以二次方的方式去找下一个空位置。
3)开链法:
下边给出以上三种办法的图形解释:

这里写图片描述


为了防止哈希冲突,我们引入了负载因子这一概念,负载因子就是哈希表中元素的个数与哈希表的大小的比值就是负载因子。对于开放定址法,载荷因子是特别重要因素,应将其控制在0.7–0.8以下,查过0.8,查表时,CPU的缓存不命中。(cache的使用,解决了主存速度不足的问题。当CPU要读取一段数据时,先在cache中查找,如果找到了,说明命中;如果找不到,去主存中查找,然后根据调度算法将要读取的数据从主存调入cache)。。
我们通常将哈希表的大小设置为素数,这样也是可以防止冲突的。
如果哈希表中的数组的容量不是素数,假设要插入的元素是10,20,30,40,哈希表的大小是10,得到1种hash值,0。如果要插入的元素是3,6,9,12,而hash表的大小是9,得到3种hash值,0,3,6。这样,就导致冲突还是比较大的。。。。。此处证明不是很严谨,只是简单说明了一下。
为了达到自动扩大容量的作用,我们哈希表的底层用vector代替数组~
下边给出实现代码:

#pragma once
#include<iostream>
using namespace std;
#include<vector>
#include<string>

//开放地址法
namespace Open
{
    enum Status
    {
        EMPTY,EXIST,DELETE
    };


    template<typename K,typename V>
    struct KVNode
    {
        K _key;
        V _value;

        Status _status;//保存某个位置的状态
        KVNode(const K& key = K(),const V& value = V())
            :_key(key),_value(value),_status(EMPTY)
        {}
    };
    template<typename K>
    struct __GetK
    {
        size_t operator()(const K& key)
        {
            return key;
        }
    };

    struct __GetStrK
    {
        static size_t BKDRHash(const char* str)
        {
            unsigned int seed = 131;// 31 131 1313 13131 131313
            unsigned int hash = 0;
            while(*str)
            {
                hash = hash * seed + (*str++);
            }
            return(hash & 0x7FFFFFFF);
        }
        size_t operator()(const string& str)
        {
            return BKDRHash(str.c_str());
        }
    };

    template<typename K,typename V,typename GetK = __GetK<K>>
    class HashTable
    {
        typedef KVNode<K,V> Node;

    public:
        HashTable()
            :_size(0)
        {
            _tables.resize(2);
        }

        ~HashTable()
        {}


        void Swap(HashTable<K,V,GetK> ht)
        {
            swap(_size,ht._size);
            swap(_tables,ht._tables);
        }

        bool Insert(const K& key,const V& value)
        {
            _CheckCapacity();
            int index = _GetIndex(key,value);

            while(_tables[index]._status == EXIST)
            {
                if(_tables[index]._key == key)//要插入的值在原表中已经存在
                {
                    return false;
                }

                ++index;

                if(index == _tables.size())
                {
                    index = 0;
                }
            }

            //找到合适的位置
            _tables[index]._key = key;
            _tables[index]._value = value;
            _tables[index]._status = EXIST;//将状态改为存在
            ++_size;
        }

        Node* Find(const K& key,const V& value)
        {
            int index = _GetIndex(key,value);
            int begin = index;
            while(_tables[index]._key != key)
            {
                ++index;
                if(index == _tables.size())
                {
                    index = 0;
                }
                if(index == begin)
                {
                    return NULL;
                }
            }
            //有可能是要删除的已经存在的元素
            if(_tables[index]._status == EXIST)
            {
                return &_tables[index];
            }
            else
                return NULL;
        }

        bool Remove(const K& key,const V& value)
        {
            if(_size == 0)
                return false;
            int index = _GetIndex(key,value);
            int begin = index;
            while(_tables[index]._status != EMPTY)
            {
                if(_tables[index]._key == key && _tables[index]._status == EXIST)
                {
                    _tables[index]._status = DELETE;
                    --_size;
                    return true;
                }

                ++index;
                if(index == _tables.size())
                {
                    index = 0;
                }
                if(index == begin)//已经遍历一圈
                {
                    return false;
                }
            }
        }
    protected:
        void _CheckCapacity()
        {
            if(_size*10 / _tables.size() >= 8)//保证查找效率
            {
                int newSize = _GetNewSize(_tables.size());
                HashTable<K,GetK> hash;
                hash._tables.resize(newSize);
                for(size_t i = 0; i < _size; ++i)
                {
                    if(_tables[i]._status == EXIST)
                    {
                        hash.Insert(_tables[i]._key,_tables[i]._value);
                    }
                }
                this->Swap(hash);
            }
            else
                return;
        }

        int _GetIndex(const K& key,const V& value)
        {
            GetK getK;
            return getK(key) % _tables.size();
        }
        int _GetNewSize(int num)
        {
            const int _PrimeSize= 28;
            static const unsigned long _PrimeList[_PrimeSize] = {
            53ul,97ul,193ul,389ul,769ul,1543ul,3079ul,6151ul,12289ul,24593ul,49157ul,98317ul,196613ul,393241ul,786433ul,1572869ul,3145739ul,6291469ul,12582917ul,25165843ul,50331653ul,100663319ul,201326611ul,402653189ul,805306457ul,1610612741ul,3221225473ul,4294967291ul
            };
            for(int i = 0; i < _PrimeSize; ++i)
            {
                if(_PrimeList[i] > num)
                    return _PrimeList[i];
            }
        }
    protected:
        vector<Node> _tables;
        size_t _size;
    };
}


void TestHashTableOpen()
{
    Open::HashTable<int,int>  ht1;//模板参数3是采用缺省的参数
    int array1[] = {89,18,8,58,2,3,4,9,0};
    for(int i = 0; i < sizeof(array1)/sizeof(array1[0]); ++i)
    {
        ht1.Insert(array1[i],0);
    }
    ht1.Remove(8,0);
    ht1.Remove(1,0);

    Open::HashTable<string,int,Open::__GetStrK> ht2;
    char* array2[] = {"hello","world","sort","find","sort"};
    for(int i = 0; i < sizeof(array2)/sizeof(array2[0]); ++i)
    {
        Open::KVNode<string,int>* node = ht2.Find(array2[i],0);
        if(node)//结点已经存在
        {
            node->_value++;
        }
        else
        {
            ht2.Insert(array2[i],0);
        }
    }
}


//开链法
namespace Link
{
    template<typename K,typename V>
    struct KVNode
    {
        K _key;
        V _value;
        KVNode<K,V>* _next;

        KVNode(const K& key = K(),const V& value = V())
        :_key(key),_next(NULL)
        {}
    };

    template<typename K>
    struct __GetK
    {
        size_t operator()(const K& key)
        {
            return key;
        }
    };

    template<>
    struct __GetK<string>
    {
        static size_t BKDRHash(const char* str)
        {
            unsigned int seed = 131;// 31 131 1313 13131 131313
            unsigned int hash = 0;
            while(*str)
            {
                hash = hash * seed + (*str++);
            }
            return(hash & 0x7FFFFFFF);
        }
        size_t operator()(const string& str)
        {
            return BKDRHash(str.c_str());
        }
    };

    template<typename K,V> Node;
    public:
        HashTable()
            :_size(0)
        {
            _tables.resize(2);//初始化开辟2个空间
        }

        bool Insert(const K& key,const V& value)
        {
            //检查容量
            _CheckCapacity();
            int index = _GetIndex(key);
            //先查找,看要插入的元素是否已经存在
            if(Find(key))
            {
                return false;
            }
            //插入元素分两种情况
            //1.插入的结点是第一个结点
            //2.插入的结点不是第一个结点
            Node* newNode = new Node(key,value);
            newNode->_next = _tables[index];
            _tables[index] = newNode;
            ++_size;
        }

        Node* Find(const K& key)
        {
            int index = _GetIndex(key);
            Node* cur = _tables[index];
            while(cur)
            {
                if(cur->_key == key)
                    return cur;
                cur = cur->_next;
            }
            return NULL;
        }

        bool Remove(const K& key)
        {
            int index = _GetIndex(key);
            //删除分3种情况
            //1.删除第一个节点
            //2.删除中间结点
            //3.删除最后一个结点
            Node* cur = _tables[index];
            //记录要删除结点的上一个结点
            Node* prev = NULL;
            while(cur)
            {
                if(cur->_key == key)//找到要删除的结点
                {
                    if(prev == NULL)//要删除的就是第一个结点
                    {
                        _tables[index] = cur->_next;
                    }
                    else
                    {
                        prev->_next = cur->_next;
                    }
                    delete cur;
                    --_size;
                    return true;
                }
                prev = cur;
                cur = cur->_next;
            }
            return false;
        }

    protected:
        int _GetIndex(const K& key)
        {
            GetK getK;
            return getK(key) % _tables.size();
        }

        void _CheckCapacity()
        {
            if(_size == _tables.size())
            {
                int newSize = _GetNewSize(_size);//容量扩大
                HashTable<K,GetK> tmp;
                tmp._tables.resize(newSize);
                vector<K> v;
                Node* del = NULL;

                //把所有元素放进vector中
                for(size_t i = 0; i < _size; ++i)
                {
                    //找到有存储元素的链
                    if(_tables[i] != NULL)
                    {
                        Node* cur = _tables[i];
                        while(cur)
                        {
                            //cur = _tables[i];
                            v.push_back(cur->_key);
                            cur = cur->_next;
                        }

                        //清理空间
                        cur = _tables[i];
                        while(cur)
                        {
                            del = cur;
                            cur = cur->_next;
                            delete del;
                        }
                    }
                    else
                        continue;
                }
                //将vector中的所有元素重新插入
                for(size_t i = 0 ; i < v.size(); ++i)
                {
                    tmp.Insert(v[i],0);
                    //v.pop_back();
                }
                //已经移动完成
                this->_Swap(tmp);
            }
        }

        int _GetNewSize(int num)
        {
            const int _PrimeSize= 28;
            static const unsigned long _PrimeList[_PrimeSize] = {
            53ul,4294967291ul
            };
            for(int i = 0; i < _PrimeSize; ++i)
            {
                if(_PrimeList[i] > num)
                    return _PrimeList[i];
            }
        }

        void _Swap(HashTable<K,GetK> ht)
        {
            swap(ht._tables,_tables);
            swap(ht._size,_size);
        }

    protected:
        vector<Node* > _tables;
        size_t _size;
    };

}
void TestHashTableLink()
{
    Link::HashTable<int,int>  ht1;
    int array1[] = {89,21,53,12,0);
    }
    ht1.Remove(4);
    ht1.Remove(12);

    Link::HashTable<string,int> ht2;
    char* array2[] = {"hello","yang","hello","wang","zip","huffman"};
    for(int i = 0; i < sizeof(array2)/sizeof(array2[0]); ++i)
    {
        Link::KVNode<string,int>* ret = ht2.Find(array2[i]);
        if(!ret)
            ht2.Insert(array2[i],0);
    }
    ht2.Remove("hello");
    ht2.Remove("sort");
}

上边这段代码,我们既实现了线性探测法,也实现了开链法。使用命名空间来防止名字冲突。使用仿函数达到将字符串转换成整形来取模。 在线性探测法中,对哈希表增容过程中,直接将原来的元素插入新的哈希表的对应位置;而在开链法中,将原来的所有节点放进一个vector中,然后将vector中所有元素重新插入新的哈希表的对应位置~~ 关于哈希表,未完待续~

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


【啊哈!算法】算法3:最常用的排序——快速排序       上一节的冒泡排序可以说是我们学习第一个真正的排序算法,并且解决了桶排序浪费空间的问题,但在算法的执行效率上却牺牲了很多,它的时间复杂度达到了O(N2)。假如我们的计算机每秒钟可以运行10亿次,那么对1亿个数进行排序,桶排序则只需要0.1秒,而冒泡排序则需要1千万秒,达到115天之久,是不是很吓人。那有没有既不浪费空间又可以快一点的排序算法
匿名组 这里可能用到几个不同的分组构造。通过括号内围绕的正则表达式就可以组成第一个构造。正如稍后要介绍的一样,既然也可以命名组,大家就有考虑把这个构造作为匿名组。作为一个实例,请看看下列字符串: “08/14/57 46 02/25/59 45 06/05/85 18 03/12/88 16 09/09/90 13“ 这个字符串就是由生日和年龄组成的。如果需要匹配年两而不要生日,就可以把正则
选择排序:从数组的起始位置处开始,把第一个元素与数组中其他元素进行比较。然后,将最小的元素方式在第0个位置上,接着再从第1个位置开始再次进行排序操作。这种操作一直到除最后一个元素外的每一个元素都作为新循环的起始点操作过后才终止。 public void SelectionSort() { int min, temp;
public struct Pqitem { public int priority; public string name; } class CQueue { private ArrayList pqueue; public CQueue() { pqueue
在编写正则表达式的时候,经常会向要向正则表达式添加数量型数据,诸如”精确匹配两次”或者”匹配一次或多次”。利用数量词就可以把这些数据添加到正则表达式里面了。 数量词(+):这个数量词说明正则表达式应该匹配一个或多个紧紧接其前的字符。 string[] words = new string[] { "bad", "boy", "baad", "baaad" ,"bear", "b
来自:http://blog.csdn.net/morewindows/article/details/6678165/归并排序是建立在归并操作上的一种有效的排序算法。该算法是采用分治法(Divide and Conquer)的一个非常典型的应用。首先考虑下如何将将二个有序数列合并。这个非常简单,只要从比较二个数列的第一个数,谁小就先取谁,取了后就在对应数列中删除这个数。然后再进行比较,如果有数列
插入排序算法有两层循环。外层循环会啄个遍历数组元素,而内存循环则会把外层循环所选择的元素与该元素在数组内的下一个元素进行比较。如果外层循环选择的元素小于内存循环选择的元素,那么瘦元素都想右移动以便为内存循环元素留出位置。 public void InsertionSort() { int inner, temp;
public int binSearch(int value) { int upperBround, lowerBound, mid; upperBround = arr.Length - 1; lowerBound = 0; while (lowerBound <= upper
虽然从表内第一个节点到最后一个节点的遍历操作是非常简单的,但是反向遍历链表却不是一件容易的事情。如果为Node类添加一个字段来存储指向前一个节点的连接,那么久会使得这个反向操作过程变得容易许多。当向链表插入节点的时候,为了吧数据复制给新的字段会需要执行更多的操作,但是当腰吧节点从表移除的时候就能看到他的改进效果了。 首先需要修改Node类来为累增加一个额外的链接。为了区别两个连接,这个把指
八、树(Tree)树,顾名思义,长得像一棵树,不过通常我们画成一棵倒过来的树,根在上,叶在下。不说那么多了,图一看就懂:当然了,引入了树之后,就不得不引入树的一些概念,这些概念我照样尽量用图,谁会记那么多文字?树这种结构还可以表示成下面这种方式,可见树用来描述包含关系是很不错的,但这种包含关系不得出现交叉重叠区域,否则就不能用树描述了,看图:面试的时候我们经常被考到的是一种叫“二叉树”的结构,二叉
Queue的实现: 就像Stack类的实现所做的一样,Queue类的实现用ArrayList简直是毋庸置疑的。对于这些数据结构类型而言,由于他们都是动态内置的结构,所以ArrayList是极好的实现选择。当需要往队列中插入数据项时,ArrayList会在表中把每一个保留的数据项向前移动一个元素。 class CQueue { private ArrayLis
来自:http://yingyingol.iteye.com/blog/13348911 快速排序介绍:快速排序是由东尼·霍尔所发展的一种排序算法。在平均状况下,排序 n 个项目要Ο(n log n)次比较。在最坏状况下则需要Ο(n2)次比较,但这种状况并不常见。事实上,快速排序通常明显比其他Ο(n log n) 算法更快,因为它的内部循环(inner loop)可以在大部分的架构上很有效率地
Stack的实现必须采用一种基本结构来保存数据。因为再新数据项进栈的时候不需要担心调整表的大小,所以选择用arrayList.using System;using System.Collections.Generic;using System.Linq;using System.Text;using System.Threading.Tasks;using System.Collecti
数组类测试环境与排序算法using System;using System.Collections.Generic;using System.Linq;using System.Text;using System.Threading.Tasks;namespace Data_structure_and_algorithm{ class CArray { pr
一、构造二叉树 二叉树查找树由节点组成,所以需要有个Node类,这个类类似于链表实现中用到的Node类。首先一起来看看Node类的代码。 public class Node { public int Data; public Node Left; public Node Right; public v
二叉树是一种特殊的树。二叉树的特点是每个结点最多有两个儿子,左边的叫做左儿子,右边的叫做右儿子,或者说每个结点最多有两棵子树。更加严格的递归定义是:二叉树要么为空,要么由根结点、左子树和右子树组成,而左子树和右子树分别是一棵二叉树。 下面这棵树就是一棵二叉树。         二叉树的使用范围最广,一棵多叉树也可以转化为二叉树,因此我们将着重讲解二叉树。二叉树中还有连两种特殊的二叉树叫做满二叉树和
上一节中我们学习了队列,它是一种先进先出的数据结构。还有一种是后进先出的数据结构它叫做栈。栈限定只能在一端进行插入和删除操作。比如说有一个小桶,小桶的直径只能放一个小球,我们现在向小桶内依次放入2号、1号、3号小球。假如你现在需要拿出2号小球,那就必须先将3号小球拿出,再拿出1号小球,最后才能将2号小球拿出来。在刚才取小球的过程中,我们最先放进去的小球最后才能拿出来,而最后放进去的小球却可以最先拿
msdn中的描述如下:(?= 子表达式)(零宽度正预测先行断言。) 仅当子表达式在此位置的右侧匹配时才继续匹配。例如,w+(?=d) 与后跟数字的单词匹配,而不与该数字匹配。此构造不会回溯。(?(零宽度正回顾后发断言。) 仅当子表达式在此位置的左侧匹配时才继续匹配。例如,(?此构造不会回溯。msdn描述的比较清楚,如:w+(?=ing) 可以匹配以ing结尾的单词(匹配结果不包括ing),(
1.引入线索二叉树 二叉树的遍历实质上是对一个非线性结构实现线性化的过程,使每一个节点(除第一个和最后一个外)在这些线性序列中有且仅有一个直接前驱和直接后继。但在二叉链表存储结构中,只能找到一个节点的左、右孩子信息,而不能直接得到节点在任一遍历序列中的前驱和后继信息。这些信息只有在遍历的动态过程中才能得到,因此,引入线索二叉树来保存这些从动态过程中得到的信息。 2.建立线索二叉树 为了保
排序与我们日常生活中息息相关,比如,我们要从电话簿中找到某个联系人首先会按照姓氏排序、买火车票会按照出发时间或者时长排序、买东西会按照销量或者好评度排序、查找文件会按照修改时间排序等等。在计算机程序设计中,排序和查找也是最基本的算法,很多其他的算法都是以排序算法为基础,在一般的数据处理或分析中,通常第一步就是进行排序,比如说二分查找,首先要对数据进行排序。在Donald Knuth 的计算机程序设