Py学习  »  Python

Python的dict实现原理及与Java的比较探究

Python中文社区 • 6 年前 • 489 次点击  

Python内部很地方都使用着dict这种结构,在对象属性dict就是一个字典,所以对其效率要求很高。

dict采用了哈希表,最低能在 O(1)时间内完成搜索。同样的java的HashMap也是采用了哈希表实现,不同是dict在发生哈希冲突的时候采用了开放寻址法,而HashMap采用了链接法。

开放寻址法

优点

1、记录更容易进行序列化(serialize)操作 

2、如果记录总数可以预知,可以创建完美哈希函数,此时处理数据的效率是非常高的

缺点

1、存储记录的数目不能超过桶数组的长度,如果超过就需要扩容,而扩容会导致某次操作的时间成本飙升,这在实时或者交互式应用中可能会是一个严重的缺陷 

2、使用探测序列,有可能其计算的时间成本过高,导致哈希表的处理性能降低 

3、由于记录是存放在桶数组中的,而桶数组必然存在空槽,所以当记录本身尺寸(size)很大并且记录总数规模很大时,空槽占用的空间会导致明显的内存浪费 

4、删除记录时,比较麻烦。比如需要删除记录a,记录b是在a之后插入桶数组的,但是和记录a有冲突,是通过探测序列再次跳转找到的地址,所以如果直接删除a,a的位置变为空槽,而空槽是查询记录失败的终止条件,这样会导致记录b在a的位置重新插入数据前不可见,所以不能直接删除a,而是设置删除标记。这就需要额外的空间和操作

想要自己实现一个dict可以继承 collection 的 UserDict,里面已经封装了常用的方法。 下面是我根据自己的理解去用python实现的字典,简化了很的功能,比如对象缓冲池、String哈希的优化等等,如果有错误的或者更好的实现方式请指出。因为python没有纯粹的数组结构,所以数组也是借用list实现的

  1. #python3.6

  2. from collections import namedtuple

  3. class SimpleArray(object):

  4.    #简单的数组类实现

  5.    def __init__(self, mix):

  6.        self.container = [None for i in range(mix)]

  7.    def __len__(self):

  8.        return len(self.container)

  9.    def __setitem__(self, key, value):

  10.        return self.container.__setitem__(key,value)

  11.    def __getitem__(self, item):

  12.        return self.container.__getitem__(item)

  13.    def __delitem__(self, key):

  14.        return self.container.__setitem__(key, None)

  15.    def __str__(self):

  16.        return str(self.container)

  17. class SimpleDict(object):

  18.    #简单的字典类实现

  19.    Init_length = 8 # 初始化的大小

  20.    Load_factor = 2/3 # 扩容因子

  21.    def __init__(self):

  22.        self._array_len = SimpleDict.Init_length

  23.        self._array = SimpleArray (self._array_len)

  24.        self._used = 0

  25.        self.dictObj = namedtuple("dictObj","key value") # 这里其实可以用数组也可以的,namedtuple是为了让代码更可读

  26.    def __getitem__(self, item):

  27.        key = self._hash(item)

  28.        dictObj = self._array[key]

  29.        if dictObj is not None and dictObj.key == item:

  30.            return dictObj.value

  31.        else:

  32.            for new_key in self._second_hash(key):

  33.                if self._array[new_key] is not None and item == self._array[new_key].key:

  34.                    return self._array[new_key].value

  35.    def __setitem__(self, key, value):

  36.        # 计算是否需要扩容

  37.        if (self._used / self._array_len) > SimpleDict.Load_factor:

  38.            self._new_array()

  39.        #根据键的hash值来计算得出位置索引

  40.        hash_key = self._hash(key)

  41.        new_key = self._second_hash(hash_key)

  42.        while True:

  43.            if self._array[hash_key] is None or key == self._array[hash_key].key:

  44.                break

  45.            # 发生哈希碰撞根据二次探查函数得出下一个索引的位置

  46.            hash_key = next(new_key)

  47.            if abs(hash_key) >= self._array_len:

  48.                self._new_array()

  49.                hash_key = self._hash(key)

  50.        # 找到空位将键值对象放入

  51.        self._array[hash_key] = self.dictObj(key, value)

  52.        self ._used += 1

  53.    def __delitem__(self, key):

  54.        hash_key = self._hash(key)

  55.        if key != self._array[hash_key].key:

  56.            for new_key in self._second_hash(hash_key):

  57.                if key == self._array[new_key].key:

  58.                    hash_key = new_key

  59.        self._array[hash_key] = None

  60.        self ._used -= 1

  61.    def _hash(self, key):

  62.        # 计算哈希值

  63.        return hash(key) & (self._array_len-1)

  64.    def _second_hash(self, hash_key):

  65.        # 简单的二次探查函数实现

  66.        count = 1

  67.        for i in range(self._array_len):

  68.            yield hash_key + count**2

  69.            yield hash_key - count**2

  70.            count += 1

  71.    def _new_array(self):

  72.        # 扩容

  73.        old_array = self._array

  74.        self._array_len = self._array_len * 2 # 扩容2倍大小

  75.        self._array = SimpleArray(self._array_len)

  76.        for i in range(len(old_array)):

  77.            dictObj = old_array[i]

  78.            if dictObj is not None:

  79.                self[dictObj.key] = dictObj.value

  80.    def __str__(self):

  81.        result = ", ".join("%s:%s"%(obj.key, obj.value)

  82.                           for obj in self._array

  83.                           if obj is not None )

  84.        return "{" + result + "}"

  85. if __name__ == '__main__':

  86.    d = SimpleDict()

  87.    for i in range(20):

  88.        d[str(i)] = i

  89.    print(d)

  90.    print(d["10"])

  91.    del d[ "11"]

  92.    print(d)

链接法

优点

1、对于记录总数频繁可变的情况,处理的比较好(也就是避免了动态调整的开销) 2、由于记录存储在结点中,而结点是动态分配,不会造成内存的浪费,所以尤其适合那种记录本身尺寸(size)很大的情况,因为此时指针的开销可以忽略不计了 

3、删除记录时,比较方便,直接通过指针操作即可

缺点

1、存储的记录是随机分布在内存中的,这样在查询记录时,相比结构紧凑的数据类型(比如数组),哈希表的跳转访问会带来额外的时间开销 

2、如果所有的 key-value 对是可以提前预知,并之后不会发生变化时(即不允许插入和删除),可以人为创建一个不会产生冲突的完美哈希函数(perfect hash function),此时封闭散列的性能将远高于开放散列 

3、由于使用指针,记录不容易进行序列化(serialize)操作

其中有很重要的两个参数影响其性能: 初始容量和加载因子

dict:默认初始容量为8,加载因子为2/3

HashMap: 默认初始容量为16, 加载因子为0.75

两者相同的是扩容的长度必需是2的N次方

本文作者

文武,技术爱好者

博客:zhihu.com/people/xiaomiba0904

跳槽季来临,点击下方阅读原文,参加求职备战全攻略——从简历到面试

课程中包含腾讯、京东、大疆、58同城等大厂大牛经验分享。


今天看啥 - 高品质阅读平台
本文地址:http://www.jintiankansha.me/t/VVOSy54Y4D
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/8092
 
489 次点击