当前位置: 代码网 > it编程>编程语言>Java > 哈希表模拟实现

哈希表模拟实现

2024年08月01日 Java 我要评论
哈希表(Hash Table)是一种特殊的数据结构,主要用于快速实现数据的查找、插入和删除操作。哈希表的核心在于通过哈希函数(散列函数)将关键码值映射到表中一个位置来访问记录,从而加快查找速度。哈希表由一个存放记录的数组组成,这个数组被称为散列表。

一、哈希的概念及特性

(一)概念

哈希表(hash table)是一种特殊的数据结构,主要用于快速实现数据的查找、插入和删除操作。哈希表的核心在于通过哈希函数(散列函数)将关键码值映射到表中一个位置来访问记录,从而加快查找速度。哈希表由一个存放记录的数组组成,这个数组被称为散列表。
在这里插入图片描述

(二)常见的哈希函数

1. 直接定址法(不存在哈希冲突):

2.除留余数法(存在哈希冲突):

3.平方取中法:

4.折叠法

5.随机数法:

6. 数学分析法:

注: 哈希函数设计的越精妙,产生哈希冲突的可能性越低,但是无法避免哈希冲突。

(三)哈希冲突

在哈希表中可能会存在哈希函数设计不够合理的情况,因此会出现哈希冲突,即不同的关键字通过相同的哈希函数算出了相同的哈希地址。如上表中如果插入关键字17,那么通过哈希函数计算出的哈希地址为 hash(17) = 17 % 10 = 7 ,则与关键字7的哈希地址发生了冲突。

(四)哈希冲突解决办法:

解决哈希冲突的两种常见的办法是: 闭散列开散列

二、闭散列

也叫开放定址法,当发生哈希冲突时,如果哈希表未被装满,说明在哈希表中必然还有空位置,
那么可以把key存放到冲突位置中的“下一个” 空位置中去。
本质是当前位置冲突了,后面找一个合适的位置继续存储。
线性探测
从发生冲突的位置开始,依次向后探测,直到找到下一个空位置为止。
  • 插入
    通过哈希函数获取待插入元素在哈希表中的位置
  • 如果该位置没有元素则直接插入,如果该位置中有元素则代表发生了哈希冲突,使用线性探测找到下一个空位置,插入新元素。
    在这里插入图片描述
    代码实现如下:
	template<class k, class v>
	class hashtable {
	public:
		hashtable(size_t size = 10)
		{
			_tables.resize(size);
		}
		bool insert(const pair<k, v>& kv)
		{

			if (find(kv.first)) // 查找代码实现在查找部分
			{
				return false;
			}

			if (_n * 10 >= _tables.size() * 7)
			{
				//扩容
				size_t newsize = _tables.size() * 2;
				hashtable<k, v> newht(newsize);
				// 遍历旧表,插入到新表
				for (auto& e : _tables)
				{
					if (e._state == exist)
					{
						newht.insert(e._kv);
					}
				}
				_tables.swap(newht._tables);
			}
			// 线性探测
			size_t hashi = kv.first % _tables.size();
			while (_tables[hashi]._state == exist)
			{
				hashi++;
				hashi %= _tables.size();
			}
			_tables[hashi]._kv = kv;
			_tables[hashi]._state = exist;
			_n++;

			return true;
		}
	private:
		vector<hashdata<k, v>> _tables;
		size_t _n = 0;
	};	
  • 删除
    采用闭散列处理哈希冲突时,不能随便物理删除哈希表中已有的元素,若直接删除元素会影响其他元素的搜索。比如删除元素4,如果直接删除掉,44查找起来可能会受影响。因此线性探测采用标记的伪删除法来删除一个元素。
    在这里插入图片描述
    如果要删除15这个值,接下来继续进行查找6的操作,如果直接删除则会出现如下情况:
    在这里插入图片描述
    此时,15已经被删除,但是如果我们要继续查找6这个元素,根据查找的原则,找到或者遇到空则停止,此时则会出现表中6是存在的,但是由于15被删除为空,所以查找不到6这个关键字。因此可以通过标记的方法来解决这个问题,在哈希表中设置三种状态,分别为empty,exist,delete。
    代码实现如下:
	enum state  // 枚举三种状态 
	{
		empty,
		exist,
		delete
	};
	template<class k, class v>
	struct hashdata {
		pair<k, v> _kv;
		state _state = empty; // 标记,初始状态设置为空
	};

		bool erase(const k& key)
		{
			size_t hashi = key % _tables.size();
			while (_tables[hashi]._state != empty)
			{
				if (_tables[hashi]._kv.first == key)
				{
					_tables[hashi]._state = delete;
					_n--;
					return true;
				}
				++hashi;
				hashi %= _tables.size();
			}
			return false;
		}

  • 查找
    使用相同的哈希函数计算哈希地址,如果计算出的地址关键字不是要找的值,那么继续线性向后查找。直到找到或者遇到空。根据上面删除后无法继续查找的问题,因此在查找过程中如果遇到标记为删除的位置,则继续查找。如果一直找到了表尾的位置,需要继续向下查找,则需要往表头回绕继续查找。
    代码实现如下:
		hashdata<k, v>* find(const k& key)
		{
			size_t hashi = key % _tables.size();
			while (_tables[hashi]._state != empty)
			{
				if (_tables[hashi]._state == exist && _tables[hashi]._kv.first == key)
				{
					return &_tables[hashi];
				}
				else {
					hashi++;
					hashi %= _tables.size();
				}
			}
			return nullptr;
		}

  • 扩容

在哈希表中,哈希冲突越多,则效率就会越低。对于闭散列,荷载因子(负载因子)是特别重要的因素。一般限制在0.7。

闭散列的模拟实现

/* 
仿函数处理key 
当遇到不同类型的key值时,都需要将key值转为size_t类型,再将size_t类型的值通过哈希
函数转换为地址。
*/
template<class k>
struct hashfunc {
	size_t operator()(const k& key)
	{
		return (size_t)key;
	}
};
template<>
struct hashfunc<string> {
	size_t& operator()(const string& s)
	{
		size_t hash = 0;
		for (auto e : s)
		{
			hash += e;
			hash *= 131;
		}
		return hash;
	}
};

	enum state {
		empty,
		exist,
		delete
	};
	template<class k, class v>
	struct hashdata {
		pair<k, v> _kv;
		state _state = empty; // 标记
	};

	template<class k, class v, class hash = hashfunc<k>>
	class hashtable {
	public:
		hashtable(size_t size = 10)
		{
			_tables.resize(size);
		}
		hash hs;
		hashdata<k, v>* find(const k& key)
		{
			size_t hashi = hs(key) % _tables.size();
			while (_tables[hashi]._state != empty)
			{
				if (_tables[hashi]._state == exist && hs(_tables[hashi]._kv.first) == hs(key))
				{
					return &_tables[hashi];
				}
				else {
					hashi++;
					hashi %= _tables.size();
				}
			}
			return nullptr;
		}

		bool insert(const pair<k, v>& kv)
		{

			if (find(kv.first))
			{
				return false;
			}

			if (_n * 10 >= _tables.size() * 7)
			{
				//扩容
				size_t newsize = _tables.size() * 2;
				hashtable<k, v> newht(newsize);
				for (auto& e : _tables)
				{
					if (e._state == exist)
					{
						newht.insert(e._kv);
					}
				}
				_tables.swap(newht._tables);
			}
			hash hs;
			size_t hashi = hs(kv.first) % _tables.size();
			while (_tables[hashi]._state == exist)
			{
				hashi++;
				hashi %= _tables.size();
			}
			_tables[hashi]._kv = kv;
			_tables[hashi]._state = exist;
			_n++;

			return true;
		}

		bool erase(const k& key)
		{
			hash hs;
			size_t hashi = hs(key) % _tables.size();
			while (_tables[hashi]._state != empty)
			{
				if (_tables[hashi]._kv.first == key)
				{
					_tables[hashi]._state = delete;
					_n--;
					return true;
				}
				++hashi;
				hashi %= _tables.size();
			}
			return false;
		}

	private:
		vector<hashdata<k, v>> _tables;
		size_t _n = 0;
	};
}

三、开散列拉链法/哈希桶

(一)概念:

开散列法又叫链地址法(开链法),首先对关键码集合用散列函数计算散列地址,具有相同地址的关键码归于同一子集合,每一个子集合称为一个桶,各个桶中的元素通过一个单链表链接起来,各链表的头结点存储在哈希表中。
在这里插入图片描述
根据上图可以看出,开散列中每个桶中放的都是发生哈希冲突的元素。
首先每个桶的元素都是通过一个单链表链接起来,各个链表的头节点都存储在哈希表中。
因此需要先创建单链表节点的类。
代码实现如下:

template<class t>
	struct hashnode {
		typedef hashnode<t> node;
		hashnode(const t& data)
			:_next(nullptr)
			,_data(data)
		{}

		node* _next;
		t _data;
	};
仿函数在开放地址法已经写好,直接使用即可。

代码如下:

/* 
仿函数处理key 
当遇到不同类型的key值时,都需要将key值转为size_t类型,再将size_t类型的值通过哈希
函数转换为地址。
*/
template<class k>
struct hashfunc {
	size_t operator()(const k& key)
	{
		return (size_t)key;
	}
};
template<>
struct hashfunc<string> {
	size_t& operator()(const string& s)
	{
		size_t hash = 0;
		for (auto e : s)
		{
			hash += e;
			hash *= 131;
		}
		return hash;
	}
};

  • 查找
    通过哈希函数计算出关键字在哪个桶中,接下来只需遍历这个桶即可。
		node* find(const k& key)
		{
			hash hs; // 仿函数
			size_t hashi = hs(key) % _tables.size(); // 计算在哪一个桶
			node* cur = _tables[hashi];
			while (cur)
			{
				if (cur->_kv.first == key)
				{
					return cur;
				}

				cur = cur->_next;
			}

			return nullptr;
		}

  • 插入
    所实现的哈希桶中,值时唯一的。首先使用哈希函数,计算出key值所在的哈希地址,如果发现关键字已经存在,则返回false。

代码实现如下:

		bool insert(const pair<k, v>& kv)
		{
			/*
			寻找哈希桶中是否已经存在要插入的值,如果存在则返回false。   
			*/
			if (find(kv.first))
				return false;

			hash hs;

			// 负载因子到1就扩容
			if (_n == _tables.size())
			{
				vector<node*> newtables(_tables.size()*2, nullptr);
				for (size_t i = 0; i < _tables.size(); i++)
				{
					// 取出旧表中节点,重新计算挂到新表桶中
					node* cur = _tables[i];
					while (cur)
					{
						node* next = cur->_next;

						// 头插到新表
						size_t hashi = hs(cur->_kv.first) % newtables.size();
						cur->_next = newtables[hashi];
						newtables[hashi] = cur;

						cur = next;
					}

					_tables[i] = nullptr;
				}

				_tables.swap(newtables);
			}

			size_t hashi = hs(kv.first) % _tables.size();
			node* newnode = new node(kv);

			// 头插
			newnode->_next = _tables[hashi];
			_tables[hashi] = newnode;

			++_n;
			return true;
		}

  • 删除
    首先计算出桶的位置,接下来在桶中找到这个值,如果存在则删除,但是要先保存即将删除节点的前一个节点,这样在删除节点后才可以将链表重新连接在一起。
    如果删除的节点是第一个节点,则没有前一个节点,此时就直接将此节点和计算出的桶的位置连接起来。
		bool erase(const k& key)
		{
			hash hs;
			size_t hashi = hs(key) % _tables.size(); 
			node* prev = nullptr;
			node* cur = _tables[hashi];
			while (cur)
			{
				if (cur->_kv.first == key)
				{
					// 删除
					if (prev)  // 存在前一个节点
					{
						prev->_next = cur->_next;
					}
					else      //不存在前一个节点
					{
						_tables[hashi] = cur->_next;
					}

					delete cur;

					--_n;
					return true;
				}

				prev = cur;
				cur = cur->_next;
			}

			return false;
		}

(二)开散列整体代码模拟实现:

	// t -> k 
	// t -> pair<k,v>
	
	template<class t>
	struct hashnode {
		typedef hashnode<t> node;
		hashnode(const t& data)
			:_next(nullptr)
			,_data(data)
		{}

		node* _next;
		t _data;
	};

	template<class k, class t, class keyoft, class hash>
		
	//封装迭代器
	class hashtable;
	template<class k, class t, class keyoft, class hash>
	struct __htiterator {
		typedef hashtable<k, t, keyoft, hash> ht;
		typedef hashnode<t> node;

		typedef __htiterator<k, t, keyoft, hash> self;
		node* _node;
		ht* _ht;

		__htiterator(node* node,ht* ht)
			:_node(node)
			,_ht(ht)
		{}

		self& operator++()
		{
			if (_node->_next)
			{
				_node = _node->_next;
			}
			else {
				keyoft kot;
				hash hs;
				size_t hashi = hs(kot(_node->_data))% _ht->_tables.size();
				hashi++;
				while (hashi <_ht->_tables.size())
				{
					if (_ht->_tables[hashi])
					{
						_node = _ht->_tables[hashi];
						break;
					}
					hashi++;
				}

				//后面没有桶了
				if (hashi == _ht->_tables.size())
				{
					_node = nullptr;
				}

			}
			return *this;
		}

		t& operator*()
		{
			return _node->_data;
		}

	    bool operator!=(const self& s)
		{
			return _node != s._node;
		}
	};

	// 	前置声明
	template<class k, class t,class keyoft, class hash>
	class hashtable {
	public:
		template<class k, class t, class keyoft, class hash>
		friend struct __htiterator;
		typedef hashnode<t> node;
		typedef __htiterator<k, t, keyoft, hash> iterator;


		iterator begin()
		{
			for (size_t i = 0; i < _tables.size(); i++)
			{
				if (_tables[i]) {
					return iterator(_tables[i], this);
				}
			}

			return end();
		}
		iterator end()
		{
			return iterator(nullptr, this);
		}

		hashtable(size_t size = 10)
		{
			_tables.resize(size, nullptr);
			_n = 0;
		}

		~hashtable()
		{
			for (int i = 0; i < _tables.size(); i++)
			{
				node* cur = _tables[i];
				while (cur)
				{
					node* next = cur->_next;
					delete cur;

					cur = next;
				}
				_tables[i] = nullptr;
			}

		}

		bool insert(const t& kv)
		{
			keyoft kot;
			if (find(kot(kv)) != end())
			{
				return false;
			}

			hash hs;
			// 负载因子到1就扩容
			if (_tables.size() == _n)
			{
				size_t newsize = _tables.size() * 2;
				vector<node*> new_tables(newsize,nullptr);
				// 取出旧表当中的节点,重新计算挂到新的表桶中
				for (int i = 0; i < _tables.size(); i++)
				{
					node* cur = _tables[i];
					while (cur)
					{
						node* next = cur->_next;
						// 头插到新表
						size_t hashi = hs(kot(cur->_data)) % newsize;
						cur->_next = new_tables[hashi];
						new_tables[hashi] = cur;

						cur = next;
					}
					_tables[i] = nullptr;
				}
				_tables.swap(new_tables);
			}
			size_t hashi = hs(kot(kv)) % _tables.size();
			node* newnode = new node(kv);
			newnode->_next = _tables[hashi];
			_tables[hashi] = newnode;
			++_n;

			return true;
		}

		iterator find(const k& key)
		{
			keyoft kot;
			hash hs;
			size_t hashi = hs(key) % _tables.size();
			node* cur = _tables[hashi];
			while (cur)
			{
				if (kot(cur->_data) == key)
				{
					return iterator(cur,this);
				}
				
				cur = cur->_next;
			}

			return iterator(nullptr,this);
		}
		bool erase(const k& key)
		{
			keyoft kot;
			hash hs;
			size_t hashi = hs(key) % _tables.size();
			node* prev = nullptr;
			node* cur = _tables[hashi];
			while (cur)
			{
				if (kot(cur->_data) == key)
				{
					if (prev)
					{
						prev->_next = cur->_next;

					}
					else {
						_tables[hashi] = cur->_next;
					}

					delete cur;
					return true;
				}
				else {
					prev = cur;
					cur = cur->_next;
				}
			}
			return false;
		}

	private:
		vector<node*> _tables;
		size_t _n;
	};

}

(三)unorderset的封装

template<class k>
class set
{
	struct setkeyoft
	{
		const k& operator()(const k& key)
		{
			return key;
		}
	};
	
	public:
			typedef typename hash_bucket::hashtable<k, k, setkeyoft, hash>::iterator iterator;
	
			iterator begin()
			{
				return _ht.begin();
			}
	
			iterator end()
			{
				return _ht.end();
			}
	
	
			bool insert(const k& key)
			{
				return _ht.insert(key);
			}
	
	
			iterator find(const k& key)
			{
				return _ht.find(key);
			}
	
			bool erase(const k& key)
			{
				_ht.erase(key);
			}

	private:
		hash_bucket::hashtable<k,k,setkeyoft> _ht;  // 底层使用哈希桶实现
}

(四)unordermap的封装

template<class k,class v>
class map
{
	struct mapkeyoft
	{
		const k& operator()(const pair<k,v>& kv)
		{
			return kv.first;
		}
	};
		public:

			typedef typename hash_bucket::hashtable<k, pair<k, v>, mapkeyoft, hash>::iterator iterator;
	
			iterator begin()
			{
				return _ht.begin();
			}
	
			iterator end()
			{ 
				return _ht.end();
			}
	
			bool insert(const pair<k, v>& kv)
			{
				return _ht.insert(kv);
			}
			iterator find(const k& kv)
			{
				return _ht.find(kv);
			}
	
			bool erase(const k& kv)
			{
				_ht.erase(key);
			}

	
	private:
		hash_bucket::hashtable<k,pair<k,v>,mapkeyoft> _ht;  // 底层使用哈希桶实现
}
(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com