一、哈希的概念及特性
(一)概念
哈希表(hash table)是一种特殊的数据结构,主要用于快速实现数据的查找、插入和删除操作。哈希表的核心在于通过哈希函数(散列函数)将关键码值映射到表中一个位置来访问记录,从而加快查找速度。哈希表由一个存放记录的数组组成,这个数组被称为散列表。
 
(二)常见的哈希函数
1. 直接定址法(不存在哈希冲突):
2.除留余数法(存在哈希冲突):
3.平方取中法:
4.折叠法
5.随机数法:
6. 数学分析法:
注: 哈希函数设计的越精妙,产生哈希冲突的可能性越低,但是无法避免哈希冲突。
(三)哈希冲突
在哈希表中可能会存在哈希函数设计不够合理的情况,因此会出现哈希冲突,即不同的关键字通过相同的哈希函数算出了相同的哈希地址。如上表中如果插入关键字17,那么通过哈希函数计算出的哈希地址为 hash(17) = 17 % 10 = 7 ,则与关键字7的哈希地址发生了冲突。
(四)哈希冲突解决办法:
解决哈希冲突的两种常见的办法是: 闭散列和开散列
二、闭散列
也叫开放定址法,当发生哈希冲突时,如果哈希表未被装满,说明在哈希表中必然还有空位置,
那么可以把key存放到冲突位置中的“下一个” 空位置中去。
本质是当前位置冲突了,后面找一个合适的位置继续存储。
线性探测
从发生冲突的位置开始,依次向后探测,直到找到下一个空位置为止。
-  插入
 通过哈希函数获取待插入元素在哈希表中的位置
-  如果该位置没有元素则直接插入,如果该位置中有元素则代表发生了哈希冲突,使用线性探测找到下一个空位置,插入新元素。
  
 代码实现如下:
	template<class k, class v>
	class hashtable {
	public:
		hashtable(size_t size = 10)
		{
			_tables.resize(size);
		}
		bool insert(const pair<k, v>& kv)
		{
			if (find(kv.first)) // 查找代码实现在查找部分
			{
				return false;
			}
			if (_n * 10 >= _tables.size() * 7)
			{
				//扩容
				size_t newsize = _tables.size() * 2;
				hashtable<k, v> newht(newsize);
				// 遍历旧表,插入到新表
				for (auto& e : _tables)
				{
					if (e._state == exist)
					{
						newht.insert(e._kv);
					}
				}
				_tables.swap(newht._tables);
			}
			// 线性探测
			size_t hashi = kv.first % _tables.size();
			while (_tables[hashi]._state == exist)
			{
				hashi++;
				hashi %= _tables.size();
			}
			_tables[hashi]._kv = kv;
			_tables[hashi]._state = exist;
			_n++;
			return true;
		}
	private:
		vector<hashdata<k, v>> _tables;
		size_t _n = 0;
	};	
-  删除
 采用闭散列处理哈希冲突时,不能随便物理删除哈希表中已有的元素,若直接删除元素会影响其他元素的搜索。比如删除元素4,如果直接删除掉,44查找起来可能会受影响。因此线性探测采用标记的伪删除法来删除一个元素。
  
 如果要删除15这个值,接下来继续进行查找6的操作,如果直接删除则会出现如下情况:
  
 此时,15已经被删除,但是如果我们要继续查找6这个元素,根据查找的原则,找到或者遇到空则停止,此时则会出现表中6是存在的,但是由于15被删除为空,所以查找不到6这个关键字。因此可以通过标记的方法来解决这个问题,在哈希表中设置三种状态,分别为empty,exist,delete。
 代码实现如下:
	enum state  // 枚举三种状态 
	{
		empty,
		exist,
		delete
	};
	template<class k, class v>
	struct hashdata {
		pair<k, v> _kv;
		state _state = empty; // 标记,初始状态设置为空
	};
		bool erase(const k& key)
		{
			size_t hashi = key % _tables.size();
			while (_tables[hashi]._state != empty)
			{
				if (_tables[hashi]._kv.first == key)
				{
					_tables[hashi]._state = delete;
					_n--;
					return true;
				}
				++hashi;
				hashi %= _tables.size();
			}
			return false;
		}
-  查找
 使用相同的哈希函数计算哈希地址,如果计算出的地址关键字不是要找的值,那么继续线性向后查找。直到找到或者遇到空。根据上面删除后无法继续查找的问题,因此在查找过程中如果遇到标记为删除的位置,则继续查找。如果一直找到了表尾的位置,需要继续向下查找,则需要往表头回绕继续查找。
 代码实现如下:
		hashdata<k, v>* find(const k& key)
		{
			size_t hashi = key % _tables.size();
			while (_tables[hashi]._state != empty)
			{
				if (_tables[hashi]._state == exist && _tables[hashi]._kv.first == key)
				{
					return &_tables[hashi];
				}
				else {
					hashi++;
					hashi %= _tables.size();
				}
			}
			return nullptr;
		}
- 扩容
在哈希表中,哈希冲突越多,则效率就会越低。对于闭散列,荷载因子(负载因子)是特别重要的因素。一般限制在0.7。
闭散列的模拟实现
/* 
仿函数处理key 
当遇到不同类型的key值时,都需要将key值转为size_t类型,再将size_t类型的值通过哈希
函数转换为地址。
*/
template<class k>
struct hashfunc {
	size_t operator()(const k& key)
	{
		return (size_t)key;
	}
};
template<>
struct hashfunc<string> {
	size_t& operator()(const string& s)
	{
		size_t hash = 0;
		for (auto e : s)
		{
			hash += e;
			hash *= 131;
		}
		return hash;
	}
};
	enum state {
		empty,
		exist,
		delete
	};
	template<class k, class v>
	struct hashdata {
		pair<k, v> _kv;
		state _state = empty; // 标记
	};
	template<class k, class v, class hash = hashfunc<k>>
	class hashtable {
	public:
		hashtable(size_t size = 10)
		{
			_tables.resize(size);
		}
		hash hs;
		hashdata<k, v>* find(const k& key)
		{
			size_t hashi = hs(key) % _tables.size();
			while (_tables[hashi]._state != empty)
			{
				if (_tables[hashi]._state == exist && hs(_tables[hashi]._kv.first) == hs(key))
				{
					return &_tables[hashi];
				}
				else {
					hashi++;
					hashi %= _tables.size();
				}
			}
			return nullptr;
		}
		bool insert(const pair<k, v>& kv)
		{
			if (find(kv.first))
			{
				return false;
			}
			if (_n * 10 >= _tables.size() * 7)
			{
				//扩容
				size_t newsize = _tables.size() * 2;
				hashtable<k, v> newht(newsize);
				for (auto& e : _tables)
				{
					if (e._state == exist)
					{
						newht.insert(e._kv);
					}
				}
				_tables.swap(newht._tables);
			}
			hash hs;
			size_t hashi = hs(kv.first) % _tables.size();
			while (_tables[hashi]._state == exist)
			{
				hashi++;
				hashi %= _tables.size();
			}
			_tables[hashi]._kv = kv;
			_tables[hashi]._state = exist;
			_n++;
			return true;
		}
		bool erase(const k& key)
		{
			hash hs;
			size_t hashi = hs(key) % _tables.size();
			while (_tables[hashi]._state != empty)
			{
				if (_tables[hashi]._kv.first == key)
				{
					_tables[hashi]._state = delete;
					_n--;
					return true;
				}
				++hashi;
				hashi %= _tables.size();
			}
			return false;
		}
	private:
		vector<hashdata<k, v>> _tables;
		size_t _n = 0;
	};
}
三、开散列拉链法/哈希桶
(一)概念:
开散列法又叫链地址法(开链法),首先对关键码集合用散列函数计算散列地址,具有相同地址的关键码归于同一子集合,每一个子集合称为一个桶,各个桶中的元素通过一个单链表链接起来,各链表的头结点存储在哈希表中。
 
 根据上图可以看出,开散列中每个桶中放的都是发生哈希冲突的元素。
 首先每个桶的元素都是通过一个单链表链接起来,各个链表的头节点都存储在哈希表中。
 因此需要先创建单链表节点的类。
 代码实现如下:
template<class t>
	struct hashnode {
		typedef hashnode<t> node;
		hashnode(const t& data)
			:_next(nullptr)
			,_data(data)
		{}
		node* _next;
		t _data;
	};
仿函数在开放地址法已经写好,直接使用即可。
代码如下:
/* 
仿函数处理key 
当遇到不同类型的key值时,都需要将key值转为size_t类型,再将size_t类型的值通过哈希
函数转换为地址。
*/
template<class k>
struct hashfunc {
	size_t operator()(const k& key)
	{
		return (size_t)key;
	}
};
template<>
struct hashfunc<string> {
	size_t& operator()(const string& s)
	{
		size_t hash = 0;
		for (auto e : s)
		{
			hash += e;
			hash *= 131;
		}
		return hash;
	}
};
-  查找
 通过哈希函数计算出关键字在哪个桶中,接下来只需遍历这个桶即可。
		node* find(const k& key)
		{
			hash hs; // 仿函数
			size_t hashi = hs(key) % _tables.size(); // 计算在哪一个桶
			node* cur = _tables[hashi];
			while (cur)
			{
				if (cur->_kv.first == key)
				{
					return cur;
				}
				cur = cur->_next;
			}
			return nullptr;
		}
-  插入
 所实现的哈希桶中,值时唯一的。首先使用哈希函数,计算出key值所在的哈希地址,如果发现关键字已经存在,则返回false。
代码实现如下:
		bool insert(const pair<k, v>& kv)
		{
			/*
			寻找哈希桶中是否已经存在要插入的值,如果存在则返回false。   
			*/
			if (find(kv.first))
				return false;
			hash hs;
			// 负载因子到1就扩容
			if (_n == _tables.size())
			{
				vector<node*> newtables(_tables.size()*2, nullptr);
				for (size_t i = 0; i < _tables.size(); i++)
				{
					// 取出旧表中节点,重新计算挂到新表桶中
					node* cur = _tables[i];
					while (cur)
					{
						node* next = cur->_next;
						// 头插到新表
						size_t hashi = hs(cur->_kv.first) % newtables.size();
						cur->_next = newtables[hashi];
						newtables[hashi] = cur;
						cur = next;
					}
					_tables[i] = nullptr;
				}
				_tables.swap(newtables);
			}
			size_t hashi = hs(kv.first) % _tables.size();
			node* newnode = new node(kv);
			// 头插
			newnode->_next = _tables[hashi];
			_tables[hashi] = newnode;
			++_n;
			return true;
		}
-  删除
 首先计算出桶的位置,接下来在桶中找到这个值,如果存在则删除,但是要先保存即将删除节点的前一个节点,这样在删除节点后才可以将链表重新连接在一起。
 如果删除的节点是第一个节点,则没有前一个节点,此时就直接将此节点和计算出的桶的位置连接起来。
		bool erase(const k& key)
		{
			hash hs;
			size_t hashi = hs(key) % _tables.size(); 
			node* prev = nullptr;
			node* cur = _tables[hashi];
			while (cur)
			{
				if (cur->_kv.first == key)
				{
					// 删除
					if (prev)  // 存在前一个节点
					{
						prev->_next = cur->_next;
					}
					else      //不存在前一个节点
					{
						_tables[hashi] = cur->_next;
					}
					delete cur;
					--_n;
					return true;
				}
				prev = cur;
				cur = cur->_next;
			}
			return false;
		}
(二)开散列整体代码模拟实现:
	// t -> k 
	// t -> pair<k,v>
	
	template<class t>
	struct hashnode {
		typedef hashnode<t> node;
		hashnode(const t& data)
			:_next(nullptr)
			,_data(data)
		{}
		node* _next;
		t _data;
	};
	template<class k, class t, class keyoft, class hash>
		
	//封装迭代器
	class hashtable;
	template<class k, class t, class keyoft, class hash>
	struct __htiterator {
		typedef hashtable<k, t, keyoft, hash> ht;
		typedef hashnode<t> node;
		typedef __htiterator<k, t, keyoft, hash> self;
		node* _node;
		ht* _ht;
		__htiterator(node* node,ht* ht)
			:_node(node)
			,_ht(ht)
		{}
		self& operator++()
		{
			if (_node->_next)
			{
				_node = _node->_next;
			}
			else {
				keyoft kot;
				hash hs;
				size_t hashi = hs(kot(_node->_data))% _ht->_tables.size();
				hashi++;
				while (hashi <_ht->_tables.size())
				{
					if (_ht->_tables[hashi])
					{
						_node = _ht->_tables[hashi];
						break;
					}
					hashi++;
				}
				//后面没有桶了
				if (hashi == _ht->_tables.size())
				{
					_node = nullptr;
				}
			}
			return *this;
		}
		t& operator*()
		{
			return _node->_data;
		}
	    bool operator!=(const self& s)
		{
			return _node != s._node;
		}
	};
	// 	前置声明
	template<class k, class t,class keyoft, class hash>
	class hashtable {
	public:
		template<class k, class t, class keyoft, class hash>
		friend struct __htiterator;
		typedef hashnode<t> node;
		typedef __htiterator<k, t, keyoft, hash> iterator;
		iterator begin()
		{
			for (size_t i = 0; i < _tables.size(); i++)
			{
				if (_tables[i]) {
					return iterator(_tables[i], this);
				}
			}
			return end();
		}
		iterator end()
		{
			return iterator(nullptr, this);
		}
		hashtable(size_t size = 10)
		{
			_tables.resize(size, nullptr);
			_n = 0;
		}
		~hashtable()
		{
			for (int i = 0; i < _tables.size(); i++)
			{
				node* cur = _tables[i];
				while (cur)
				{
					node* next = cur->_next;
					delete cur;
					cur = next;
				}
				_tables[i] = nullptr;
			}
		}
		bool insert(const t& kv)
		{
			keyoft kot;
			if (find(kot(kv)) != end())
			{
				return false;
			}
			hash hs;
			// 负载因子到1就扩容
			if (_tables.size() == _n)
			{
				size_t newsize = _tables.size() * 2;
				vector<node*> new_tables(newsize,nullptr);
				// 取出旧表当中的节点,重新计算挂到新的表桶中
				for (int i = 0; i < _tables.size(); i++)
				{
					node* cur = _tables[i];
					while (cur)
					{
						node* next = cur->_next;
						// 头插到新表
						size_t hashi = hs(kot(cur->_data)) % newsize;
						cur->_next = new_tables[hashi];
						new_tables[hashi] = cur;
						cur = next;
					}
					_tables[i] = nullptr;
				}
				_tables.swap(new_tables);
			}
			size_t hashi = hs(kot(kv)) % _tables.size();
			node* newnode = new node(kv);
			newnode->_next = _tables[hashi];
			_tables[hashi] = newnode;
			++_n;
			return true;
		}
		iterator find(const k& key)
		{
			keyoft kot;
			hash hs;
			size_t hashi = hs(key) % _tables.size();
			node* cur = _tables[hashi];
			while (cur)
			{
				if (kot(cur->_data) == key)
				{
					return iterator(cur,this);
				}
				
				cur = cur->_next;
			}
			return iterator(nullptr,this);
		}
		bool erase(const k& key)
		{
			keyoft kot;
			hash hs;
			size_t hashi = hs(key) % _tables.size();
			node* prev = nullptr;
			node* cur = _tables[hashi];
			while (cur)
			{
				if (kot(cur->_data) == key)
				{
					if (prev)
					{
						prev->_next = cur->_next;
					}
					else {
						_tables[hashi] = cur->_next;
					}
					delete cur;
					return true;
				}
				else {
					prev = cur;
					cur = cur->_next;
				}
			}
			return false;
		}
	private:
		vector<node*> _tables;
		size_t _n;
	};
}
(三)unorderset的封装
template<class k>
class set
{
	struct setkeyoft
	{
		const k& operator()(const k& key)
		{
			return key;
		}
	};
	
	public:
			typedef typename hash_bucket::hashtable<k, k, setkeyoft, hash>::iterator iterator;
	
			iterator begin()
			{
				return _ht.begin();
			}
	
			iterator end()
			{
				return _ht.end();
			}
	
	
			bool insert(const k& key)
			{
				return _ht.insert(key);
			}
	
	
			iterator find(const k& key)
			{
				return _ht.find(key);
			}
	
			bool erase(const k& key)
			{
				_ht.erase(key);
			}
	private:
		hash_bucket::hashtable<k,k,setkeyoft> _ht;  // 底层使用哈希桶实现
}
(四)unordermap的封装
template<class k,class v>
class map
{
	struct mapkeyoft
	{
		const k& operator()(const pair<k,v>& kv)
		{
			return kv.first;
		}
	};
		public:
			typedef typename hash_bucket::hashtable<k, pair<k, v>, mapkeyoft, hash>::iterator iterator;
	
			iterator begin()
			{
				return _ht.begin();
			}
	
			iterator end()
			{ 
				return _ht.end();
			}
	
			bool insert(const pair<k, v>& kv)
			{
				return _ht.insert(kv);
			}
			iterator find(const k& kv)
			{
				return _ht.find(kv);
			}
	
			bool erase(const k& kv)
			{
				_ht.erase(key);
			}
	
	private:
		hash_bucket::hashtable<k,pair<k,v>,mapkeyoft> _ht;  // 底层使用哈希桶实现
}
 
             我要评论
我要评论 
                                             
                                             
                                             
                                             
                                            
发表评论