散列冲突与作为特征值的散列散列冲突与作为特征值的散列

缘起
写这篇文章，源于这么一个问题：假设目前有一千万个URL访问记录，请统计最热门的10个查询串。(见此文)。见到这个问题的第一想法使用hash解决，没考虑hash冲突解决的问题(其实就没想比较URL，不比较URL无法判断冲突与否)。后来意识到hash解法在内存受限情况下存在致命缺陷，才有写这个blog的想法。
散列/散列函数
Hash，一般翻译做“散列”，也音译为哈希，就是把任意长度的输入（又叫做预映射， pre-image），通过散列算法(散列函数)，变换成固定(或不定)长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，而不可能从散列值来唯一的确定输入值。散列函数（或散列算法，Hash Function）是一种从任何一种数据中创建小的数字“指纹”的方法。该函数将数据打乱混合，重新创建一个叫做散列值的指纹。
作为特征值的散列
散列函数是一种从任何一种数据中创建小的数字“指纹”的方法。密码学上的 Hash 又被称为"消息摘要(message digest)"。简言之，“指纹”、“信息摘要”本质就是数据的特征值，即散列函数可用于提取数据的特征值。在模式识别中，由于处理原始数据比较困难，经常通过提取数据的多维特征值来简化数据处理。
最佳的特征值是能完全表征数据的特征值，实际当中很难找到，不管是一维还是多维的特征值。完美散列就是希望能够找到能唯一表征原始数据的散列函数。
散列函数有一个基本特性：输出不同，原始数据必然不同；输出相同，原始数据可能不同。将无限定义域映射成有限值域必然存在冲突。加密散列函数是很不错的散列函数，其输出是一个很大的整数，值域很大，故冲突较少。
因为散列值无法唯一表征原始数据，故冲突判断只能通过比较原始数据方能得知。作为特征值的哈希值非常适合用于判断原始数据是否不同，比如文件、图片等。
MPQ散列函数
MPQ使用文件名哈希表来跟踪内部的所有文件。算法使用了3种不同的哈希：一个用于哈希表的下标，两个用于验证。这两个验证哈希替代了实际文件名。其本质就是使用3个哈希值来表征文件，当然，mpq无法解决散列冲突问题：即相同的3个哈希值对应两个不用的文件。
容忍冲突的散列(什么场合冲突可容忍？)
原始问题：假设目前有一千万个记录（这些查询串的重复度比较高，虽然总数是1千万，但如果除去重复后，不超过3百万个。一个查询串的重复度越高，说明查询它的用户越多，也就是越热门。），请你统计最热门的10个查询串，要求使用的内存不能超过1G。
问题1：将记录规模扩大1000倍，即几十亿的记录，内存几十G。
问题2：将记录规模扩大1000倍，即几十亿的记录，内存几G。即在内存受限的情况下，如何处理数据。(内存读写比硬盘快100倍以上，随机读写估计在1w倍以上，直接以磁盘空间代替内存空间的做法就不用提了)
对于问题1，想过一个算法：元数据存于内存+URL存磁盘。元数据：URL哈希值、访问计数，文件偏移量；所有的URL均存在磁盘中。这个算法有个前提：忽略冲突，将URL哈希值作为URL的唯一表征。元数据量不大((8+8+8)*1G=24G)可全部在内存中存放，处理很快；比较URL哈希值远比直接比较URL快；URL采用追加方式写入磁盘，效率也不是问题。但是忽略冲突却是一个致命的缺陷。
当然可以采取一些措施来减少哈希冲突，如采用128为哈希值，采用多维特征值(URL长度，双哈希值(可直接使用中间哈希值和最终哈希值))，但这些都无法保证无冲突，即不可能采用有限的特征来表示无限的URL空间！
分布式方案mapreduce
元问题：如果不能直接使用内存来处理所有的数据，那么问题1和2就退化成同样的问题：如何在内存受限的情况下处理大规模的数据？
这样的问题有通用解法：map-reduce。即先对数据分类(独立的类别)，再分别处理，最终归并结果。
1) 将原始记录通过hash分别记录到不同的N个文件(同一个URL只出现在一个文件中)；
2) 分别对N个文件做统计处理，排序输出；
【散列冲突与作为特征值的散列】3) 采用最小堆挑出最热门的m个记录。
经过这么分类之后，这个算法本质上是可并行处理的，很容易在分布式集群中实现。“分而治之”的办法真的很实用(怎么分很重要)。Mapraduce的思想也很通用。
参考文献：
从头到尾彻底解析Hash 表算法
wiki散列
wiki散列函数

散列冲突与作为特征值的散列

推荐阅读

定期定额网上申报演示网上申报缴税点击哪里，已经申报去大厅缴税要带什么

linux 路由分析

安卓手机怎么备份应用软件,手机备份软件有哪些?

监控网站,全球实况摄像头实时监控网站

304的不锈钢板多少钱一吨 304不锈钢材

如何解决爱普生l201废墨清零问题

通过|通过 Hibernate 实现 JPA 对象关系模型之继承映射策略

记录点滴留住美好的说说满满的回忆优美句子短句

新鲜艾叶可不可以泡脚

电商运营技术学习什么好

2020.4.11给儿子老师的假期汇报

建设用地规划许可证是什么

《七龙珠》,《龙珠Z》《龙珠改》,《龙珠超》,我都傻傻分不清了,哪位大神给我缕缕清楚,怎么看顺序？

哪里可以找到大量微商？

路由打印服务器教程怎么用路由器做打印服务器

秋葵吃了会拉肚子吗

次密接的同住人需要隔离吗

怎么利用抖音卖u盘，抖音上卖u盘的需要大量进货吗

躺着拍照姿势躺着拍照

redis处理性能高的原因 cpu架构影响redis