图像特征（四）hash特征求职

感知哈希算法：
1.基于低频的均值哈希
一张图片就是一个二维信号，它包含了不同频率的成分。如下图所示，亮度变化小的区域是低频成分，它描述大范围的信息。而亮度变化剧烈的区域（比如物体的边缘）就是高频的成分，它描述具体的细节。或者说高频可以提取图片详细的信息，而低频可以提供一个框架。

文章图片

而一张大的，详细的图片有很高的频率，而小图片缺乏图像细节，所以都是低频的。所以我们平时的下采样，也就是缩小图片的过程，实际上是损失高频信息的过程。

文章图片

均值哈希算法主要是利用图片的低频信息，其工作过程如下：
（1)缩小尺寸：去除高频和细节的最快方法是缩小图片，将图片缩小到8*8尺寸，总共64个像素。不要保持纵横比，只需将其变成8*8的正方形。这样就可以比较任意大小的图片，摒弃不同尺寸、比例带来的图片差异。
（2）简化色彩：将8*8的小图片转化成灰度图像。
（3）计算平均值：计算所有64个像素的灰度平均值。
（4）比较像素的灰度：将每个像素的灰度，与平均值进行比较。大于或等于平均值，记为1；小于平均值，记为0.
（5）计算hash值：将上一步的比较结果，组合在一起，就构成了一个64位的整数，这就是这张图片的指纹。组合的次序并不重要，只要保证所有图片都采用同样次序就行了。
最大的优点：计算速度快。
【图像特征（四）hash特征】2.增强版：pHash
均值哈希虽然简单，但受均值的影响非常大。例如对图像进行伽马校正或直方图均衡就会影响均值，从而影响最终的hash值。存在一个更健壮的算法叫pHash。他将均值的方法发挥到极致。使用离散余弦变换（DCT）来获取图片的低频成分。
离散余弦变换（DCT）是种图像压缩算法，它将图像从像素域变换到频率域。然后一般图像都存在很多冗余和相关性的，所以转换到频率域之后，只有很少一部分频率分量的系数才不为0，大部分系数都为0（或者说接近于0）。下图的右图是对左图进行离散余弦变换得到的系数矩阵。从左上角依次到右下角，频率越来越高，由图可以看到，左上角的值比较大，到右下角的值就很小很小了。换句话说，图像的能量几乎都集中在左上角这个地方的低频系数上面了。
pHash的工作过程如下：
（1）缩小尺寸：pHash以小图片开始，但图片大于8*8,32*32是最好的。这样做的目的是简化了DCT的计算，而不是减小频率。
（2）简化色彩：将图片转化成灰度图像，进一步简化计算量。
（3）计算DCT：计算图片的DCT变换，得到32*32的DCT系数矩阵。
（4）缩小DCT：虽然DCT的结果是32*32大小的矩阵，但我们只要保留左上角的8*8的矩阵，这部分呈现了图片中的最低频率。
（5）计算平均值：如同均值哈希一样，计算DCT的均值。
（6）计算hash值：这是最主要的一步，根据8*8的DCT矩阵，设置0或1的64的hash值，大于等于DCT均值的设为1，小于DCT均值的设为0.组合在一起，就构成了一个64位的整数，这就是这张图片的指纹。
结果并不能告诉我们真实性的低频率，只要粗略的告诉我们相对于平均值频率的相对比例。只要图片的整体结构保持不变，hash结果值就不变。能够避免伽马矫正或颜色直方图被调整带来的影响。
与均值哈希一样，pHash同样可以用汉明距离来进行比较。

图像特征（四）hash特征

推荐阅读

原神雪山再勘探任务怎么做原神雪山再勘探任务攻略

QQ飞车手游1周年雄狮获得方法绝版专属新载具获得技巧

超级p57的减肥效果超级p57怎样服用

退休工资计算例子退休工资怎么算

snmp抓包分析

电商供货如何去找客户，做电商怎么找供货商

suv的分类标准 suv级别划分标准

店铺售假扣24分删除全部宝贝封店,多久才能重开？

如果你有888点卷你会买赵云的哪个皮肤？

音爵士音响电子厂|防水专业音响的具体介绍及防水处理方法——声拓电子音爵士

网咖如何计费使用网咖如何计费，网咖如何计费用

洗洁精加牙膏可以做起泡胶吗

热饭热菜可以直接放冰箱吗

曾有你的森林翡翠贝儿曾经有你的森林

爱普生L1300清零-如何使用epson l1300清零软件清零步骤

土豆泥天鹅泡芙的做法

道高望重名词解释道高望重什么意思

微信收款语音怎么设置手机微信收款语音播报怎么设置

如何在云端服务器上实现分屏功能？云端服务器怎么用分屏

美国的自由女神很有名,为什么美国航空母舰不以自由女神命名？