彻底理解Golang Map 本文目录如下 , 阅读本文后,将一网打尽下面Golang Map相关面试题
Go中的map是一个指针,占用8个字节,指向hmap结构体;源码 src/runtime/map.go 中可以看到map的底层结构
每个map的底层结构是hmap,hmap包含若干个结构为bmap的bucket数组 。每个bucket底层都采用链表结构 。接下来,go语言中的集合我们来详细看下map的结构
bmap就是我们常说的“桶”,一个桶里面会最多装 8 个 key,这些 key 之所以会落入同一个桶,是因为它们经过哈希计算后,哈希结果是“一类”的,关于key的定位我们在map的查询和插入中详细说明 。在桶内 , 又会根据 key 计算出来的 hash 值的高 8 位来决定 key 到底落入桶内的哪个位置(一个桶内最多有8个位置) 。
bucket内存数据结构可视化如下go语言中的集合:
注意到 key 和 value 是各自放在一起的,并不是key/value/key/value/...这样的形式 。源码里说明这样的好处是在某些情况下可以省略掉 padding字段,节省内存空间 。
当 map 的 key 和 value 都不是指针,并且 size 都小于 128 字节的情况下,会把 bmap 标记为不含指针,这样可以避免 gc 时扫描整个 hmap 。但是,我们看 bmap 其实有一个 overflow 的字段,是指针类型的 , 破坏go语言中的集合了 bmap 不含指针的设想,这时会把 overflow 移动到 extra 字段来 。
map是个指针,底层指向hmap,所以是个引用类型
golang 有三个常用的高级类型 slice 、map、channel,它们都是 引用类型 ,当引用类型作为函数参数时,可能会修改原内容数据 。
golang 中没有引用传递,只有值和指针传递 。所以 map 作为函数实参传递时本质上也是值传递,只不过因为 map 底层数据结构是通过指针指向实际的元素存储空间,在被调函数中修改 map , 对调用者同样可见,所以 map 作为函数实参传递时表现出了引用传递的效果 。
因此,传递 map 时,如果想修改map的内容而不是map本身,函数形参无需使用指针
map底层数据结构是通过指针指向实际的元素 存储空间 , 这种情况下,对其中一个map的更改,会影响到其go语言中的集合他map
map 在没有被修改的情况下,使用 range 多次遍历 map 时输出的 key 和 value 的顺序可能不同 。这是 Go 语言的设计者们有意为之,在每次 range 时的顺序被随机化,旨在提示开发者们,Go 底层实现并不保证 map 遍历顺序稳定,请大家不要依赖 range 遍历结果顺序 。
map 本身是无序的 , 且遍历时顺序还会被随机化 , 如果想顺序遍历 map,需要对 map key 先排序,再按照 key 的顺序遍历 map 。
map默认是并发不安全的,原因如下:
Go 官方在经过了长时间的讨论后,认为 Go map 更应适配典型使用场景(不需要从多个 goroutine 中进行安全访问),而不是为了小部分情况(并发访问),导致大部分程序付出加锁代价(性能),决定了不支持 。
【go语言中的集合 go set集合】 场景:2个协程同时读和写,以下程序会出现致命错误:fatal error: concurrent map writes
如果想实现map线程安全,有两种方式:
方式一:使用读写锁map+sync.RWMutex
方式二:使用golang提供的sync.Map
sync.map是用读写分离实现的,其思想是空间换时间 。和map+RWLock的实现方式相比 , 它做了一些优化:可以无锁访问read map,而且会优先操作read map , 倘若只操作read map就可以满足要求(增删改查遍历),那就不用去操作write map(它的读写都要加锁) , 所以在某些特定场景中它发生锁竞争的频率会远远小于map+RWLock的实现方式 。
golang中map是一个kv对集合 。底层使用hash table,用链表来解决冲突 ,出现冲突时,不是每一个key都申请一个结构通过链表串起来 , 而是以bmap为最小粒度挂载 , 一个bmap可以放8个kv 。在哈希函数的选择上 , 会在程序启动时 , 检测 cpu 是否支持 aes,如果支持,则使用 aes hash,否则使用 memhash 。
map有3钟初始化方式,一般通过make方式创建
map的创建通过生成汇编码可以知道,make创建map时调用的底层函数是 runtime.makemap。如果go语言中的集合你的map初始容量小于等于8会发现走的是 runtime.fastrand 是因为容量小于8时不需要生成多个桶,一个桶的容量就可以满足
makemap函数会通过fastrand创建一个随机的哈希种子 , 然后根据传入的hint计算出需要的最小需要的桶的数量,最后再使用makeBucketArray 创建用于保存桶的数组,这个方法其实就是根据传入的B计算出的需要创建的桶数量在内存中分配一片连续的空间用于存储数据,在创建桶的过程中还会额外创建一些用于保存溢出数据的桶 , 数量是2^(B-4)个 。初始化完成返回hmap指针 。
找到一个 B,使得 map 的装载因子在正常范围内
Go 语言中读取 map 有两种语法:带 comma 和 不带 comma 。当要查询的 key 不在 map 里 , 带 comma 的用法会返回一个 bool 型变量提示 key 是否在 map 中;而不带 comma 的语句则会返回一个 value 类型的零值 。如果 value 是 int 型就会返回 0,如果 value 是 string 类型 , 就会返回空字符串 。
map的查找通过生成汇编码可以知道,根据 key 的不同类型,编译器会将查找函数用更具体的函数替换,以优化效率:
函数首先会检查 map 的标志位 flags 。如果 flags 的写标志位此时被置 1 了,说明有其他协程在执行“写”操作 , 进而导致程序 panic 。这也说明了 map 对协程是不安全的 。
key经过哈希函数计算后,得到的哈希值如下(主流64位机下共 64 个 bit 位):
m: 桶的个数
从buckets 通过 hashm 得到对应的bucket,如果bucket正在扩容,并且没有扩容完成,则从oldbuckets得到对应的bucket
计算hash所在桶编号:
用上一步哈希值最后的 5 个 bit 位 , 也就是01010,值为 10,也就是 10 号桶(范围是0~31号桶)
计算hash所在的槽位:
用上一步哈希值哈希值的高8个bit 位,也就是 10010111 ,转化为十进制 , 也就是151,在 10 号 bucket 中寻找** tophash 值(HOB hash)为 151* 的 槽位**,即为key所在位置,找到了 2 号槽位,这样整个查找过程就结束了 。
如果在 bucket 中没找到,并且 overflow 不为空,还要继续去 overflow bucket 中寻找,直到找到或是所有的 key 槽位都找遍了 , 包括所有的 overflow bucket 。
通过上面找到了对应的槽位,这里我们再详细分析下key/value值是如何获取的:
bucket 里 key 的起始地址就是 unsafe.Pointer(b)+dataOffset 。第 i 个 key 的地址就要在此基础上跨过 i 个 key 的大?。欢颐怯种溃?value 的地址是在所有 key 之后,因此第 i 个 value 的地址还需要加上所有 key 的偏移 。
通过汇编语言可以看到,向 map 中插入或者修改 key,最终调用的是mapassign函数 。
实际上插入或修改 key 的语法是一样的,只不过前者操作的 key 在 map 中不存在,而后者操作的 key 存在 map 中 。
mapassign 有一个系列的函数,根据 key 类型的不同,编译器会将其优化为相应的“快速函数” 。
我们只用研究最一般的赋值函数mapassign。
map的赋值会附带着map的扩容和迁移,map的扩容只是将底层数组扩大了一倍 , 并没有进行数据的转移,数据的转移是在扩容后逐步进行的,在迁移的过程中每进行一次赋值(access或者delete)会至少做一次迁移工作 。
1.判断map是否为nil
每一次进行赋值/删除操作时,只要oldbuckets != nil 则认为正在扩容,会做一次迁移工作,下面会详细说下迁移过程
根据上面查找过程,查找key所在位置,如果找到则更新 , 没找到则找空位插入即可
经过前面迭代寻找动作,若没有找到可插入的位置,意味着需要扩容进行插入,下面会详细说下扩容过程
通过汇编语言可以看到,向 map 中删除 key , 最终调用的是mapdelete函数
删除的逻辑相对比较简单,大多函数在赋值操作中已经用到过,核心还是找到 key 的具体位置 。寻找过程都是类似的 , 在 bucket 中挨个 cell 寻找 。找到对应位置后 , 对 key 或者 value 进行“清零”操作,将 count 值减 1,将对应位置的 tophash 值置成Empty
再来说触发 map 扩容的时机:在向 map 插入新 key 的时候,会进行条件检测,符合下面这 2 个条件,就会触发扩容:
1、装载因子超过阈值
源码里定义的阈值是 6.5 (loadFactorNum/loadFactorDen),是经过测试后取出的一个比较合理的因子
我们知道 , 每个 bucket 有 8 个空位,在没有溢出,且所有的桶都装满了的情况下,装载因子算出来的结果是 8 。因此当装载因子超过 6.5 时,表明很多 bucket 都快要装满了,查找效率和插入效率都变低了 。在这个时候进行扩容是有必要的 。
对于条件 1,元素太多,而 bucket 数量太少,很简单:将 B 加 1,bucket 最大数量( 2^B )直接变成原来 bucket 数量的 2 倍 。于是,就有新老 bucket 了 。注意 , 这时候元素都在老 bucket 里 , 还没迁移到新的 bucket 来 。新 bucket 只是最大数量变为原来最大数量的 2 倍( 2^B * 2 )。
2、overflow 的 bucket 数量过多
在装载因子比较小的情况下,这时候 map 的查找和插入效率也很低,而第 1 点识别不出来这种情况 。表面现象就是计算装载因子的分子比较小,即 map 里元素总数少 , 但是 bucket 数量多(真实分配的 bucket 数量多,包括大量的 overflow bucket)
不难想像造成这种情况的原因:不停地插入、删除元素 。先插入很多元素,导致创建了很多 bucket,但是装载因子达不到第 1 点的临界值,未触发扩容来缓解这种情况 。之后,删除元素降低元素总数量,再插入很多元素,导致创建很多的 overflow bucket , 但就是不会触发第 1 点的规定,你能拿我怎么办?overflow bucket 数量太多 , 导致 key 会很分散,查找插入效率低得吓人 , 因此出台第 2 点规定 。这就像是一座空城,房子很多 , 但是住户很少,都分散了 , 找起人来很困难
对于条件 2,其实元素没那么多,但是 overflow bucket 数特别多,说明很多 bucket 都没装满 。解决办法就是开辟一个新 bucket 空间,将老 bucket 中的元素移动到新 bucket,使得同一个 bucket 中的 key 排列地更紧密 。这样,原来 , 在 overflow bucket 中的 key 可以移动到 bucket 中来 。结果是节省空间,提高 bucket 利用率 , map 的查找和插入效率自然就会提升 。
由于 map 扩容需要将原有的 key/value 重新搬迁到新的内存地址,如果有大量的 key/value 需要搬迁,会非常影响性能 。因此 Go map 的扩容采取了一种称为“渐进式”的方式,原有的 key 并不会一次性搬迁完毕 , 每次最多只会搬迁 2 个 bucket 。
上面说的hashGrow()函数实际上并没有真正地“搬迁”,它只是分配好了新的 buckets,并将老的 buckets 挂到了 oldbuckets 字段上 。真正搬迁 buckets 的动作在growWork()函数中,而调用growWork()函数的动作是在 mapassign 和 mapdelete 函数中 。也就是插入或修改、删除 key 的时候,都会尝试进行搬迁 buckets 的工作 。先检查 oldbuckets 是否搬迁完毕,具体来说就是检查 oldbuckets 是否为 nil 。
如果未迁移完毕,赋值/删除的时候,扩容完毕后(预分配内存),不会马上就进行迁移 。而是采取 增量扩容 的方式,当有访问到具体 bukcet 时 , 才会逐渐的进行迁移(将 oldbucket 迁移到 bucket)
nevacuate 标识的是当前的进度,如果都搬迁完,应该和2^B的长度是一样的
在evacuate 方法实现是把这个位置对应的bucket , 以及其冲突链上的数据都转移到新的buckets上 。
转移的判断直接通过tophash 就可以 , 判断tophash中第一个hash值即可
遍历的过程,就是按顺序遍历 bucket,同时按顺序遍历 bucket 中的 key 。
map遍历是无序的,如果想实现有序遍历,可以先对key进行排序
为什么遍历 map 是无序的?
如果发生过迁移 , key 的位置发生了重大的变化,有些 key 飞上高枝,有些 key 则原地不动 。这样,遍历 map 的结果就不可能按原来的顺序了 。
如果就一个写死的 map,不会向 map 进行插入删除的操作 , 按理说每次遍历这样的 map 都会返回一个固定顺序的 key/value 序列吧 。但是 Go 杜绝了这种做法,因为这样会给新手程序员带来误解 , 以为这是一定会发生的事情,在某些情况下,可能会酿成大错 。
Go 做得更绝,当我们在遍历 map 时,并不是固定地从 0 号 bucket 开始遍历 , 每次都是从一个**随机值序号的 bucket开始遍历,并且是从这个 bucket 的一个 随机序号的 cell **开始遍历 。这样,即使你是一个写死的 map,仅仅只是遍历它,也不太可能会返回一个固定序列的 key/value 对了 。
Golang数据结构与算法全能战士今天给大家推荐是由Social Explorer团队开源的gods框架,自称"上帝",听这个名字就很霸气,正确的解释是GoDS(Go Data Structures) , 是数据结构与算法相关的框架 。
全能战士,该框架覆盖了数据结构与算法里,大部分容器、集合类的实现, 比golang 的标准开发包提供更丰富的数据结构 。
在Go中实现各种数据结构和算法 。
吸取了其他算法库数十年的知识和经验 。
通过针对给定的一组问题使用最佳算法和数据结构来避免消耗内存,例如 , 在TreeMap的情况下,红黑树避免在内存中保留冗余排序的键数组 。
结构良好的库,具有简单的原子操作集,胜任复杂的数据操作 。
保持库向后兼容
可参考的例子非常多
可以方便集成到产品中.
没有额外的导入.当实现算法的时候 , go语言中的集合我们通常要在时间效率与内存消耗之间权衡,go语言中的集合我们选择在内存首先的情况下,不断优化得到最好的时间效率;线程安全不是重点,应该在更高的应用层上处理 。
囊括了列表,栈,图 , 树等基本数据结构 , 集合实现了HashSet, TreeSet, LinkedHashSet,列表实现ArrayList, SinglyLinkedList, DoublyLinkedList,对栈实现LinkedListStack, ArrayStack,图实现了HashMap, TreeMap, HashBidiMap, TreeBidiMap, LinkedHashMap,树实现了RedBlackTree, AVLTree, BTree,BinaryHeap,都经过性能测试的考验,值得信赖 。
对于Golang开发而言,gods对底层数据结构做很好的封装,Social Explorer团队在数据处理领域,数据可视化领域有极具竞争力的产品,相信在数据处理领域有很深的积淀,才创造这么优秀的框架,由于篇幅限制,相关图片展示效果不好,感兴趣的上去看看 。
:
GitHub
希望大家能从emirpasic/gods学到有价值的东西 。
愿我们在Go 语言的学习之路上从此结伴而行
Go语言数组去重在使用Go语言go语言中的集合的时候,碰到go语言中的集合了需要对数组进行去重操作go语言中的集合的问题 。Java语言有Set集合这个数据结构,可以很方便的将数组转为集合,但是Go语言没有Set,如果仅仅是因为去重操作就手动实现一个Set太繁琐了 。可以根据Go语言中的map的特性来简单实现一下
这个是对字符串数组去重操作 。可以根据需要的类型稍作修改即可 。需要注意的是只支持可以作为map键的结构进行去重go语言中的集合!
Go语言文件操作本文主要介绍了Go语言中文件读写的相关操作 。
文件是什么?
计算机中的文件是存储在外部介质(通常是磁盘)上的数据集合,文件分为文本文件和二进制文件 。
os.Open() 函数能够打开一个文件,返回一个 *File 和一个 err。对得到的文件实例调用 close() 方法能够关闭文件 。
为了防止文件忘记关闭,我们通常使用defer注册文件关闭语句 。
Read方法定义如下:
它接收一个字节切片,返回读取的字节数和可能的具体错误,读到文件末尾时会返回 0 和 io.EOF。举个例子:
使用for循环读取文件中的所有数据 。
bufio是在file的基础上封装了一层API,支持更多的功能 。
io/ioutil 包的 ReadFile 方法能够读取完整的文件,只需要将文件名作为参数传入 。
os.OpenFile() 函数能够以指定模式打开文件,从而实现文件写入相关功能 。
其中:
name :要打开的文件名flag :打开文件的模式 。模式有以下几种:
perm :文件权限 , 一个八进制数 。r(读)04,w(写)02,x(执行)01 。
关于go语言中的集合和go set集合的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站 。
推荐阅读
- vmware连主机虚拟串口,虚拟机连接虚拟串口
- 电脑恢复升级到ios11,电脑升级之后怎么恢复
- sap服务销售订单,sap服务销售订单 权利
- 手机来电时怎么显示归属地,手机来电显示归属地怎么弄
- 医保项java代码目实现 java医疗
- 阿里云海外服务器ss,阿里云海外服务器国内可以访问吗
- 安卓车机升级鸿蒙,车机升级鸿蒙教程
- 直播勋章录屏怎么录视频,抖音直播间勋章怎么得
- 服务器备份与恢复,服务器备份与恢复数据失败的原因及解决办法