go语言字符串编码 golang 字符串

golang unicode/utf8源码分析包 utf-8 实现的功能和常量用于文章utf8编码,包含runes和utf8字节序列的转换功能.在unicode中,一个中文占两个字节,utf-8中一个中文占三个字节,golang默认的编码是utf-8编码,因此默认一个中文占三个字节,但是golang中的字符串底层实际上是一个byte数组.
Output:
RuneSelf该值的字节码值为128,在判断是否是常规的ascii码是使用 。hicb字节码值为191. FF 的对应的字节码为255 。
计算字符串中的rune数量,原理:首先取出字符串的码值,然后判断是不是个小于128的,如果是小于则直接continue.rune个数++.
如果是个十六进制f1.的则是无效字符,直接continue.rune个数++,也就是说一个无效的字符也当成一个字长为1的rune.如果字符的码值在first列表中的值和7按位的结果为其字长,比如上面示例中的 钢。其字长为三位,第一位的值为 233 .二进制形式为 11101001 ;与7按位与后的值为0.从acceptRanges中取出的结果为{locb, hicb} 。也就是标识 ox80 到 0xbf 之间的值 。而结果n也就是直接size+3跳过3个字节后 , rune个数++ 。其他函数的处理流程差不多,不再过多叙述 。
示例:
ValidString返回值表明参数字符串是否是一个合法的可utf8编码的字符串 。
RuneCount返回参数中包含的rune数量,第一个例子中将 utf8.RuneCountInString ,改成该方法调用,返回的结果相同 。错误的和短的被当成一个长一字节的rune.单个字符 H 就表示一个长度为1字节的rune.
该函数标识参数是否以一个可编码的rune开头,上面的例子中,因为字符串是以一个ascii码值在0-127内的字符开头,所以在执行
first[p[0]] 时,取到的是 p[0] 是72,在first列表中,127之前的值都相同都为 0xF0 ,十进制标识为240,与7按位与后值为0,所以,直接返回 true .
和FullRune类似,只是参数为字符串形式
Go语言中用下标访问string类型,输出的是什么编码package main
import "fmt"
var arr [2]int //申明一个数组
func main() {
arr[0] = 1 //数组赋值
fmt.Println(arr)
arrtest := [3]int{1, 2, 3} //数组go语言字符串编码的另一种申明方式
fmt.Println(arrtest)
a := [...]int{1, 2} //[...]自动识别数组go语言字符串编码的长度
fmt.Println(a)
fmt.Println(len(a))//输出数组go语言字符串编码的长度
}
下边是slicego语言字符串编码的申明和使用其实这就是一种动态的数组
复制代码 代码如下:
package main
import "fmt"
func main() {
d := []int{1, 2, 3} //申明一个slice这个是动态的数组go语言字符串编码 , 没有长度
fmt.Println(d)
var q, w []int
q = d[0:1] //可以定取得上边的长度
w = d[1:3]
d = append(d, 2) //向其中添加元素
fmt.Println(d)
fmt.Println(q, w)
}
Go中字符串的遍历首先说一下go中的字符串类型:
字符串就是一串固定长度的字符连接起来的字符序列 。Go的字符串是由单个字节连接起来的 。Go语言的字符串的字节使用UTF-8编码标识Unicode文本 。
下面介绍字符串的三种遍历方式,根据实际情况选择即可 。
该遍历方式==缺点==:遍历是按照字节遍历,因此如果有中文等非英文字符,就会出现乱码,比如要遍历"abc北京"这个字符串,效果如下:
可见这不是我们想要的效果 , 根据utf-8中文编码规则,我们要str[3]str[4]str[5]三个字节合起来组成“北”字及 str[6]str[7]str[8]合起来组成“京”字 。由此引出下面第二种遍历方法 。
该方式是按照字符遍历的,所以不会出现乱码,如下:
运行结果:
从图中可以看到第二个汉子“京”的开始下标是6,直接跳过了4和5,可见确实依照utf8编码方式将三个字节组合成了一个汉字,str[3]-str[5]组合成“北”字 , str[6]-str[8]组合成了“京”字 。

推荐阅读