java中代码点 java代码大全及详解

Java中码点是什么意思?码点是指一个编码表中的某个字符对应的代码值 。Unicode的码点分为17个代码级别,第一个级别是基本的多语言级别,码点从U+0000——U+FFFF,其余的16个级别从U+10000——U+10FFFF , 其中包括一些辅助字符 。
Java的char类型包含哪些数据?java的char是2字节,16bit,包含所有ascii字符,而且更多,api文档里有描述
char的数据是通过 UnicodeData 文件中的信息定义的,该文件是 Unicode Consortium 维护的 Unicode Character Database 的一部分 。此文件指定了各种属性,其中包括每个已定义 Unicode 代码点或字符范围的名称和常规类别 。
此文件及其描述可从 Unicode Consortium 获得 , 网址如下:
Unicode 字符表示形式
char 数据类型(和 Character 对象封装的值)基于原始的 Unicode 规范,将字符定义为固定宽度的 16 位实体 。Unicode 标准曾做过修改,以允许那些其表示形式需要超过 16 位的字符 。合法代码点 的范围现在是从 U+0000 到 U+10FFFF , 即通常所说的 Unicode 标量值 。(请参阅 Unicode 标准中 U+n 表示法的定义 。)
从 U+0000 到 U+FFFF 的字符集有时也称为 Basic Multilingual Plane (BMP) 。代码点大于 U+FFFF 的字符称为增补字符 。Java 2 平台在 char 数组以及 String 和 StringBuffer 类中使用 UTF-16 表示形式 。在这种表现形式中,增补字符表示为一对 char 值,第一个值取自高代理项 范围,即 (\uD800-\uDBFF),第二个值取自低代理项 范围,即 (\uDC00-\uDFFF) 。
所以,char 值表示 Basic Multilingual Plane (BMP) 代码点,其中包括代理项代码点,或 UTF-16 编码的代码单元 。int 值表示所有 Unicode 代码点,包括增补代码点 。int 的 21 个低位(最低有效位)用于表示 Unicode 代码点 , 并且 11 个高位(最高有效位)必须为零 。除非另有指定,否则与增补字符和代理项 char 值有关的行为如下:
只接受一个 char 值的方法无法支持增补字符 。它们将代理项字符范围内的 char 值视为未定义字符 。例如 , Character.isLetter('\uD840') 返回 false,即使是特定值 , 如果在字符串的后面跟着任何低代理项值,那么它将表示一个字母 。
接受一个 int 值的方法支持所有 Unicode 字符,其中包括增补字符 。例如,Character.isLetter(0x2F81A) 返回 true,因为代码点值表示一个字母(一个 CJK 象形文字) 。
在 Java SE API 文档中 , Unicode 代码点 用于范围在 U+0000 与 U+10FFFF 之间的字符值 , 而 Unicode 代码点 用于作为 UTF-16 编码的代码单元的 16 位 char 值 。有关 Unicode 技术的详细信息,请参阅 Unicode Glossary 。
Java中代码点和代码单元是什么?怎么理解?举例说明下,它们之间有什么联系有什么区别?为什么代码点代码点就是指javascript型java中代码点的信息点而代码单元指普遍java中代码点的广泛java中代码点的jinmk和gdp信息技术网
java什么是代码点和代码单元【java中代码点 java代码大全及详解】说白了一个代码点就是一个Unicode字符 。代码单元就是代码点的集合 。
字符视图
要了解字符集标准,您必须能区分三种不同的字符视图:
字符集(字符的抽象列表) 。
作为带标量值的“代码点”的字符 。
作为编码数据的字符 。
字符集(字符的抽象列表)
字符集是各种文字(包括拉丁文、西里尔文、中文、朝鲜语、日语、希伯来语和阿拉伯语)中所包含的字符的一个抽象列表,由一百多万个字符组成 。字符集还包括其他符号,例如音符 。
Unicode 和 GB18030 标准都具有字符集 。当某个标准添加了新字符时 , 为了保持对等 , 另一个标准也将添加这些字符 。

推荐阅读