XML 转义字符

转义字符 不合法的XML字符必须被替换为相应的实体。
【XML 转义字符】如果在XML文档中使用类似"<" 的字符, 那么解析器将会出现错误,因为解析器会认为这是一个新元素的开始。所以不应该象下面那样书写代码:

if salary < 1000 then

为了避免出现这种情况,必须将字符"<" 转换成实体,象下面这样:
if salary1000 then

下面是五个在XML文档中预定义好的实体:
< < 小于号
> > 大于号
& &
' ' 单引号
" " 双引号

实体必须以符号"&"开头,以符号"; "结尾 注意: 只有"<" 字符和"&"字符对于XML来说是严格禁止使用的。剩下的都是合法的,为了减少出错,使用实体是一个好习惯。
CDATA部件 在CDATA内部的所有内容都会被解析器忽略。
如果文本包含了很多的"<"字符和"&"字符——就象程序代码一样,那么最好把他们都放到CDATA部件中。
一个 CDATA 部件以"" 标记开始,以"]]>"标记结束:

在前面的例子中,所有在CDATA部件之间的文本都会被解析器忽略。
CDATA注意事项:
CDATA部件之间不能再包含CDATA部件(不能嵌套)。如果CDATA部件包含了字符"]]>" 或者"" ,将很有可能出错哦。
同样要注意在字符串"]]>"之间没有空格或者换行符。



==========================================================================================
RSS中出现了一些麻烦的字符,比如 &,?,?等。这些字符放到XML中,如果不做特殊处理,就会有错误产生。比如下面的XML:
&
在IE 浏览器,以及一些解析用的DOM中解析这个片段,就会产生错误。
在W3C的技术规范中,也可以看到这样的字符不允许出现:
http://www.w3.org/TR/2001/REC-xml-c14n-20010315
比如:对 Text Nodes 允许的字符有如下要求: the string value, except all ampersands are replaced by & , all open angle brackets (< ) are replaced by < , all closing angle brackets (> ) are replaced by > , and all #xD characters are replaced by .
由于这些特殊字符比较多,我们在XML中替换的工作量比较大,我们可以在DTD文件中作些定义:
比如DTD文件中增加以下部分:






并在XML中定义这个XML文件需要这个DTD支持:

这样在XML文件中出现 & ? ? 这类特殊字符就不会再报错了。
有关更多的特殊字符可以参看:
http://xml.coverpages.org/CourtDocument11-2002-05s-DTD.txt
那里罗列的特殊字符有近200个。

    推荐阅读