Unicode 5.0标准

Unicode 5.0标准

美国Unicode协会, 著

出版社:清华大学出版社

年代:2009

定价:120.0

书籍简介:

本书Unicode字符数据库是Unicode字符编码标准5.0版本的权威来源。本书能够使开发者为世界范围内的软件用户快速实现最新的先进技术,同时把握高速增长的市场需求。这是一半所有的Unicode开发者都需要拥有的书。

书籍目录:

第1章 绪论 3

1.1 覆盖范围 4

1.1.1 Unicode标准覆盖面 5

1.1.2 新字符 5

1.2 设计目标 5

1.3 文本处理 6

第2章 总结构 11

2.1 前后结构关系 11

2.1.1 基本文本处理过程 11

2.1.2 文本要素、字符和文本处理过程 12

2.1.3 文本处理和编码 13

2.2 Unicode 设计原则 14

2.2.1 通用性 14

2.2.2 有效性 15

2.2.3 字符,而非字形 15

2.2.4 语义 17

2.2.5 纯文本 17

2.2.6 逻辑顺序 18

2.2.7 一致性 19

2.2.8 动态合成 20

2.2.9 稳定性 21

2.2.10 可转换性 21

2.3 兼容性字符 21

2.3.1 兼容性变量 21

2.3.2 兼容性可分解字符 22

2.3.3 映射兼容性字符 22

2.4 代码点和字符 23

2.5 编码格式 25

2.5.1 UTF-32 27

2.5.2 UTF-16 28

2.5.3 UTF-8 28

2.5.4 UTF-32、UTF-16和UTF-8优点的比较 29

2.6 编码方案 30

2.7 Unicode 字符串 32

2.8 Unicode分配 33

2.8.1 平面 33

2.8.2 分配区域和字符代码块 34

2.8.3 代码点的分配 35

2.9 字符分配 35

2.9.1 Plane 0(BMP) 36

2.9.2 Plane 1 38

2.9.3 Plane 2 39

2.9.4 其他平面 39

2.10 书写方向 39

2.11 合成字符 40

2.11.1 基本字符序列和读音符号 41

2.11.2 多重合成字符 42

2.11.3 连字式多重基本字符 44

2.11.4 隔离中的非间隔标记 44

2.11.5 “字符”和字形串 44

2.12 等价序列和规范化 45

2.13 特殊字符和非字符 48

2.13.1 特殊非字符代码点 48

2.13.2 字节顺序标记(BOM) 48

2.13.3 布局和格式控制字符 48

2.13.4 替换字符 49

2.13.5 控制码 49

2.14 Unicode标准的一致性 49

2.14.1 一致性实现的特征 49

2.14.2 不可接受的行为 49

2.14.3 可接受的行为 50

2.14.4 支持的子集 50

第3章 一致性 53

3.1 Unicode标准的版本 53

3.1.1 稳定性 54

3.1.2 版本编号 54

3.1.3 勘误表 55

3.1.4 Unicode标准引用 55

3.1.5 版本引用的精确性 55

3.1.6 Unicode字符属性的引用 56

3.1.7 Unicode算法的引用 56

3.2 一致性要求 56

3.2.1 抽象字符的未指派代码点 57

3.2.2 说明 57

3.2.3 修改 58

3.2.4 字符编码格式 58

3.2.5 字符编码方案 59

3.2.6 双向文本 59

3.2.7 标准化格式 59

3.2.8 标准引用 59

3.2.9 Unicode算法 60

3.2.10 默认大小写算法 60

3.2.11 标准附件 60

3.3 语义 61

3.3.1 定义 61

3.3.2 字符特性及其语义 61

3.4 字符与编码 62

3.5 属性 64

3.5.1 属性的类型 65

3.5.2 属性值 65

3.5.3 标准化属性与信息化属性 67

3.5.4 上下文依赖属性 69

3.5.5 属性的稳定性 69

3.5.6 简单属性与衍生属性 70

3.5.7 属性别名 70

3.5.8 私人使用 71

3.6 合成 71

3.7 分解 73

3.7.1 兼容分解 74

3.7.2 规范分解 74

3.8 替代 75

3.9 Unicode编码格式 76

3.9.1 UTF-32 78

3.9.2 UTF-16 79

3.9.3 UTF-8 79

3.9.4 编码格式转换 81

3.10 Unicode编码方案 81

3.11 规范排序行为 84

3.11.1 合成标记的应用 85

3.11.2 合成类 88

3.11.3 规范排序 89

3.12 连接Jamo行为 90

3.12.1 定义 90

3.12.2 确定Hangul音节界限 91

3.12.3 标准韩语音节 92

3.12.4 Hangul音节构成 93

3.12.5 Hangul音节分解 94

3.12.6 Hangul音节名的生成 95

3.13 默认大小写算法 95

3.13.1 定义 95

3.13.2 默认大小写转换 96

3.13.3 默认大小写探测 97

3.13.4 默认无大小写匹配 98

第4章 字符属性 101

4.1 Unicode字符数据库 102

4.2 大小写形式 103

4.3 合成类 104

4.4 定向 108

4.5 一般分类 108

4.6 数值 110

4.7 Bidi镜像 112

4.8 名称 112

4.9 Unicode 1.0中的名称 114

4.10 字母、字母文字和表意字符 114

4.11 文本边界属性 115

4.12 特殊属性的字符 115

第5章 实现原则 121

5.1 与其他标准的编码转换 121

5.1.1 讨论 121

5.1.2 多级表 122

5.2 编程语言和数据类型 123

5.3 不可知字符和遗漏字符 124

5.3.1 保留字符代码和专用字符代码 124

5.3.2 可解释但不可引用的字符 125

5.3.3 默认属性值 125

5.3.4 默认可忽略代码点 125

5.3.5 与低级系统的交互 125

5.4 UTF-16中替代对的处理 125

5.5 数字的处理 127

5.6 标准化 128

5.7 压缩 129

5.8 换行原则 129

5.8.1 定义 130

5.8.2 行分隔符和段落分隔符 131

5.8.3 建议 131

5.9 正则表达式 133

5.10 纯文本中的语言信息 133

5.10.1 使用语言标签的条件 133

5.10.2 语言标签和汉字的统一 134

5.11 编辑和选择 134

5.12 非间隔标记的处理策略 136

5.12.1 键盘输入 137

5.12.2 字符的截短 137

5.13 非间隔标记的显示 138

5.13.1 规范等价 141

5.13.2 定位方法 142

5.14 定位文本元素边界 144

5.15 标识符 144

5.16 排序与搜索 144

5.16.1 结合文化背景的排序和搜索 144

5.16.2 对语言不敏感的排序(Language-Insensitive Sorting) 145

5.16.3 搜索 145

5.16.4 次线性搜索(Sublinear Searching) 146

5.17 二进制排序 146

5.17.1 UTF-16顺序的UTF-8编码 147

5.17.2 UTF-8顺序的UTF-16编码 147

5.18 大小写映射 148

5.18.1 标题样式 149

5.18.2 大小写映射的复杂性 149

5.18.3 可逆性 151

5.18.4 无大小写区别的匹配 151

5.18.5 标准化 153

5.19 Unicode的安全性 154

5.20 默认的可忽略代码点 156

第6章 书写系统与标点符号 161

6.1 书写系统 161

6.2 一般标点符号 164

6.2.1 标点符号块 166

6.2.2 格式控制符 166

6.2.3 间隔字符 166

6.2.4 破折号与连字符 168

6.2.5 成对的标点符号 169

6.2.6 引号的使用方法 170

6.2.7 撇号 172

6.2.8 其他标点符号 172

6.2.9 古代的标点符号和编辑标记 175

6.2.10 印度标点符号 177

6.2.11 CJK标点符号 177

6.2.12 未知的或难以获得的表意文字 178

6.2.13 CJK兼容格式 179

第7章 欧洲字符 183

7.1 拉丁文 184

7.2 希腊文 195

7.3 科普特文 201

7.4 西里尔文 203

7.5 格拉哥里文 204

7.6 亚美尼亚文 205

7.7 乔治亚文 207

7.8 修饰字母 208

7.9 合成标记 210

第8章 中东字符 221

8.1 希伯来文 222

8.2 阿拉伯文 227

8.3 叙利亚文 241

8.4 马尔代夫文 249

第9章 南亚字符-I 253

9.1 天城体 254

9.2 孟加拉文 270

9.3 果鲁穆奇文 275

9.4 古吉拉特文 279

9.5 奥里亚文 280

9.6 泰米尔文 282

9.7 泰卢固文 288

9.8 埃纳德文 289

9.9 马拉雅拉姆文 292

第10章 南亚字符-Ⅱ 299

10.1 僧伽罗文 299

10.2 藏文 301

10.3 八思巴字 311

10.4 林布文 318

10.5 Syloti Nagri 321

10.6 迦娄士悌文 322

第11章 东南亚字符 331

11.1 泰文 331

11.2 老挝文 334

11.3 缅甸文 337

11.4 高棉文 340

11.5 德宏傣文 351

11.6 新傣文 352

11.7 菲律宾文 353

11.8 布吉文 355

11.9 巴厘文 357

第12章 东亚字符 365

12.1 汉字 366

12.2 象形描述字符 385

12.3 注音符号 389

12.4 平假名和片假名 391

12.5 半角和全角字符 392

12.6 韩文 393

12.7 彝文 396

第13章 附加的现代字符 403

13.1 埃塞俄比亚文 403

13.2 蒙古文 406

13.3 奥斯马尼亚文 415

13.4 提非纳文 415

13.5 NKo字母 416

13.6 切罗基文 420

13.7 加拿大土著语 421

13.8 德塞雷特大学音标 422

13.9 萧伯纳速记符号 424

第14章 古代字符 429

14.1 欧甘文 430

14.2 古意大利文 431

14.3 如尼文 433

14.4 哥特文 435

14.5 线形文字B 436

14.6 塞浦路斯音节文字 437

14.7 腓尼基文 438

14.8 乌加里特楔形文字 440

14.9 古波斯文 441

14.10 苏美尔-阿卡德楔形文字 441

第15章 符号 447

15.1 货币符号 448

15.2 类似字母符号 450

15.3 数字格式 456

15.4 数学符号 460

15.5 不可见数学运算符 465

15.6 技术符号 466

15.7 几何符号 470

15.8 杂类符号和装饰符号 472

15.9 带括号的字母数字和矩形符号 475

15.10 盲文符号 477

15.11 西方音乐符号 478

15.12 拜占庭音乐符号 483

15.13 古希腊音乐符号 484

第16章 特殊区域和格式字符 489

16.1 控制代码 490

16.2 布局控制符 492

16.3 不推荐使用的格式字符 501

16.4 字型变换选择器 503

16.5 专用字符 504

16.6 替代区域 506

16.7 非字符区域 507

16.8 特殊字符 508

16.9 标签字符 512

第17章 编码表 521

17.1 字符名称列表 521

17.2 CJK统一表意文字 527

17.3 韩语音节 528

第18章 汉字偏旁-笔画索引 981

附录A 符号规定 1035

附录B Unicode出版物和资源 1041

附录C 与ISO/IEC 10646的关系 1049

附录D Unicode标准版本的发展历程 1057

附录E 统一汉字字符集的历史 1073

附录F Unicode编码稳定性策略 1077

术语表 1083

参考文献 1111

Unicode名称索引 1137

Unicode标准附件#9 1189

Unicode标准附件#11 1213

Unicode标准附件#14 1221

Unicode标准附件#15 1271

Unicode标准附件#24 1303

Unicode标准附件#29 1311

Unicode标准附件#31 1331

Unicode标准附件#34 1343

Unicode标准附件#41 1349

名家书评 1357

内容摘要:

多年来,Unicode标准的复制版本已经成为我的个人藏书中最重要和使用频率最高的一本书。
——高德纳,美国著名计算机科学家,图灵奖获得者,被誉为现代计算机科学的鼻祖

十几年来,Unicode已经成为许多微软产品和技术的基础。Unicode标准5.0版本将给客户提供更 多新的功能。
——比尔.盖茨,微软公司创始人,前任董事长兼首席执行官   

W3C使网络上的文本真正全球化,而W3C遵从的正是Unicode标准。
——蒂姆.伯纳斯-李,Web 发明者和万维网联盟(W3C )主席

没有Unicode,Java就不能称之为Java,互联网也不能很好地连接全世界的人们。
——詹姆斯.戈士林,Java 之父,SUN 公司全球副总裁

以上权威人士和其他软件领域的专家都意识到,Unicode 已经成为一个支撑与日俱增的全球化市场必不可少的工具。作为一个表示全世界所有字母的标准的综合系统,Unicode 是现代编程技术(Windows 、XML 、Python 、PERL 、Mac OS 和Linux )和当今操作中每种搜索引擎及浏览器的基础。   Unicode 最新版的官方参考手册已经在最新的Unicode 标准修订版文档中有了几百页的更新。其中包括对文本、图表、定义和一致性语句的修订,并为常见问题提供了清晰和正确的答案。本书首次包含了Unicode 标准附件,附件中说明了一些诸如文本标准化和标识符分解等重要的处理过程。这些改进非常重要,所以Unicode 标准5.0 版本是微软公司最新的Windows 7 操作系统的基础,同时该版本也是Google 、Yahoo 和ICU 升级方案的一部分。Unicode标准5.0版本与以前版本的不同之处:
Unicode 安全机制的稳固基础,Unicode 校勘算法和通用区域数据库(CLDP )的属性数据,改进的UTF 8 Unicode 编码模式,严密稳定的大小写重叠和标识符间更好的互用性及后台兼容性能够利用新的方法优化代码,更可靠的文本处理系统框架涵盖合成字符、Unicode 字符串、断行和分段等。

编辑推荐:

以上权威人士和其他软件领域的专家都意识到,Unicode已经成为一个支撑与日俱增的全球化市场必不可少的工具。作为一个表示全世界所有字母的标准的综合系统,Unicode是现代编程技术(Windows、XML、Python、PERL、Mac OS和Linux)和当今操作中每种搜索引擎及浏览器的基础。
Unicode最新版的官方参考手册已经在最新的Unicode标准修订版文档中有了几百页的更新。其中包括对文本、图表、定义和一致性语句的修订,并为常见问题提供了清晰和正确的答案。《Unicode5.0标准》首次包含了Unicode标准附件,附件中说明了一些诸如文本标准化和标识符分解等重要的处理过程。
这些改进非常重要,所以Unicode标准5.0版本是微软公司最新的Windows 7操作系统的基础,同时该版本也是Google、Yahoo和ICU升级方案的一部分。
Unicode标准5.0版本与以前版本的不同之处:
Unicode安全机制的稳固基础
Unicode校勘算法和通用区域数据库(CLDP)的属性数据
改进的UTF-8 Unicode编码模式
严密稳定的大小写重叠和标识符间更好的互用性及后台兼容性——能够利用新的方法优化代码
更可靠的文本处理系统框架——涵盖合成字符、Unicode字符串、断行和分段等

书籍规格:

书籍详细信息
书名Unicode 5.0标准站内查询相似图书
9787302212447
如需购买下载《Unicode 5.0标准》pdf扫描版电子书或查询更多相关信息,请直接复制isbn,搜索即可全网搜索该ISBN
出版地北京出版单位清华大学出版社
版次1版印次1
定价(元)120.0语种简体中文
尺寸25 × 19装帧平装
页数印数

书籍信息归属:

Unicode 5.0标准是清华大学出版社于2009.出版的中图分类号为 TP391.1-65 的主题关于 符号-编码-国际标准 的书籍。