族谱网 头条 人物百科

字符

2020-10-16
出处:族谱网
作者:阿族小谱
浏览:380
转发:0
评论:0
字符编码缘电脑和通信设备会在表示字符时,会使用字符编码。是指将一个字符对应为某个东西。传统上,是代表整数的比特序列,如此,则可通过网络来传输,同时亦便于存储。两个常用的例子是ASCII和用于Unicode编码的UTF-8。根据谷歌的统计,UTF-8是目前最常用于网页的编码方式。[1]相较于大部分的字符编码把字符对应到数字或比特串,摩斯密码则是使用不定长度的电子脉冲的序列来表现字符。术语从历史来说,“字符”这个辞汇在工业专业中被广泛用来指一个编码过的字符(通常用于程序设计语言的API)。同样地,字符集则被广泛指为那些对应到特定比特序列的抽象字符的集合。随着Unicode编码等未指定比特形式的字符编码的到来。更精确的术语获得愈来愈多的认同。对某些文件而言,区分一个字符是信息单位而非任何特定的视觉显示是很重要的。如Aleph(“א”)这个希伯来字母常用于数学中,表示某种无穷,但它同时又用于原本的...

字符编码缘

电脑和通信设备会在表示字符时,会使用字符编码。是指将一个字符对应为某个东西。传统上,是代表整数的比特序列,如此,则可通过网络来传输,同时亦便于存储。两个常用的例子是ASCII和用于Unicode编码的UTF-8。根据谷歌的统计,UTF-8是目前最常用于网页的编码方式。[1]相较于大部分的字符编码把字符对应到数字或比特串,摩斯密码则是使用不定长度的电子脉冲的序列来表现字符。

术语

从历史来说,“字符”这个辞汇在工业专业中被广泛用来指一个编码过的字符(通常用于程序设计语言的API)。同样地,字符集则被广泛指为那些对应到特定比特序列的抽象字符的集合。随着Unicode编码等未指定比特形式的字符编码的到来。更精确的术语获得愈来愈多的认同。

对某些文件而言,区分一个字符是信息单位而非任何特定的视觉显示是很重要的。如Aleph(“א”)这个希伯来字母常用于数学中,表示某种无穷,但它同时又用于原本的希伯来文件中。在统一码中,尽管这两种用法有一样外形,但它们是不同的字符,而且由不同的码位来区分。相对地,如“水”这个中文表意文字,在日文文件会和中文文件中有些微不一样的外观,这会反映在不同地区的字体。但它们仍代表相同的信息,即视为一样的字符,并且在统一码中使用一样的码位。

字形( Glyph )这个辞汇用于描述一个特定字符实质的外观。很多电脑字体包含许多字形,且由一个字符的统一码码位来对其字形做索引。

Unicode标准( The Unicode Standard )和通用字符集彼此定义“字符”和“抽象字符”为“用来组织、控制或表达数据的成分所组集合的成员之一”。统一码的定义则补充了一些解释用的注释,鼓励读者去区分字符、字位和字形。这个准则也区分抽象字符和“编码过的字符”,后者是指和数字编码成对,以利于电脑中的表示。

另见

字符通常会合起来成一个字符串( String )

填充字符(Fill character)

组合字符(Combining character)


免责声明:以上内容版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。感谢每一位辛勤著写的作者,感谢每一位的分享。

——— 没有了 ———
编辑:阿族小谱
发表评论
写好了,提交
{{item.label}}
{{commentTotal}}条评论
{{item.userName}}
发布时间:{{item.time}}
{{item.content}}
回复
举报
点击加载更多
打赏作者
“感谢您的打赏,我会更努力的创作”
— 请选择您要打赏的金额 —
{{item.label}}
{{item.label}}
打赏成功!
“感谢您的打赏,我会更努力的创作”
返回

更多文章

更多精彩文章
打赏
私信

推荐阅读

· 字符串
形式理论设Σ是叫做字母表的非空有限集合。Σ的元素叫做“符号”或“字符”。在Σ上的字符串(或字)是来自Σ的任何有限序列。例如,如果Σ={0,1},则0101是在Σ之上的字符串。字符串的长度是在字符串中字符的数目(序列的长度),它可以是任何非负整数。“空串”是在Σ上的唯一的长度为0的字符串,并被指示为ε或λ。在Σ上的所有长度为n的字符串的集合指示为Σ。例如,如果Σ={0,1}则Σ={00,01,10,11}。注意Σ={ε}对于任何字母表Σ。在Σ上的所有任何长度的字符串的集合是Σ的Kleene闭包并被指示为Σ*。依据Σ,ΣΣ-->∗∗-->=⋃⋃-->n=0∞∞-->ΣΣ-->n{\displaystyle\Sigma^{*}=\bigcup_{n=0}^{\infty}\Sigma^{n}}。例如,如果Σ={0,1}则Σ*={ε,0,1,00,01,10,11,000,001,010,011,...
· 控制字符
在ASCII中在ASCII中常用的控制字符包括7(bell响铃),用来使收到该字符的设备发出某种警告;8(backspace退格),用来删除或者叠打上一个被打印的字符;9(horizontaltab水平制表);10(linefeed馈行),在大多数UNIX系统和变异系统中用来结束行;12(formfeed馈页),用来使打印机馈出一页;13(carriagereturn归位),在MacOS,OS-9,FLEX和CP/M-80派生的系统中,包括DOS,用于结束文本行;27(escape转义)‘人们有时会遇到其他代码的现代用法,如用编码4(传输结束)结束Unixshell会话或PostScript打印机的传输。编码27(转义)值得详细描述。尽管很多控制字符是从不使用的,将设备控制信息和可打印字符混合传送的概念却非常有用,这使设备制造商得以建立一种可用来传送上百条设备指令的途径。具体来说是使用称为...
· 光学字符识别
识别过程图像输入、图像前处理、预识别:二值化:噪声去除:倾斜校正:版面分析:字符切割:字符识别:版面还原:后处理、校对:发展历史OCR的概念是在1929年由德国科学家Tausheck最先提出来,并申请了专利。后来美国科学家Handel也提出了利用技术对文字进行识别的想法。中国最早的OCR商业应用是由科学家王庆人教授在南开大学开发出来的,并在美国市场投入商业使用。
· Unicode字符平面映射
基本多文种平面Unicode基本多文种平面的示意图。每个写着数字的格子代表256个码点。基本多文种平面(BasicMultilingualPlane,BMP),或称第0平面或0号平面(Plane0),是Unicode中的一个编码区段。编码从U+0000至U+FFFF。现版本为修订9.0.0版,2016年6月21日出版。已分配编码区段为:第一辅助平面多文种补充平面的示意图。每个写着数字的格子代表256个码点。第一辅助平面又称多文种补充平面(SupplementaryMultilingualPlane,缩写SMP,或简称Plane1),摆放拼音文字(主要为现时已不再使用的古老文字)、手写文字、音符、绘文字和其他图形符号。用于学者的专业论文中使用的古老或过时的语言书写符号,以及网络通信等使用的表情符号。范围在U+10000~U+1FFFD。计划分配如下。以下是它们的编码表。10000-10FFF...
· 汤字符号和名义
汤字符号和名义(汤锦程)--------------------------------------------------------------------------------..2008-09-1616:02:04汤字是中国汉字中最早出现于史的文字符号之一,因而在中国上古时代的陶文、简籍、甲骨文、金文、帛文中都有汤字符号的记载。但因汤字符号与人发展的历史有关,故而汤字符号亦出现多元化,直至唐代汤字符号才得以统一化。因此,若想揭开汤字符号从多元化至统一的过程,就必须与人的发展历史相结合,才能弥补这一奇特的姓氏缺环。人又称“荡人”,《法言・渊骞》曰:“鲁仲连而不制。”《音义》释曰:“与荡同。”然而,荡人既是汤人。《诗・陈风宛丘》曰:“子之汤兮。”《楚辞・离骚》释曰:“汤作荡。”《史记・秦本纪》曰:“遣兵伐荡社。”《索隐》引徐广释曰:“荡社一作汤杜。”《论语・述而》曰:“君子坦荡荡。”...

关于我们

关注族谱网 微信公众号,每日及时查看相关推荐,订阅互动等。

APP下载

下载族谱APP 微信公众号,每日及时查看
扫一扫添加客服微信