[oeasy]python0133_[趣味拓展]好玩的unicode字符_另类字符

另类字符回忆上次内容

上次再次输出了大红心<span style="font-size:64px;color:red">♥</span>
找到了红心对应的编码
黑红梅方都对应有编码

原来的编码叫做 ascii️
\u这种新的编码方式叫unicode
包括了中日韩字符集等各书写系统的字符集

除了这些常规字符之外
还有什么好玩的东西呢？

颠倒字符

添加图片注释，不超过 140 字（可选）

这个网站可以把文字上下颠倒
https://www.upsidedowntext.com/
这些颠倒字符的编码多少呢？
自己试试

尝试

添加图片注释，不超过 140 字（可选）

序号还是比较靠前的
应该是一些拉丁字符
类似的还有带圈圈的英文字符

带圈字符

https://www.bubbleballtext.com/

添加图片注释，不超过 140 字（可选）

带上圈圈之后
给人一种ꫛꫀꪝ的感觉

这些都是谁规定的呢？

继续探索

unicode 其实有个委员会
各种大厂都在里面指定标准
我们也可以访问 unicode.org
具体的编码字符都可以在里面找

添加图片注释，不超过 140 字（可选）

炼金术师的符号

添加图片注释，不超过 140 字（可选）

https://www.zifu123.cn/unicode/Alchemical/index.htm

古代字符编码

埃及圣书体
https://www.zifu123.cn/unicode/Egyptian_Hieroglyphs/index.htm

腓尼基楔形文字
https://www.zifu123.cn/unicode/Early_Dynastic_Cuneiform/index.htm

添加图片注释，不超过 140 字（可选）

回忆起拉丁字符走过的路

拉丁字符之路

添加图片注释，不超过 140 字（可选）

时间相关

这个编码可以解决等宽的问题
而且还有汉字
目前大多数字体支持
㋀㋁㋂㋃㋄㋅㋆㋇㋈㋉㋊㋋
㏠㏡㏢㏣㏤㏥㏦㏧㏨㏩㏪㏫㏬㏭㏮㏯㏰㏱㏲㏳㏴㏵㏶㏷㏸㏹㏺㏻㏼㏽㏾
㍘㍙㍚㍛㍜㍝㍞㍟㍠㍡㍢㍣㍤㍥㍦㍧㍨㍩㍪㍫㍬㍭㍮㍯㍰

货币相关

添加图片注释，不超过 140 字（可选）

音乐相关

添加图片注释，不超过 140 字（可选）

中文字符

添加图片注释，不超过 140 字（可选）

这些编码实在是偏门

亚文化

不过很有趣
目前大多数字库文件还不支持

添加图片注释，不超过 140 字（可选）

不知道这些参与 unicode 编码规则制定的大公司在想些什么？

扑克编码

添加图片注释，不超过 140 字（可选）

我们以前介绍过黑红梅方的编码
配合数字可以做出扑克效果
这个编码直接就是牌
C 是骑士牌（knight card）
我们一般都是 54 张牌
目前大多数字符库还不支持 unicode 这个编码段的部分
支持了之后就可以直接字符打牌了

国际象棋

添加图片注释，不超过 140 字（可选）

目前大多数字体不支持

麻将

中式麻将牌在这里
红红火火
梅兰竹菊春夏秋冬就连百搭都有

以后用户名也许可以用麻将字符了
???????
?????????
?????????
?????????
九筒

不过目前多数字库还不支持

添加图片注释，不超过 140 字（可选）

各种符号

添加图片注释，不超过 140 字（可选）

符号还在不断添加中

新的符号

添加图片注释，不超过 140 字（可选）

各种杂项费用还是很多的甚至包含 emoji
这些新增的字符除了好玩之外
也会对于我们产生影响
其实我们也有这种符号

五岳真形图

添加图片注释，不超过 140 字（可选）

也许有一天unicode中会出现五岳的符号
还有一些同型不同序号的字

易混淆文字

添加图片注释，不超过 140 字（可选）

这两个文字非常相像但却是两个不同的字符
第1个是常用的
第2个是1999年更新中新加进去的康熙部首

添加图片注释，不超过 140 字（可选）

这种长相类似的字符有什么用么？

阴阳话题

作为计算机理解这就是两个词条

添加图片注释，不超过 140 字（可选）

这是公关降热度的一个手法

部首

还有什么类似的字符吗？

添加图片注释，不超过 140 字（可选）

康熙部首
2F00-2FD5

扩展部首
2E80-2EF3

如果当前系统不认识这个字符
怎么办呢？

不识别

但是如果发送过来的字符
在当前的系统中没有对应的字符
应该怎么办呢？

添加图片注释，不超过 140 字（可选）

�

发过来一个不认识的字符
机器就傻了
因为不知道如何表现
于是他会用一个问号对应的字符进行替换
U+FFFD �

添加图片注释，不超过 140 字（可选）

这个字符本应该是 unicode 中的字符
但如果硬要用 gbk 解码会如何呢？

乱解码

� 对应 utf-16 编码 0xFFFD
转化为 utf-8 对应 0xEF 0xBF 0xBD
但是如果这个编码用 gbk 解码的话
就会出现锟斤拷
锟（0xEFBF）
斤（0xBDEF）
拷（0xBFBD）

添加图片注释，不超过 140 字（可选）

锟斤拷会出现在各种地方
甚至有个笑话
手持两把锟斤拷
口中疾呼烫烫烫

烫烫烫又是怎么回事

烫烫烫和屯屯屯

0xcc 正好是
x86指令集中中断(int 3)指令
起到保护作用

在分配内存的时候
栈内存默认初始数值为 0xcc
0xcccc 用使用 bgk 的终端来表示刚好就是烫
未初始化的栈空间用 0xcc 填充

添加图片注释，不超过 140 字（可选）

而未初始化的堆空间用 0xcd 填充
所以 0xcdcd 用 gbk 来解释的话，就是屯

添加图片注释，不超过 140 字（可选）

动态分配的内存被回收之后
就是 DDDD
0xcdcd
在gbk编码格式中
对应汉字葺

甚至有拼音标号

拼音标号

https://www.zalgotextgenerator.com/

添加图片注释，不超过 140 字（可选）

符号还在不断增加中

中文字符集进化

unicode 如果 2 个字节总共 16 位
16 位最多 65536 各字符
想要把全世界的字符都编码是不现实的
光是中文就超了好几次

添加图片注释，不超过 140 字（可选）

如果使用 3 字节编码就大大增加了存储和带宽的压力
那到底应该怎么办呢？
到底应该按照 1 字节、2 字节还是 3 字节进行读取呢？

总结

unicode 里面有各种字体
扑克
国际象棋
麻将
偏旁部首
各种好玩的编码
字符编码就是这样一步步发展过来的

但是有个问题
拜这个字
在字节中应该是b"\x62\xdc"两个字节

添加图片注释，不超过 140 字（可选）

该如何理解b"\x62\xdc"这两个字节呢??
究竟是"拜"
还是"bÜ"呢？

添加图片注释，不超过 140 字（可选）

我们下次再说！?
蓝桥->https://www.lanqiao.cn/courses/3584
github->https://github.com/overmind1980/oeasy-python-tutorial
gitee->https://gitee.com/overmind1980/oeasypython

526互联

[oeasy]python0133_[趣味拓展]好玩的unicode字符_另类字符_上下颠倒英文字符