遍历utf-8编码下的所有汉字得出的个数是20901个,最终发现实际里面多数是不认识的,常用汉字也就几千个。

发布时间 2023-12-16 16:30:52作者: smxjue

utf-8编码下的汉字个数是多少? 从正则表达式可以看出  4E00-9FA5

实用php遍历一下所有汉字

 1 <?php 
 2 //4E00-9FA5
 3 //输出所有汉字
 4 header('Content-Type: text/html;charset=utf8'); //非必要
 5 $start = hexdec('4e00'); // 等于 0x4e00; hexdec是 16进制转为10进制
 6 $end   = hexdec('9fa5');  // 等于 0x9fa5;  //
 7 $count=0; //统计个数
 8 for($i=$start; $i<$end; $i++) {
 9   // echo chr($i); //实测发现直接输出chr不可行
10    echo(json_decode('["\u'.dechex($i).'"]')[0]);
11    $count++;
12 }
13 echo ' =>共'.$count.'个';
14 ?>

最终结果是:

一丁丂七丄丅丆万丈三上下丌不与丏丐丑丒专且丕世丗丘丙业丛东丝丞丟丠両丢丣两严並丧丨丩个丫丬中丮丯丰丱串丳临丵丶丷丸丹为主丼丽举丿乀乁乂乃乄久乆乇么义乊之乌乍乎乏乐乑乒乓乔乕乖乗乘乙乚乛乜九乞也习乡乢乣乤乥书乧乨...

鼶鼷鼸鼹鼺鼻鼼鼽鼾鼿齀齁齂齃齄齅齆齇齈齉齊齋齌齍齎齏齐齑齒齓齔齕齖齗齘齙齚齛齜齝齞齟齠齡齢齣齤齥齦齧齨齩齪齫齬齭齮齯齰齱齲齳齴齵齶齷齸齹齺齻齼齽齾齿龀龁龂龃龄龅龆龇龈龉龊龋龌龍龎龏龐龑龒龓龔龕龖龗龘龙龚龛龜龝龞龟龠龡龢龣龤 

 =>共20901个.

可以发现如果外国人学中文如果使用记所有汉字的方式是错误的,记住常用的几千个就可以了。反之学习英语也是如此,不需要学太多的单词,几千个常用的就足够了,剩下的就是熟练使用。