为什么好多汉字字典里没有但输入法里却有?

乞骨丶


这得先了解一下电脑存储的发展史

电脑是英语系国家研究出来的,英语只有26个字母,连同其他基本符号也只有200个左右,所以最初专家们把每一个字母和符号(简称字符)都安排在一个模块里,这个模块是按照16*16的矩阵布局,总存储空间是256个码位。随着电脑的发展,新矛盾不断出现,最突出的就是汉字如何存储在电脑里(俗称汉字数字化)。于是又一新的扩展存储法10*10的矩阵整了100个总存储量达到10000个,分给汉字的区域是16-87区,共6763个字符位置。这就是赫赫有名的GB2312-80国标汉字字库。

这个字库产生后,成为邮局发电报、公安机关录入公民身份信息的依据。直到本世纪初,招生填表遇到字库没有的就有“用其他同音字代替”的规定。到邮局发电报,邮局工作人员给一电报单,让你填写,然后给你一电码本,让你查出每一个字的四位数代码。这个代码就是电脑的内存码,也叫内码。一字一码无重复。可是问题来了,因为这个汉字内码集没有任何规律,查起来头痛。且不利于汉字录入电脑。在1982年南阳王永民先生发明的五笔打字输入法具有划时代意义。王永民因此被称为“当代苍颉”。直到现在专业的汉字录入还是用五笔输入法。

到了上世纪九十年代,随着微机的全球普及,6763个汉字根本不够用,尤其是一些日韩汉字没有一席之地。在中日韩越专家共同努力下,CJK(全称是“中日韩汉字大字符集”,收字20902个汉字,在中国被称为GB18030标准)这个字符集完全兼容GB2312-80标准,同时兼容台湾的BIG5字符集,也能满足汉字文化圈日韩越的交流。

国际上研究电脑内存空间也从来没有停步。在新世纪又有Unicode标准横空出世。这个标准最初是16的4次方的存储空间。汉字文化圈的专家们就紧紧跟进,研究出CJK扩展A区和B区连同基本集达到六万多汉字。现在电脑存储空间又发展到16的5次方。可以囊括世界上所有字符。汉字也在不断增加。目前日本的“花园明朝体”汉字字库已经达到10万个以上,但并没有得到国际专家的认定,不能进入国际交流领域,只能作为专家研究之用。

再来说说市面上字典里的汉字,小型字典如《新华字典》收字9000多,去掉繁体字异体字,单字只有7000个左右,与GB2312-80字符集总量相当。这是一个基本字数集。《新华词典》因为是以词语解释为主,尽管很厚,而收字总字数也基本维持在13000-15000之间。大型字典中,影响力大的《康熙字典》收字47000多,《中华大字典》收字60000多,新《中华大字典》收字80000多。这也没有突破目前电脑存储的汉字总量。所以字典里没有而电脑里能打出的汉字也就不奇怪了。

第三,说说输入法,汉字输入法分音码和形码两种。因为音码重码率高、方言发音不标准和专家注音不准确等许多原因,长期以来发展前景并不看好。但是音码简单易学没有入门门槛,许多大公司锲而不舍地研究,目前已经十分成熟。而形码最出名的是五笔输入法和郑码输入法。入门有点困难,但是学好了效率极高。这里需要说明的是,不管什么输入法,在选择之初一般都会提供一个字库设置。让你选择GB2312-80还是选择GB18030(有的是CJK),这很重要,举例:你如果选择了GB2312-80字符集,就无法打出繁体字。部分简体字如“啰”也无法打出(这个字符集里无此字)。如果你选择了CJK字符集,则不受繁简字影响,但重码率会很高,影响录入速度。还有一种情况,输入法并没有给使用者提供选择字符集的自由,而是采取“包办”的方法,把一些大字符集里常用的汉字收到小字库里,某些字符在小字符集里能打出,而没有被收入输入法开发者自定义的字库里的汉字却打不出。早前天,新来一同事,名字里有“垚”字,另一同事用QQ五笔无论如何也打不出,我让他切换到拼音输入法,就打出来了。很显然,他的QQ五笔里没有收这个字。顺便说一下,如果是研究汉字的专家,最好使用五笔输入法,有一海峰五笔输入法可以打出扩展D区的汉字。好像近两年没有更新,并且与WIN10不兼容,让人很受伤。这个问题就本人所知聊到这里吧。


沙洲孤鸿24331826


汉字字典收录的汉字有限。而目前输入法所使用的字符集是Unicode中日韩统一表意文字基本字集则收录汉字20902个,另有两个扩展区,总数亦高达七万多字,总汉字高达9万。

下面引用一篇相关的文章,希望能增加你的感官:

据统计,1000个常用字能覆盖约92%的书面资料,2000字可覆盖98%以上,3000字时已到99%,简体与繁体的统计结果相差不大.历史上出现过的汉字总数有8万多(也有6万多的说法),其中多数为异体字和罕用字.绝大多数异体字和罕用字已自然消亡或被规范掉,除古文之外一般只在人名、地名中偶尔出现.此外,继第一批简化字后,还有一批“二简字”,已被废除,但仍有少数字在社会上流行.
汉字数量的首次统计是汉朝许慎在《说文解字》中进行的,共收录9353字.
其后,南朝时顾野王所撰的《玉篇》据记载共收16917字,
在此基础上修订的《大广益会玉篇》则据说有22726字.
此后收字较多的是宋朝官修的《类篇》,收字31319个;
另一部宋朝官修的《集韵》中收字53525个,曾经是收字最多的一部书.
另外有些字典收字也较多,如清朝的《康熙字典》收字47035个;
日本的《大汉和字典》收字48902个,另有附录1062个;
台湾的《中文大字典》收字49905个;
《汉语大字典》收字54678个.
20世纪已出版的字数最多的是《中华字海》,收字85000个.
在汉字计算机编码标准中,目前最大的汉字编码是台湾的“国家标准”CNS11643,目前(4.0)共收录可考证之繁简、日、韩语汉字共76,067个,但并不普及,只有在户政系统等少数环境使用.
台港民间通用的大五码收录繁体汉字13053个.
GB18030是中华人民共和国现时最新的内码字集,GBK收录简体、繁体及日语、韩语汉字20912个,而早期的GB2312收录简体汉字6763个
.而Unicode的中日韩统一表意文字基本字集则收录汉字20902个,另有两个扩展区,总数亦高达七万多字.
初期的汉字系统字数不足,很多事物以通假字表示,使文字的表述存在较大歧义.为完善表述的明确性,汉字经历了逐步复杂、字数大量增加的阶段.汉字数量的过度增加又引发了汉字学习的困难,单一汉字能表示的意义有限,于是有许多单一的汉语意义是用汉语词语表示,例如常见的双字词.目前汉语书写的发展多朝向造新词而非造新字.
原文地址:https://baike.baidu.com/item/国字/9178106?fr=aladdin

东华84412076


除了那个需要用图片的biang biang 面的biang 等字,有一个字《现代汉语词典》里有,普通小字典里没有,输入法打不出来,这个字就是dun,就是不的长点换成捺~~


Mr哼哼


我们买的字典 通常都是常用字字典,不常用的就不收录了。输入法则不同 再不常用的字也会有用到的时候,所以它必须有。但输入法字库的来源是啥叻?!是《字海》。如果您需要经常使用生僻字,建议您去买本《字海》。


分享到:


相關文章: