我們聊了不少生僻字了,有些是特殊字,有些是某一個(gè)漢字的特殊寫法。雖然我們常說常用漢字不過3000,但有些漢字可能有很多種寫法。
如此下來漢字究竟一共有多少個(gè)呢?今天我們來討論一下這個(gè)問題。
1
自古以來的漢字?jǐn)?shù)量
中華上下五千年,漢字的歷史可太長(zhǎng)了,所以漢字一共有多少個(gè)是個(gè)很難說清楚的問題。
據(jù)學(xué)者考證,甲骨文和金文共有漢字約5000個(gè),我們已知其含義的約有3000個(gè)。
我國(guó)最早的字典《說文解字》,收錄漢字9353個(gè)。
北宋《類編》收錄漢字高達(dá)33190個(gè),而清朝《康熙字典》收字46933個(gè),是古代收錄漢字?jǐn)?shù)量最多的字典。
《漢語(yǔ)大字典》收錄單字56000多個(gè),20年發(fā)布的最新版《新華字典》收錄單字13000多個(gè)。
大家不用驚訝于數(shù)量,《現(xiàn)代漢語(yǔ)常用字表》只有3500個(gè)漢字,而根據(jù)中國(guó)語(yǔ)言生活狀況報(bào)告,2394個(gè)常用漢字就占據(jù)了99%的語(yǔ)言篇幅。
所謂常用漢字,以龐中華硬筆書法為例,小時(shí)候我家里有這本書,媽媽逼著我練,我覺得好不情愿。這個(gè)字帖是2500字。
2
不同編碼標(biāo)準(zhǔn)帶來的問題
在電腦普及、數(shù)字化時(shí)代到來之前,我們也只能以字典為標(biāo)準(zhǔn),統(tǒng)計(jì)漢字的數(shù)量。
然而數(shù)字化時(shí)代到來之后,除了字典,我國(guó)政府開始定期統(tǒng)計(jì)收錄漢字,并將這些漢字編排在國(guó)家標(biāo)準(zhǔn)文件中。
大陸最早的標(biāo)準(zhǔn),制定于1980年,稱為GB2312,也就是國(guó)家漢字信息交換用編碼,通行于大陸。新加坡等地也使用此編碼。
臺(tái)灣則于1983年開始使用著名的“大五碼”也就是big5字庫(kù)。
這兩個(gè)標(biāo)準(zhǔn)曾經(jīng)深深“傷害”過老一輩電腦游戲玩家的心。在很多三國(guó)游戲迷心里,曹操有另外一個(gè)名字——“變巨”。
其實(shí)這就是大五碼“曹操”二字,由于標(biāo)準(zhǔn)不統(tǒng)一,臺(tái)灣生產(chǎn)的游戲運(yùn)行在大陸電腦里,就有了這個(gè)奇怪的名字。
為了解決這個(gè)問題,當(dāng)時(shí)還曾經(jīng)有一票輔助軟件,其中提供文字編碼選擇功能,讓部分漢字正確顯示。
也正是為了解決這些問題,1993年5月,中日韓聯(lián)合研究小組正式制訂了CJK(中日韓統(tǒng)一表意文字),同年國(guó)際標(biāo)準(zhǔn)化組織發(fā)布了10646,我國(guó)也以此為標(biāo)準(zhǔn)制定了GB13000.1-93。
3
漢字?jǐn)?shù)量的大致參考
為什么漢字的標(biāo)準(zhǔn),并非由中國(guó)制定,而是國(guó)際制定后,才有國(guó)家標(biāo)準(zhǔn)呢?這是因?yàn)?/span>雖然漢字是中國(guó)的原生文字,但使用漢字的國(guó)家,并不限于中國(guó)境內(nèi)。
最典型的就是日本、韓國(guó)、越南,他們的文字,或是同樣叫做“漢字”,或是在寫法、發(fā)音、字義等方向,明顯帶有漢字的特點(diǎn)。
“密”字當(dāng)選日本2020年度漢字
于是iso字庫(kù)的來源,也包含著這些國(guó)家;除此以外,海外尚有大量中國(guó)古籍文獻(xiàn),各國(guó)或是擁有漢字文化研究組織,或是與國(guó)內(nèi)漢字研究組織合作,也定期向iso申報(bào)新的漢字。
需要說明的是,根據(jù)國(guó)際漢字標(biāo)準(zhǔn)制定國(guó)內(nèi)漢字字符集這一做法,一直沿用至現(xiàn)在。
這也就有了所謂“漢字總數(shù)量”的大致參考標(biāo)準(zhǔn):
另外在2012年,我國(guó)啟動(dòng)了“中華字庫(kù)”工程,旨在為30萬個(gè)漢字、10萬少數(shù)民族文字以及10萬多個(gè)如甲骨文這種不常見的古代書寫文字編碼,總計(jì)約50萬字。
4
漢字?jǐn)?shù)量的發(fā)展
中華字庫(kù)50萬這個(gè)數(shù)字,已經(jīng)涵蓋了歷史上所有的漢字。但是,這一數(shù)字并非不會(huì)增長(zhǎng)。
我們常說,語(yǔ)言是一種“約定俗成”的東西,在這一點(diǎn)上,漢字也類似。比如在2020年公布的iso10646擴(kuò)展字符集g中,就已經(jīng)包含了民俗字biáng字。
另外在化工領(lǐng)域,也有一些新造的漢字。2017年5月9日,新化學(xué)元素中文名公布,兩新造字納入國(guó)家規(guī)范用字,分別是——
這些漢字,將是我們現(xiàn)在、未來網(wǎng)絡(luò)交流、數(shù)字化交流的基石。
5
漢字輸入的難題
但是,漢字多起來,我們不得不面臨一個(gè)新的問題:如何輸入這么多漢字呢?
舉例來說,我們常用拼音輸入法。漢語(yǔ)拼音一共有300多個(gè)發(fā)音,gb2312的時(shí)代一共6000多字,輸入一個(gè)發(fā)音,與之對(duì)應(yīng)的漢字?jǐn)?shù)量平均不過二三十個(gè)。
按照輸入法每行顯示十個(gè)候選字計(jì)算,翻頁(yè)兩三次便能找到想要錄入的漢字。
但是,今天漢字?jǐn)?shù)量已經(jīng)達(dá)到9萬,平均每個(gè)讀音下有300頁(yè)候選漢字。
難道我們要翻頁(yè)300次來尋找某一個(gè)想要輸入的漢字嗎?
我們都曾遇到過這樣的問題,在拼音輸入法下尋找某一個(gè)字,翻到底了還沒找到,只要更細(xì)致地往回尋找,可能輸入一個(gè)字就要花上好幾分鐘。
別著急,好辦法已經(jīng)有了。咱們之后找機(jī)會(huì)跟您慢慢聊這個(gè)問題。
END
敝帚字珍
漢字文化博大精深,
我們常用的漢字只有不到3000個(gè);
新華字典收錄漢字約8000個(gè);
現(xiàn)在的電腦手機(jī)等終端,
可顯示漢字約30000個(gè);
2005年的國(guó)家標(biāo)準(zhǔn)GB18030-2005,
收錄漢字7萬多個(gè);
而最新的國(guó)際標(biāo)準(zhǔn)10646,
收錄漢字9萬多個(gè)。
漢字再多,
如果不認(rèn)識(shí)、在電腦上打不出來,
這些漢字文化就都丟了。
我們要做的,就是和您一起,
尋找漢字的文化。
歡迎您關(guān)注:敝帚字珍。