6.《通用規(guī)范漢字表》三級字表設立的原因及其性質
《通用規(guī)范漢字表》三級字表的設立,主要是為了滿足專門領域的用字在通用層面上的需要。由于信息化帶來的用字量擴大,《通用規(guī)范漢字表》如果只局限在基本通用字的范圍,雖然可以滿足日常生活用字的需要,卻無法解決計算機存儲和專門領域的用字問題。因此,有必要補充一些與大眾生活密切相關的專門領域用字。《通用規(guī)范漢字表》在基本通用字之外,增設三級字表,適當增加姓氏人名用字、地名用字、科技術語用字以及中小學教材文言文用字,以便有效地解決這四個領域中信息處理的缺字問題。
雖然三級字不能在平衡語料庫里依照字頻和覆蓋率收集到,但仍舊屬于通用層面上的用字。這個問題需要從兩個方面解釋:
第一,需要全面理解“通用”這個概念。“通用”包括兩個層面:一個是印刷的層面,一個是閱讀的層面。能夠進入平衡語料庫的漢字,兼有這兩個方面的通行度。但是也有一些漢字,印刷的頻度并不高,閱讀的頻度卻很高。例如醫(yī)藥名稱、飲食營養(yǎng)學中的專業(yè)用字,雖然僅僅專業(yè)領域用來打印,但閱讀人群卻可以達到千家萬戶。再如,基礎教育語文教材的文言用字,也有少部分不屬于社會通用字,但是每年的教材印刷必須使用,歷屆教師、學生、家長必須面對,閱讀人群幾乎也達到千家萬戶。這些字也是需要統一字形而進入規(guī)范的。
第二,在信息時代,“通用”的概念發(fā)生了實質性的變化。除了人的使用外,還必須考慮到計算機的存儲與使用。在漢字主要是手寫的時代,這些特定領域的用字即使不定標準也不會有太大的問題,而在計算機和互聯網時代,那些在一般語料庫里憑借字頻難以找到的字,在人民的日常生活中卻不失其通用性。以漢字為載體的信息,一部分是在流通領域通行的,還有一部分是儲備領域必需的。例如姓名,除了知名人士,一般的姓名在社會通用層面上使用度不會太高;地名,除了大城市、著名景點,一般的地名在社會通用層面上使用度也比較有限,根據字頻和使用度不能將它們收集到。但是,無所不往的郵政、金融、交通等事業(yè),無人不用的身份證、學歷證書、醫(yī)療保險、產權證明等證件,必須儲備可能用到的漢字。如果在信息處理上不對這些字進行規(guī)范,也會引起社會信息儲備和使用的混亂。完全依據使用頻率和語料覆蓋率來確定字表的收字,這些特定領域的用字就難以收集到,所以要從專門領域提供的專用字中收集。專業(yè)領域通用字是對一般社會通用字的必不可少的補充。
7.《通用規(guī)范漢字表》三級字表的收字原則、范圍以及具體來源
在確定《通用規(guī)范漢字表》三級字表的收字時,堅持以下三條原則:(1)從漢字應用的具體事實出發(fā),必須字字有來歷,或有文獻出處,或由相關職能部門提供用例和出處;(2)必須音義俱全,人名用字應適合于起名;(3)必須保證其通用的性質,不收用處不大的生僻字。收字范圍具體包括:姓氏人名用字、地名用字、科技術語用字、中小學教材文言文用字。
(1)姓氏人名用字。中國是一個多民族的國家,姓氏不但稽留著民族和血緣的傳承關系,還成為每個公民的稱謂符號,其用字不能隨便更改。字表對當用的姓氏用字要盡可能收集齊全,以保證信息傳播的信度。至于名字所用的漢字,現在已經相當混亂,有些名字的用字甚至在已經擴充到7萬余字的計算機國際編碼字符集中都難以找到,致使第二代身份證由于字庫用字不全而無法制作,給一些人的生活帶來極大不便。《通用規(guī)范漢字表》無法改變已有人名用字的混亂狀況和使用上的麻煩,但可以對今后的命名(主要是新生兒起名)和更名提供一些便于使用的字,可以引導人們減少使用生僻字、避免使用錯訛字起名。這就需要盡量將姓氏用字收全,并在已有的人名用字中選擇足夠的、適合于起名的漢字進行規(guī)范,以保證個人姓名有效地在社會上流通。
(2)地名用字。地名用字往往不是在全國范圍內普遍通行,但對當地居民來說卻屬于常用字,在省級區(qū)劃范圍內,鄉(xiāng)以上地名用字是不可缺少的。由于方言的關系,經常會產生各種各樣的“方言字”或自造字,造成用字的混亂。當今,戶籍、郵政、金融等行業(yè)的信息貯存和檢索已經全面數字化,地球衛(wèi)星定位系統廣泛應用,地名用字的混亂,會給有關行業(yè)帶來信息阻塞的后果,這是不言自明的。
(3)科技術語用字。由于科學技術的發(fā)展、教育水平的提高和科學知識的普及,很多科學技術的用語快速進入人民的日常生活。僅僅拿記錄化學元素的漢字來說,它們很多要用在藥品名上,當藥方不再手寫而用計算機輸錄時,這些字就成為醫(yī)生、藥師、病人、家屬交流的載體。農藥、化肥、室內裝修材料也有不少是要用它們的學名來宣傳、普及的。至于化妝品、清潔劑的使用,飲食健康的講解,氣象的采集和預報等,一旦進入科學普及領域,都會受到普遍關注。特別是各專業(yè)的教科書的編寫和印刷,更會用到這些字。
(4)中小學教材文言文用字。規(guī)范漢字主要是書寫現代漢語文本的,但是,傳統、歷史與現代不是絕緣的,現代文本中會引用文言作品,中小學語文教材中也都會收一部分優(yōu)秀的文言作品。前者可以在一般的平衡語料庫中收集到,而為了保證教材印刷的規(guī)范,需要在語文教材中專門收集文言文的用字。
這四個方面,既是信息時代用字的重要領域,又是信息傳播容易缺字的領域。具體收字數量如下:
姓氏人名用字930字,主要來源于1982年18省市抽樣人口普查資料和公安部提供的姓氏用字及部分人名用字,并適當補收一些古代姓氏用字和有影響的古代人名用字。
地名用字465字,主要來源于民政部提供的鄉(xiāng)鎮(zhèn)以上地名用字、國家測繪局提供的部分村級地名和部分自然實體名稱的用字、常用漢語工具書中標明為“地名”的用字。
科技術語用字276字,主要來源于全國科學技術名詞審定委員會提供的中醫(yī)藥學、植物學、遺傳學、冶金學、微生物學、土壤學等56個門類的術語用字,以及中國社會科學院語言研究所提供的天文、氣象、地理、動物、植物、工業(yè)、農業(yè)、政治、經濟、文化、歷史等33個門類的科學技術與人文社會科學的術語用字。
中小學教材的文言文用字362字,主要從字表研制工作組建立的“中小學語文教材文言文語料庫”(收1949-2007年中小學語文及普及文言文語料,560萬漢字)中提取。
以上四個方面的用字合并去重后,去除已經進入一、二級字表的字,再去除疑難字、錯訛字和異體字等,共為1800字。由于三級字是四個方面的用字合并去重后得出的,所以,三級字的屬性并不都是單一的,有些字可能兼有多個領域的不同屬性。
|