- 政策解讀
- 經(jīng)濟(jì)發(fā)展
- 社會(huì)發(fā)展
- 減貧救災(zāi)
- 法治中國(guó)
- 天下人物
- 發(fā)展報(bào)告
- 項(xiàng)目中心
|
每年發(fā)布的《中國(guó)語言生活狀況報(bào)告》都會(huì)揭曉上一年度的“十大新詞語”和“十大流行語”,許多人好奇—— 熱詞熱語是怎么“選拔”的
《2011年中國(guó)語言生活狀況報(bào)告》最近發(fā)布,傷不起、虎媽、淘寶體和另外7個(gè)詞,被宣布為“十大新詞語”,十二五開局、喬布斯、利比亞局勢(shì)等則是“十大流行語”……
許多人好奇,這兩個(gè)“十大”到底是怎么“選拔”的?該不是一幫人圍一桌你一言我一語湊出來的吧?中國(guó)傳媒大學(xué)教授侯敏對(duì)此回應(yīng):怎么可能?這可是歷經(jīng)監(jiān)測(cè)、過濾、篩選、釋義等一整套程序,從每年10億字的語料中像沙里淘金那般“提煉”出來的。
從幾萬條中挑幾百個(gè)
侯敏教授有著另一個(gè)頭銜:國(guó)家語言資源監(jiān)測(cè)與研究中心有聲媒體語言分中心負(fù)責(zé)人。她介紹說,每年總量10億字的語料,取自平面媒體、有聲媒體和網(wǎng)絡(luò)媒體,并且逐年積累形成三大語料庫。
平面媒體語料庫每年新采集5億字,以15份國(guó)內(nèi)報(bào)紙為樣本,收入1月1日至12月31日的所有文字;有聲媒體語料庫年采集1億字左右,以央視新聞聯(lián)播、央廣新聞與報(bào)紙摘要等廣播電視主流新聞欄目為樣本,將1月1日至12月31日的視頻與音頻素材全部轉(zhuǎn)換成文字;網(wǎng)絡(luò)媒體語料庫的年采集量約4億字,收納新浪、騰訊等網(wǎng)站新聞欄目的全年語料。
語料備齊,先要人工“淘洗”一番,查找補(bǔ)正漏字、缺字、亂碼等等,而后一股腦兒送進(jìn)語言信息處理技術(shù)平臺(tái),平臺(tái)上裝著全切分軟件、自動(dòng)分詞軟件等。在電腦上輸入“我是學(xué)生”,立馬會(huì)被切分成我、是、學(xué)、生4個(gè)字與我、是、學(xué)生3個(gè)詞。
新詞語,當(dāng)然要“新”。把2011年度的語料統(tǒng)統(tǒng)切分成詞語之后,需借助軟件把它們跟此前幾年的詞語作比對(duì),去舊留新,剩下來的就構(gòu)成了年度新詞語候選集——候選的詞語有多少?年均幾萬條。不過其中包含了大量人名、地名、機(jī)構(gòu)名稱、數(shù)字表達(dá)式、時(shí)間表達(dá)式等,這些沒有語言學(xué)意義,不能算,得剔除。侯敏說,每年最終入圍的幾百個(gè)新詞語,就是從這幾萬條候選詞中遴選出來的。遴選完全由人工操作,選中的詞語還要逐條釋義,為此幾十名專家得集體工作兩個(gè)多月。這部分工作的成果,《2011年漢語新詞語》今年8月將正式出版。
相比新詞語,流行語的“選拔”簡(jiǎn)單些。利用電腦軟件,統(tǒng)計(jì)出每個(gè)詞在365天中的生命周期長(zhǎng)短、出現(xiàn)頻次高低等指標(biāo),然后對(duì)比前一年數(shù)據(jù),使用頻率相仿的即刻淘汰,而一旦發(fā)現(xiàn)使用頻率“異峰突起”的,就留下。“迅速盛行、廣為傳播是流行語和其他詞語的最大區(qū)別;從新出現(xiàn)或較少使用到廣泛使用的間隔時(shí)間短,是流行語的顯著特征。”中國(guó)傳媒大學(xué)副教授滕永林說,流行語的人工篩選也相對(duì)輕松,候選集跟最后公布的流行語差別不太大。
“額的神啊”、“吊絲”為啥沒選上?
2011年度語言生活報(bào)告公布后,有人對(duì)那些熱詞、熱語有意見:“跟我們的感覺不一樣啊?”“有些用得很多的網(wǎng)言網(wǎng)語怎么沒入選,‘額的神啊’在哪兒?” “今年2月,我們就2011年度的熱詞、熱語向網(wǎng)友征求意見時(shí),就聽到了各種建議。”侯敏教授說,網(wǎng)友們舉出了不少新鮮的網(wǎng)絡(luò)用詞,問報(bào)告中怎么不見蹤影?我跟他們解釋:網(wǎng)絡(luò)媒體語料庫在采集語料時(shí)以網(wǎng)站的新聞欄目為主,BBS論壇、網(wǎng)友留言與發(fā)帖不在其列,“‘額的神啊’僅僅在論壇里熱度很高,所以‘落選’了。” 今年,“吊絲”一詞的去留成了爭(zhēng)論最激烈的一個(gè)議題。經(jīng)過一應(yīng)前道工序,它也進(jìn)入了候選集,但專家們犯難:不選吧?確是新詞,征求意見時(shí)網(wǎng)友呼聲極高;選吧?這個(gè)詞品位不高,想準(zhǔn)確釋義更難。“我們選詞有標(biāo)準(zhǔn),得是新詞,得有一定使用頻率,得能反映當(dāng)今社會(huì)生活,還得‘干凈’,要有一定品位。” 侯敏教授舉例說,幾年前“鐵娘子”吳儀說出“裸退”一詞,這個(gè)詞的使用頻率其實(shí)很低,但經(jīng)專家討論,還是入選了年度新詞語,“‘裸退’展現(xiàn)了一種胸懷,指明了官員退休的新方向,值得稱道。”再比如,對(duì)“蒜你狠”、“姜你軍”能不能入選,反對(duì)的聲音不小,說這些新詞不倫不類、不夠規(guī)范;但討論再三,專家們最終傾向于認(rèn)為“老百姓在漲價(jià)壓力下,以苦中作樂的心態(tài)和充滿智慧的調(diào)侃創(chuàng)出新詞語,反映了社會(huì)生活和個(gè)人境遇,該收!”
少數(shù)民族語言也新詞迭出但暫難篩選
國(guó)家語言資源監(jiān)測(cè)語料庫,除了漢語的,還有少數(shù)民族語言的,藏語、維語、蒙語……少數(shù)民族語言分中心副主任、中央民族大學(xué)教授趙小兵向記者介紹,他們每年度采集的不同語種的語料達(dá)2億字,也來源于各大網(wǎng)站、報(bào)紙等。
少數(shù)民族語言每年也在不斷冒出熱詞、熱語,然而受技術(shù)手段制約,一時(shí)還選不出來。“軟件不夠水平啊!”趙小兵解釋,少數(shù)民族語言文字有特殊性,目前分詞軟件的準(zhǔn)確率在92%上下,而按照大規(guī)模語料處理的要求,準(zhǔn)確率至少要達(dá)到95%才行。
他說:“雖然暫時(shí)還沒選熱詞、熱語,但我們對(duì)少數(shù)民族語料的分析一直在做,你想象不出工作量有多大——采用人機(jī)輔助處理,需要大量人工干預(yù)。目前我們已經(jīng)完成了藏語、維語中小學(xué)教材和網(wǎng)絡(luò)詞語的統(tǒng)計(jì)分析。”
記者 王樂