当前位置:首页 > 教育部司局机构

2009年中国语言生活状况报告

一、总貌

2009年的中国语言生活,呈现出和谐有序、健康稳健、生机勃勃的发展态势。语言文字工作亮点突出,成效显著,引起社会广泛关注。民族语文工作多方面开展,新闻出版、广播电视领域进一步加强了对语言使用的管理,汉语国际传播规模稳步扩大,海外华文教育迎来难得的发展机遇年度语言热点不断涌现,语言生活出现新领域和新动向。

 

二、领域语言

(一)语言文字工作

语言文字应用管理工作不断拓展 截至2009年年底,城市语言文字工作评估通过认定而达到标准的二类城市有32个,一二类城市全部达标的省份1个,三类城市88个。已认定的省、市级语言文字规范化示范学校累计近1.3万所,教育部、国家语委认定的国家级语言文字规范化示范学校426所。开展公务员普通话水平测试的城市173个,开展窗口行业普通话测试的城市达176个、219 607人次,参加汉字应用水平试点测试的达25 577人,参加“中华诵·经典诵读”大赛的超过840余万人。教育部语言文字应用管理司在全国8个省(自治区)共举办少数民族教师普通话培班11期,培训教师964

据国家语委组织的全国16个城市的外文使用情况调查数据显示:全国外文平均使用率达31%,英语使用占全部外语语种的82.77%

语言文字信息管理工作深入推进  2009发布了《汉字部首表》《GB13000.1字符集汉字部首归部规范》《现代常用字部件及部件名称规范》和《现代常用独体字规范》4项国家语委规范;以《中国语言生活绿皮书》的形式,发布了6项规范草案。天津市语言文字培训测试中心受国家语委委托研制的“汉语口语水平测试(母语非汉语)标准研究”项目,通过专家鉴定。

教育部、国家语委发布了2008年度中国语言生活状况报告。与相关单位联合发布了“2008年度中国主流媒体十大流行语”“2009年度中国主流媒体十大流行语”。国家语言资源监测与研究中心少数民族语言分中心的维吾尔语文研究基地和藏语文研究基地分别在西北民族大学和新疆师范大学成立。中国语言资源有声数据库建设江苏省首批试点通过验收,第二批试点工作启动;少数民族语言有声数据库建设试点工作在云南启动。中国语言资源有声数据库建设的技术规范、工作规范研制完成。

民族语文工作多方面开展 20097月国务院发布了《国务院关于进一步繁荣发展少数民族文化事业的若干意见》,其中四条与少数民族语言文字工作有关。在教育部语信司支持下,“全国彝语术语标准化工作委员会”11月在西南民族大学成立。“藏、维、彝民语语音参数数据库”“汉藏语系语言词汇语音数据库”等多项教育部、国家语委民族语言文字规范标准建设及信息化项目结项。文化部全国文化信息资源建设管理中心2009年启动了康巴藏语节目的译制工作。

新闻出版语文工作取得实效 2009年的报告显示,2008年度全国教育教学辅助类报纸编校质量稳步上升,全国行业报(部分)编校质量普遍提高。

地方语言文字工作 为了迎接2010年上海世界博览会,上海市语言文字工作委员会、教育委员会、质量技术监督局于2009年制定了上海地方标准《公共场所英文译写规范》。上海市语委采取多种形式,在全市开展公共场所英文使用规范化专项整治行动,取得了阶段性成果。2009年,天津市语言文字培训测试中心受国家语委委托,在马来西亚成功举行了两场普通话水平测试,引起了强烈反响。中华经典诵读基地在苏州建立。朗诵水平等级考试在上海开展。

(二)广播电影电视及网络语言

广电总局出台严格控制电视剧使用方言的新措施  针对我国电视剧大量使用方言的问题,国家广播电影电视总局办公厅20097月下发了《关于严格控制电视剧使用方言的通知》。

网络语言使用状况调查  2009年进行的一项问卷调查,经常使用网络语言的占样本总数的31.3%,有时使用的占50.0%,很少使用的占15.6%,从来不用的占3.1%

(三)语言教育与语言传播

汉语国际传播规模稳步扩大  2009年在全球金融危机背景下,汉语国际传播仍稳步发展。截至200912月,在88个国家开设孔子学院282所、孔子课堂272个,孔子学院专职兼职教职工约3 100人。中国向109个国家派出教师2 060名,向71个国家派出汉语志愿者教师2 740名,向104个国家2 500多所主流学校赠送教材、图书和音像资料315万册。2009年中外双方对孔子学院共投入资金1.19亿美元。

海外华文教育的新机遇  随着中国的崛起,华人在国际上的地位提高,许多国家政府部门开始理解并支持华文教育。华人社会捐资助学、兴办华文教育的热情空前高涨。2009年国务院侨务办公室和中国海外交流协会,将原来不定期召开的国际华文教育研讨会改为两年一届的世界华文教育大会。

 

三、新领域和新动向

法庭审判中少数民族语言使用问题 据内蒙古自治区高级人民法院统计,该自治区现有19个沿边法院,25个牧区法院,辖区总人口608.3万人,占全区总人口的26%,这些法院普遍缺少能够使用少数民族语言主持诉讼活动的审判人员。全区现有法官5600多人,蒙汉双语兼通的法官仅有421人,占全部法官数的7.5%。双语兼通的法官数量远远不能满足民族地区双语诉讼审判的需要。

语言信息产业中的喜与忧  喜:机器翻译的发展推动了多语言信息服务产业的发展。“面向奥运的多语言智能信息服务网络系统”成功为北京奥运会提供了奥运信息和城市信息的多语言服务,还将在2010年上海世界博览会以及今后各类大型国际体育文化商业交流活动中提供多语言信息服务。忧:最近五六年,中国字库产业急剧萎缩,字库行业的很多优秀人才纷纷改行。究其原因是为盗版所累。

手语使用及相关问题  在文化、医疗、社会保障、体育、商业、社会服务等各个行业,由于缺乏手语翻译人员,听障人士难以与外界进行有效沟通。我国现有的手语翻译基本都是由聋校老师和残联工作人员兼职承担,远远满足不了2 000多万聋人的需求。

 

、报纸、广播电视、网络(新闻)语言文字使用的若干数据

报纸、广播电视、网络(新闻)的年度用字用语状况,可以反映媒体年度的语言使用实态,也可以透过这些字词语的使用状况看到年度的社会热点、重大事件等。2009年度的用字用语调查是在国家语言资源监测语料库2009年度的语料上进行的,语料涵盖平面媒体、有声媒体、网络媒体(新闻)三种,共计1 249 387个文本文件, 1 007 019 960字次。

今年适逢年度《中国语言生活状况报告》发布五周年,国家语言资源监测与研究中心特意对2005-2009年度的用字用语进行了比较。历时五年的语料积累,既可以用来反映五年共时的语言生活,也可以通过对比分析来反映五年历时的语言变化。今年发布的报告,对2005-2009年的字词语调查数据进行了比较,从共时、历时两个角度对五年的字词语使用状况进行了分析。

(一)汉字使用情况

1. 年度高频字数量稳定,字种数量有所增加

2009年度语料中共出现10 204个字种,高频汉字数量稳定,覆盖率达到80%90%99%的字种数分别为6029702 400个。

体现2009年度生活的汉字使用频率有所增加,比如“汶、婴、杭、飙、碳、迪、拓、旱、悍、蒜”等,在年度用字总表中的排序较往年有较大幅度的前提。

2009年度使用的字种数量是历年调查中最多的。这与当年语言生活中的汉字“繁简之争”,“《通用规范汉字表》(征求意见稿)公开征求意见”,以及网络中汉字使用追求标新立异有关。低频字数量多,汉字总表中覆盖率达到99.99%的汉字共计5336个,若将覆盖率达到99.99%之后所有汉字看作低频字,则2009年度的低频字占汉字总数的47.71%

2009年度用字总表中,包括了繁体字、异体字、不规范的类推简化字、旧计量单位用字、日本汉字等共计1804个,占全部年度用字的17.68%

2. 五年用字总表的高频字稳定,年度特色用字使用频率变化较大

五年的用字调查显示,覆盖率达到80%90%99%的汉字个数分别在58160293497123142400之间,其占汉字总数的比例分别没有超过7.15%11.49%28.47%,也就是说每一年不超过用字总量30%的高频汉字覆盖了全部语料的99%。因此高频字的使用数量相对稳定。同时,每年前3500个汉字中,有3358个汉字是相同的,使用的字种也具有稳定性。

对比每一年的用字总表,高频用字使用频率变化最大的汉字往往体现了年度的语言生活特点,低频用字使用偶发性较强,多用于专名。

3. 年度用字总表与现行规范字表之间的差异大于年度字表之间的差异

五个年度的用字调查表明,年度用字表前2500字与一级常用字之间的差异字种数在342357个之间,前3500字与《现代汉语常用字表》之间的差异字种数在388401个之间,前7000字与《现代汉语通用字表》差异字数在506725个之间,而每一年度《现代汉语通用字表》中未出现在语料中的汉字个数在160244个之间,有47个汉字在五年全部字表中均未出现。

比较年度的用字总表与现行规范字表,媒体语料用字的相同性要大于媒体用字与现行规范字表之间的相同性。在媒体语料五年都出现的汉字中,有661个汉字没有在《现代汉语通用字表》出现。

(二)词语使用情况

1. 年度词语使用总体相同性小,高频词语的变化体现年度特色

调查中由分词软件对语料切分得到的总词语数共计592 414 821词次,词种数计2 348 100个。其中在报纸、广播电视、网络(新闻)三类媒体都出现的词种数共计193 416个。

覆盖率达到90%的高频词语共计12 517个,剔除其中的一些专名、时间表达式等,在高频词语表中列出了11 635个词语。

高频词语表的变化体现了年度特色。2009年度,新进入到高频词语表中的包括“阅兵、世博、假币、抗旱、哥本哈根、低俗、日全食、贝卢斯科尼、水价、献礼”等;与往年高频词语相比,2009年度使用频率变化较大的词语包括“流感、世博、复苏、60年、经济危机、全运会、购置税、奥巴马、下乡、回暖”等,这些词语如实记录了2009年度社会生活。

语料中使用的成语种数是3 736个,总次数为1 680 701次,占全部语料总词次数的0.28%。成语的词长分布在3-8字之间,其中4字词占全部成语种数的98.47%。高频词语中的成语共有27个,占高频词语词种数的0.22%

2.五年词语比较,总体变化大,高频词语使用稳定,高频词语的微变体现年度特色

2005-2009年度的词语调查中,每年的词种数在165235万之间,其中五年都使用的词种个数为330 422个,占全部词种数的比例在14%20%之间。三类媒体五年都使用的词种数共计72 641个,占全部词种数的比例在3.09%4.4%之间。反映出不同媒体、不同年度词语使用的共性小,年度词语使用变化较大。

高频词语的使用具有较强的稳定性。2005-2009年度覆盖率达到90%的高频词语稳定在12 000个左右,其中五年都使用的词种数共计9 933个,约占高频词语的80%。高频词语的用字稳定在2 600个左右,词长分布在19字之间,其中词长为2字、3字的词语占全部高频词语的80%左右,长词多为专名或时间表达式。

年度之间高频词语的差别体现了年度生活,这些差别体现在词语使用的频率变化上,使得一些原本不很高频的词语进入到高频范围,一些原本就在高频词语中的词语排序前提。

3. 流行语

2009年度中国媒体十大流行语”分8个常规类目和5个特色专题。8个常规类目是综合类、国际时政类、国内时政类、经济类、科技类、社会生活类、文化教育类和体育娱乐类;5个特色专题包括“新中国成立60周年专题”“两岸及港澳专题”“环保专题”“甲型H1N1流感专题”和“社会问题专题”。

4.新词语

2009年度语料中共提取出新词语396条。

就词语长度看,具有优势的依次是三字、二字、四字词,其中三字词语占51.01%就词语构成材料看,完全由汉字构成的新词语有390条,占98.48%就结构方式看,有两点值得注意:一是除传统的偏正式能产性最高、占总词数的53.54%外,后附加式合成词比例较大,占26.77%;类后缀构词仍以这几年居高不下的“~门、~族、~客、~奴、~友”等为主;二是2009年新词语中叠音方式构成的词明显增多,如“楼歪歪、桥粘粘、墙脆脆”等。就使用频次分布看,2009年度新词语出现频次分布状况仍是两头小、中间大,即特别高频和特别低频的词语都不多。

从社会语言学角度进行分析,2009年度新词语有如下三个明显特点。一是反映社会问题的词语以某些格式为标志形成词语群,如“被××”词语群、“楼××”词语群、“执法”词语群等。二是体现“以人为本”理念,反映多元人群的词语增多。仅以“族、客、友、男、女、派、党、二代”为标记的就有80条,加上其他表人群分类的,共有116条,占新词语总数的28.86%。三是网络词语与社会生活词语的迅速融合。2009年,所有能够产生社会性传播效果的事件几乎都源自互联网的揭示和推动,而后迅速被各种传统媒体引用、传播,网络和传统媒体相互作用,相互借力,这些词语甚至成为描述2009年社会生活的流行语。

 

五、中文博客用字用语专项调查数据

今年,以2009年度的博客语料为基础,专门对中文博客进行了多角度的分析和调查,调查内容包括博客用户发帖情况、博客用字用语情况以及博客标签使用情况。

博客语料采自新浪博客和搜狐博客,包括171 160个博客用户全年发布的共计12 158 037个博客帖,平均每个用户71个博客帖,共12 362 687 048字符次,其中汉字9 889 496 758字次。

(一)发帖量

统计结果表明,年发帖量小于或等于50的用户占总用户数的58.56%,发帖量小于或等于100的用户占总用户数的84.74%。

(二)机构名、地名、人名使用情况

从机构名类型所分布的情况发现,博客作者关注更多的是与时事、政治、军事等相关的领域,其次是与传媒、金融、教育等相关的话题。

在前50个高分布率地名中,中国国内地名34个,国外地名16个,国外地名多为国家名,城市名中仅 “纽约” 1个。中国国内地名中,省、自治区名16个,其中“台湾”、“四川”、“广东”居前三位;城市名16个,“北京”、“上海”居所有城市名的榜首,“香港”名列第三位。

分析前50个高分布率人名:(1)从国别上看,国内人名占绝大多数,有39个,国外人名有11个。比较国内外人名可以发现:第一、国内没有经济界人名进入前50个高分布率人名中,而国外人名居首的是经济界名人“巴菲特”,其次才是政治界名人“布什”。第二、国外没有影视娱乐界人名进入前50,而国内影视娱乐界人名却占很大优势,共11个。第三、在11个国外人名中,有2个是宗教人名,国内人名中则为先秦诸子,如“孔子”“孟子”“庄子”等。(2)从人物身份所属类别上看,居前几位的都是近现代政治人物,其中“毛泽东”“胡锦涛”“温家宝”“邓小平”“蒋介石”“周恩来”6位进入了人名前10位。分析类别可以发现,博客作者在人名的关注上存在一个倾向,即政治人物>历史人物>娱乐界人物>文学界人物>体育界人物。

(三)博客标签调查

博客标签体现了博客所关注的主题,博客用户可以为发布的每篇日志添加一个或多个标签。

出现频次最高的十个单字标签是:爱、诗、我、性、梦、家、雪、雨、词、花。

出现频次最高的十个双字标签是:杂谈、情感、文化、股票、娱乐、财经、教育、育儿、休闲、健康。

出现频次最高的十个三字标签是:互联网、小沈阳、情人节、我记录、章子怡、毛泽东、刘德华、张柏芝、奥巴马、邓玉娇。

出现频次最高的十个四字标签是:生活记录、感悟随笔、金融危机、亲情友情、东方神起、人体艺术、招标文件、文学原创、操作策略、非诚勿扰。

 

六、基础教育阶段小学语文教材汉字使用调查

调查涉及8套小学语文教材。其中中国大陆6套、中国台湾1套、中国香港1套。中国大陆教材中属新课标版的3套,义务教育版的3套。

调查采用的是位序调查法,即统计首次出现的生字,先按册序,次按课文序,再按一篇课文内的生字先后排序。8套教材的生字位序之和除以教材总套数,即可得到每个汉字的位序值。

(一)字量调查

8套教材共出现不同的汉字字种3855个。生字出现最多的是人教社的新课标版,为2997个;最少的是台湾的康轩版,为2328个。8套教材皆有的生字为1397个,占总生字数的36.24%;只在一套教材中出现的生字有505个,占总生字数的13.1%。显示各教材生字总量相差不大,但在选取哪些汉字上差异则相当大。

只出现在一套教材的有505个独用字,其中28个属于《现代汉语常用字表》2500个“常用字”范围,有169个属于1000个“次常用字”范围,296个在“常用字”和“次常用字”范围之外。

通过对总字次、总字种数、共用、部分共用、独用情况的调查,可以发现生字教学用字的两个特点:(1)每套教材的生字总字种数相差不大;(2)教材之间的生字字种差异大。

(二)首现生字调查

一个汉字首次出现在生字教学用字中,即为“首现生字”。首现生字的调查结果显示:

1.汉字教学的高峰集中在第234学期,即小学一年级下学期与二年级全年。第1112学期即六年级,汉字教学的份量明显下降。有的是到高年级没有再安排生字教学,有的是只有汉字复现式教学。

2.第1学期生字占的份量不算最多,是因为第1学期前半期都安排了拼音教学。

3.人教新课标版的生字教学字量起伏最大。在第2学期安排的汉字教学量明显高出其他教材。

4.康轩版的首现汉字分布最为平缓。在12个学期基本上是均匀地进行汉字教学,最少的102字,最多的253字,呈现出中间略微突起、两端稍稍下倾的平缓延伸线。

1册的首现生字,反映的是整个小学汉字教学起始阶段学习的汉字。8套教材第1册的首现生字共有773个,在8套教材都出现的有33个,在7套教材出现的有38个,只在1套教材出现的为299个。第1册共用生字的比例远远低于整个小学阶段共用生字的比例,为4.27%36.24%;第1独用字的比例远远高于整个小学教材独用字的比例,为38.68%13.10%。表现出汉字学习初始阶段的差异大于整个小学阶段的生字学习差异的特点。

 

七、少数民族语言(藏语、维吾尔语)用词状况调查

本次调查涉及藏文及维吾尔文两个文种,由国家语言资源监测与研究中心少数民族语言分中心(中央民族大学)及藏语文基地(西北民族大学)、维吾尔语文基地(新疆师范大学)共同完成。

(一)小学藏语文新课标教材用词调查

本次调查以青海民族出版社20095月出版的五省(区)藏《语文》实验教科书为对象,主要包括课文生词和课文用词两方面调查内容。

1. 课文生词

课文生词指课后生词表中出现的词。调查显示:教材中第112册共有2 255个课文生词。

调查结果显示,藏语文教材各册课文生词中双音节词均占优势。将各词长按所占比例排序,顺序依次为:双音节词、单音节词、三音节词、四音节词。其中单音节和双音节词共计2164个,占生词总数的95.96%。这体现了基础教育阶段的词汇学习以常用和较简单的词汇为主。

在对课文生词在课文中出现的频次进行统计时发现:从词长1到词长4,生词长度越长,使用频次越低。

2. 课文用词

课文用词是指在课文中出现的所有词种。调查显示:全部12册教材共出现词种9 224条,词次总数97 366。由于动词存在“三时一式”的形态变化,前后缀形成的派生词大量存在,使得课文用词种数远大于课文生词种数。课文词种数的分布整体呈上升趋势,随着年级的升高,学习的词种数逐渐增加,这种循环渐进的教学模式有利于学生的学习。

调查项目还包括各课文体裁词种数、各册词种数、词总数及各册独用词统计、词频统计,以及前500高频词调查等。

本次调查是我国首次就少数民族语言教育教材的使用状况进行调查,为教材的客观评价提供了定量参考,为藏文量化字词教学目标的制定提供了依据,也为今后更好地提高藏语文教材的编写质量奠定了一定的基础。

(二)维吾尔文网站用词调查

本次调查涉及“新疆政府网”、“昆仑网”、“天山网”、“新疆信息网”、“新疆友通电子科技”、“新疆哲学社会科学网”、“教师网”、“莎车教育网”及“维吾尔医学”等9家维吾尔文网站,语料采集的时间跨度为20064月至200912月,语料内容为与大众日常生活密切相关的政治、经济、科学研究、教育、健康等多个领域。总语料词符种数197 687条、词符频次5 473 792、文本数15 878个。具体调查结果如下:

1. 符号调查

本次调查的维吾尔文符号包括标点、数字和其他符号(不含不可显示的字符、空格符等)。调查中共出现38种符号,占词符总数的0.02%;出现频次为1 368 520频次,占词符总频次的25.00%

2. 词尾调查

现代维吾尔文的词形变化丰富,通过缀接不同的词尾表示词与词之间各种不同的语法关系。如?????(你们)加词尾-??后,原词语变成???????(你们认为)。本次调查词尾频次总数为118 848条,词尾种数为4 448种,其中频次超过万次以上词尾种数为32种,如具有双重功能附加成分的词尾-??”; 同时体现一个以上的语法功能的词尾-???”等。

3. 词干调查

维吾尔语词干可分为纯词干和去尾词干。由词根或词根缀接词缀直接形成词语的词干称为纯词干;而将去除词尾的词干称为去尾词干。这种去尾词干的存在是由黏着语的特点所决定的。本次调查对去尾词干的统计是在对维吾尔语词的词形还原后进行的,例如:????????(工人的)一词,去掉词尾???后的词干是?????(工人)。本次调查统计得到纯词干24 149种,去尾词干20 111种。然而,纯词干和去尾词干有部分词形相同,总词干是指滤除纯词干和带尾词干重叠部分后的所有纯词干和带尾词干,统计得到的总词干31 452种。

4. 用词调查

用词调查项目包括词在语料中出现的频次、频率、词语长度、文本数等。在用词调查项目中共得到词种数197 649条、词频410 5267。具体可从以下几个方面来分析维吾尔语的网络用词情况:

1)词语分频段使用情况:统计结果显示,维吾尔语中的低频词种数量庞大,其中频次为1的词占总词种数的50.58%,频次不超过10的词语占总词语种数的86.48%

2)词语中首字母与词种数分布情况:以 ??8个字母开始的词种数量达万种以上,以  ?? 等字母开始的词种数量在千条以下,而以其他字母开始的词种数量都在2 252条至8 097条之间。

3)词种使用情况:统计结果显示了维吾尔语用词相对集中的特点。词频累加覆盖率为10%时使用词种仅27种,占全部用词种数的0.02%;而词频累加覆盖率为90%时的词种数量为21 607,仅占全部语料词种数的10.93%

4)高频词使用情况:高频词指在调查语料中词频累加覆盖率达到90%的全部用词。统计结果显示高频词的词种数为21 607条,占全部词种数的10.93%

5)词长分布情况:词长为1-4个字母的词只占全部词种数的2.55%,占全部词频的14.76%,说明在实际应用中,维吾尔文词长为1-4个字母的词使用较少,日常使用主要以4字母以上词为主;另一方面,词长超过20个字母的长词数量为812个,仅占全部词种数的0.40%,这类词的使用频度也很低,仅占全部语料词频总数的0.02%

6)词语的文本分布情况:本次调查的语料文本总数为15 878篇,其中只在1篇文本中出现的词种数为107 144个,占全部词种数的54.15%,而出现文本数小于6篇的用词占全部词种数的81.66%。由此可看出,大多数词并非常用词汇,出现的文本数量很低,这也体现了维吾尔文网络用词丰富的特点。

调查还公布了维文网站前1000个高频词干。

 

(《中国语言生活状况报告(2009)》已由商务印书馆出版发行。)

收藏
(责任编辑:王朋)