1. 汉语中介语语料库建设现状
1.1 语料库的建设和作用汉语中介语语料库的建设始于20世纪90年代。第一个语料库是北京语言学院1995年建成的“汉语中介语语料库检索系统”,此后就有了南京师范大学“外国学生汉语中介语错误信息语料库”、“外国学生中介语语料库”中山大学“留学生汉语中介语语料库”、暨南大学文学院“留学生汉语中介语语料库”、北京语言大学“HSK动态作文语料库”。还有一些语料库正在建设中,比如北京语言大学的“首都留学生汉语文本语料库”,这些语料库在对外汉语教学相关的研究中发挥了巨大的作用。通过语料库,研究人员发现了一些前人未曾发现的语言现象,并将定性研究与定量研究相结合,使研究结论更加客观、普遍、稳定,极大地提高了对外汉语教学的研究水平。例如,赵金明教授主持的《基于中介语语料库的汉语句法研究》、张波教授主持的《基于中介语语料库的汉语词汇研究》、《汉语句子学习难度及分级顺序研究》肖西强教授主持的《外国留学生研究》等,都是基于该语料库的代表性研究成果。 1.2 语料库建设存在的主要问题是数量少、规模小、语料库不够全面;语料库建设没有统一标准,语料库建设实践随意性很强;功能不够完善,对一些中介语现象的检索不方便甚至不可能。恢复;语料标注效率不高,标注质量存在一定问题;语料库资源不能完全共享(详见张宝林,2010)。 1.3 构建新语料库的思路目前,汉语中介语语料库的建设给汉语教学和研究带来了明显效益,并引起了学术界的广泛关注。但总体而言,汉语中介语语料库的建设还处于起步阶段,尚不能满足汉语教学和研究的各种需求。因此,我们正在努力建设一个样本多、规模大、来源广、阶段齐全、背景资料齐全、标注内容全面、标注质量优良、设计完善、功能齐全、检索方便、向各界用户开放的语料库。的生活,能够体现中国人的各种类型。学习者的汉语学习过程和特点,以及能够满足任何研究需求的汉语中介语语料库,即“全球汉语学习者语料库”,以弥补现有语料库的不足,更好地服务于汉语教学和研究。 2、《全球汉语学习者语料库》基本内容2.1 关于语料库2.1.1 样本多:指语料库作者数量较多,预计达到数万。 2.1.2 规模大:指语料量大,预计规模达5000万字。其中,用于书面表达的原始语言材料2500万字,熟悉语言材料2000万字,合计4500万字;用于口语表达的原始语言材料500万字,其中熟悉语言材料200万字,原始语言材料300万字。在后续的建设中,所有语料将逐步加工成成熟的语料。 2.1.3 来源广泛:指语料类型广泛。从表达方式来看,有书面语料库和口语语料库;从地域角度看,有来自中国大陆的外国汉语学习者制作的语料库,也有本国或其他国家和地区学习汉语的学习者制作的语料库;从学生类别来看,有汉语言或汉语专业学生制作的语料,也有其他专业学生的语料;有本科生和研究生的语料库,也有长期和短期访问学生的语料库;有海外华人学习者语料库,也有非海外华人学习者语料库;从文体上看,有记叙文、议论文、说明文材料;从语料材料性质来看,有日常作业、成绩试卷、水平试卷、作文等。答题时也有段落表达。语料样本数量多、规模大、来源广给研究带来的直接好处是:可以使研究及其结论高度客观、普遍、稳定,得到的结论不会因语料库的变化而变化。由于“较大的样本可以减少样本统计量的变异”(David S. Moore,2003:162),因此可以保证结论的可靠性。

2.1.4全阶段:指汉语学习的全过程,即初级、中级、高级等各个学习阶段的学习者都有语料库材料。因此,我们不仅可以对每个阶段学习者的学习情况进行横断面考察,还可以对整个学习过程进行全面研究,对每个学习阶段进行比较分析。 2.1.5 收集部分母语者语料库:为了与母语者汉语使用情况进行对比分析,我们还将收集小学生、初中生、高中生的部分母语者作文语料库学生。 2.2 关于背景信息(1)背景信息包括学生信息和语料库信息。 (2)学生信息包括:学生代码、性别、国籍、是否为汉语、母语或第一语言、掌握的其他语言及其水平、专业、年级、汉语学习时间、学习地点、学习目的;是否参加过HSK考试、作文考试成绩、口语考试成绩、考试总成绩、是否取得水平证书、证书等级。 (3)语料库信息包括:标题、体例、最小字数限制、写作时间、写作地点(课内、课后、考场等)、分数。 2.3 关于标注2.3.1 标注方式:偏置标注+基本标注。 2.3.2 错误标记:指对文字、单词、词组、句子、文章、标点符号中的各种错误进行标记。 (一)汉字标注错误,包括错别字、错别字、漏字、多字、繁体字、异体字、拼音字等。 (2) 错误标注,包括错序、用错、缩写错误、杜撰词、外来词、多词等;