您好,欢迎来到要发发知识网。
搜索
您的当前位置:首页汉语二语教学领域词义标注语料库的研究及构建

汉语二语教学领域词义标注语料库的研究及构建

来源:要发发知识网
第31卷第1期 中文信息学报 VoI.31,No.1 2017年1月 JOURNAL OF CHINESE INF0RMATION PROCESSING Jan.,2017 文章编号:1003—0077(2011)00—0221—09 汉语二语教学领域词义标注语料库的研究及构建 王敬,杨丽姣,蒋宏飞,苏靖杰,付静玲 (北京师范大学中文信息处理研究所,北京100875) 摘 要:词汇教学在汉语二语教学领域占有极为重要的地位,其中多义词又是词汇教学的重点和难点。该研究通 过分析三部经典领域词表,选取了1 181个重点多义词,以《现代汉语词典(第6版)》为标注体系,制定了适合实际 标注的多义词标注规范和形式,在197册经典汉语二语教材上进行了多义词词义标注,构建了一个规模约350万 字的面向汉语二语教学领域的词义标注语料库,并在此基础上对1 811个多义词、4 323个多义词义项进行了计量 统计,分析了多义词不同词义的出现情况及其分布规律。为了更好地服务于汉语二语教学,开发了语料库检索系 统,设计并实现了多义词义项的查询功能。 关键词:汉语二语教学;语料库;多义词标注 中图分类号:TP391 文献标识码:A A Word Sense Annotated Corpus for Teaching Chinese as Second Language WANG Jing,YANG Lijiao,JIANG Hongfei,SU JingJie,FU Jingling (Institute of Chinese Information Processing,Beijing Norma1 University,Beijing 100875,China) Abstract:In field of teaching Chinese as a second language,the teaching of word is very important,in which polyse— mous word is a challenging issue.After a survey of 3 classica1 vocabularies in this field.this paper selects 1 181 pol— ysemous words.Then an annotation specification is designed,with a reference tO Modern Chinese Dictionary(Edi— tion 6).Tagging the l 181 words appeared in 197 popular Chinese textbooks yields a corpus with word senense an— notation over 3.5 million characters.A quantitative study on the 1 81 1 polysemous words is also made。with an a— nalysis of the distribution of total 4 323 word senses. Key words:teaching Chinese as a second language;corpus;polysemous words annotation 着语料库语言学的兴起,语料库开始在无论是汉语 1 引言 二语教学领域和自然语言处理领域起到了至关重要 的作用,因此需要建立一个高质量的多义词词义标 对外汉语教学领域主要包括语音、词汇、语法等 注语料库。 方面的教学,词汇教学在其中占有极为重要的地位。 词义标注语料库是指根据某个词典对多义词各 李如龙,吴茗认为学习语言,词汇是基础,词汇体现 个义项的定义,在真实语料上标注多义词的正确义 了语音的结构和变化,组成语句又体现了种种语法 项。Leech指出词义标注是最实用的语义标注。词 关系,词汇教学的效果直接影响着留学生汉语的整 义标注语料库是机器翻译、信息检索等自然语言处 体水平。其中多义词的教学又是词汇教学的重点和 理系统的基础性资源,在语言研究、词典编纂等方面 难点。在自然语言处理领域,如何识别文本中多义 也有重要应用。例如,Sinclair等提出在COBUILD 词的词义也一直是一个重要课题,词义消歧任务最 词典编纂中利用词义标注语料库统计得到词义频率 早与1950年作为机器翻译的一个任务被提出。随 信息编排义项。 收稿日期:2016—09—15定稿日期:2016—10—10 基金项目:国家语委“十二五”科研规划项目(YB125~124);国家高技术研究发展计划(863)(NO.2012AA011104);中国博 士后科学基金第53批面上资助(一等)(2O13M530026) 222 中文信息学报 词义标注语料库已经经过了十几年的建设, 无论是英语还是汉语都有了自己的词义标注语料 库。目前已经建设的词义标注语料库主要以采用 的“外国留学生汉语口语纵向语料库”和“美国学生 汉语作文纵向语料库”,中介语语料库主要是对语料 进行字、词、句的偏误标注等。 词义知识库WordNet为主,著名的有SemCor语料 但是国内目前还没有专门的面向汉语二语教学 的词义标注语料库,因此本文选取《现代汉语词典》 (第6版)为标注词典,《现代汉语规范词典》作为补 充,在汉语二语教材语料库上进行词义标注,在标注 库、SenseVal语料库和DSO语料库等。采用传统 语言词典进行词义标注的语料库数量很少,不成 规模。 、 汉语的词义标注语料库建设起步较晚,主要有 北京大学汉语词义标注语料库(Chinese Word Sense Tagging Corpus,STC)。该语料库由北京 实践的基础上,制定了一个比较完善的词义标注体 系,规范了词义标注标准,并对标注结果进行了数据 分析和统计,在此基础上设计了一个多义词词义检 索系统。本研究弥补了汉语二语教学领域语料库类 型单一的缺陷,并填补了汉语二语教学领域的基于 语料库进行词义研究的空白。 大学计算语言学研究所建设,所选语料是2000年 1--3月和1998年1月的《人民日报》,共计642万 字,所用词典是该所开发的《现代汉语语义词典》。 该语料库标注了966个多义名词和动词的义项。其 中名词794个、动词168个;肖航将新加坡国立大学 “华文教材语料库”中的中小学语文教材作为语料 库,选择传统语言词典——《现代汉语词典(第5 版)》作为词义体系,对该语料库添加词义标记,该语 料库总字数约为200万字。 目前,国内的面向汉语二语教学的语料库主要 2标注语料及多义词选择 2.1标注语料 本研究使用北京师范大学中文信息处理研究所 开发的汉语国际教育动态语料库①中的外汉语教学 领域经典教材部分,包括经典教材58套,共189册, 约350万字(含字母、数字和汉字),12万句。图1 是教材信息库的部分截图。 集中在中介语语料上,例如,北京语言大学开发的 “HSK动态作文语料库”,中山大学开发的“汉字偏 误标注的汉语连续性中介语语料库”、南京大学开发 图1 汉语二语教材语料库教材信息库 动态语料库在采集教材时充分考虑了教材类 学、中学和成人,学习者的汉语水平 型、适用水平、出版年代、影响因子等属性特征。所 选教材分别从出版年份、学习者适用年龄、学习者汉 语水平以及教材性质、教材类型、适用课型等方面做 了考虑。所有教材均是1989年到2012年共21年 间的典型教材,学习者的使用年龄覆盖到儿童、小 ①汉语国际教育动态语料库由北京师范大学中文信息处理研 究所和汉语文化学院共同建设,主要收录对外汉语教学领域经典教 材和新HSK样卷文本语料,并提供多层次的语言信息标注,目前规 模约14万句,240余万词次。 1期 工敬等:汉语二语教学领域词义标注语料库的研究及构建 223 也从零基础、初级、中级到高级水平。适用课型包括 口语、听力、阅读、写作和综合课型,这些教材大部分 是用来教授语言技能的,一小部分是医学汉语和商 务汉语。 性的、使用最为广泛的《现代汉语词典(第6版)》作 为词义体系。《现代汉语词典》(以下简称《现汉》)是 汉语语言研究、研究教学等使用最为广泛的词典。 《现代汉语词典(第6版)》对词义和语素义进行 了区分。图2是《现汉》对多义同“白”的释义。图2 2.1 多义词的选取 巾“自”的义项(1)、(3)、(6)、(7)、(10)和(11)是词义. 而(2)、(4)、(5)、(8)和(9)是语素义。符淮青指 为 了分析多义词不同义项的意义,首先要区分词义和语 素义,词义能作为词运用,语素义只能存在于它 所构成的词和固定结构中。词典对词义和语素义的 区分,便利了语料库的词义标注和计算机的词义消 歧。因为计算机词义消歧的输入(通常情形下)是经 过了词语切分.因此真正成为消歧对象的是词义,而 语素义则可以在词语或固定组合中自动得到消解。 本研究所说的多义词是广义概念下的多义词, 即同一词形具有多种词义可能的均视为多义词。从 词义标注和词义消歧角度来说,机器无法只从词形 上判断两个词形相同的词是否为两个不同的词,这 对留学生来说是一样的,因此采用广义多义词概念 更适用于词义标注和汉语二语教学。 语料库词义标注根据标注词的不同,可分为部 分词词义标注和全词(all—words)词义标注两种类 型。本文的研究是部分词词义标注,选取了1 181 个多义词进行标注。这1 181个多义词来自《新汉 语水平考试大纲HsK词汇》、《汉语国际教育用音 节汉子同汇等级划分》、《1700对近义词语用法对 比》,我们将这l 181个多义词成为多义词词义标注 词表(以下简称词表)。 词表中双音节词占多数,共812个,单音节词占少 数,共517个,多音节词最少,只有八个。词表中多义词 因此我们在进行多义词词义标注时,只标注词义,不 标注语素义。 1 i o 像霸或雪的颜色(跟“熙”fH 口 对)。0某蝗白色或近似白色的东西: 慧~l荚~}卵~。o 光亮;.1t亮:东方发 l大天~日。o清楚;明白;弄明白:大 l不~之冤.o没有加上什么东西的;空白: 饭i~开水i~卷f一穷二~。o[融没有效 ~~~音节数和多义词的HSK等级分布如表1所示。 表1 词表多义词音节数和HSK词汇等级分布情况 HSK等级 双音节词 单音节词 多音节词 1级 14 41 O 果;徒然:~跑一越I~费力气。e嘲无代价; 无报偿;~吃l~给l~看戏。o象征:~ 军I~区。o指丧 :~事。o圈用白跟珠 队.表示轻视或不满:~了他一跟.o (B6i)(萄姓。 罔2《现代汉语词典(第6版)》对多义词“白”的释义 总计 55 2级 3级 18 66 47 49 O 2 65 1l7 4 多义词义项标注实践 4.1 标注形式 i级 5级 135 222 61 9l 1 2 197 315 6级 296 35 2 333 对于一个包含n个义项S的词W()RD,它在一 超纲 总计 50 80l 48 372 1 8 99 1 18l 定的上下文中被标注上词义WS,其标注形式为: @DUOYIW()RD/P()S#WS(WS=Si、MH、UN) 其中,WORD代表一个词,@DU()YI表示这个 词需要进行多义词义项标注,P()S是这个词的词 性,WS是这个词在其所在句子中的词义(WS的取 值将在下文说明)词性和词义用#隔开。 3标注体系的选择 语料库词义标注在语义体系和词典资源的选择 上有多种不同做法,主要包括传统语言词典(例如 《辞海》《现代汉语词典》)、语义词典(例如《同义词词 林》)、用于信息处理用的词义知识库(例如Word— 肖航从为语料库标注多义词词义的实践来看, 词典普遍存在词义可区分性不足的情况。根据对《现 代汉语词典》的分析,他认为词典中多义词的义项之 间存在重叠、相离、包含等关系。本文根据该文献, 以及在多义词词义试标注过程中的实践,对多义词 Net、HowNet)等。本文选择在释义方面具有代表 224 中文信息学报 在词典中的义项和语料中的义项进行了形式化的表 示,如下: 择义项①,凡是词性是动词的都选择义项②。 假设一个多义词在词典中一共有 个义项,则 其第i个义项就表示为Si(i一1,2,3,…, )。其中, 词义WS和义项的关系有几种形式: 1.义项i可以准确表示词义,则WS=Si; 为了保证多义词词义的标注质量,我们组织了 2O名语言学及相关专业本科生、研究生参与人工标 注,标注人员经过培训和试标注检验合格后,进入正 式标注。标注结果需要经过两次人工校对,存疑处 2.义项 无法准确表示词义,则WS—MH,其 中MH的取值有三种: A义项i和义项J的交集表示词义,则MH— S +Sj: 由专家讨论确认。如上文所述的词典中存在的义项 重叠、相离、包含等关系,也在标注过程中不断地进 行词表修订,以使结果更符合实际情况。具体工作 可以分为以下几个步骤: 步骤1 对语料进行分词和词性标注; 步骤2对分词和词性标注记性人工校对; 步骤3对可以通过词性决定词义的义项进行 机器标注; 步骤4 对剩余的多义词进行人工标注; B义项 和义项 共同表示词义,但是义项 包 含义项J,则MH—S >>sj; C义项 或义项J表示词义,则MH—Silsj; 3.无法为语料中的多义词找到合适的义项,则 WS=QS,qs的取值为: A义项 释义过窄,则QS—S — B合适的没有义项,则QS—addS( +i)(其 中,QS参照《现代汉语规范词典》进行义项补充) 4.义项i是语素义,无需进行标注,则WS==: UN(无需标注) 4.2标注方式 步骤5 对标注了MH和QS的义项进行讨论 并修订词表; 步骤6 根据更新的词表修订标注结果; 步骤7 初次校对多义词词义标注结果; 步骤8 终校标注结果,收集讨论结果,确认标 注词表; 多义词标注采用机器和人工结合的方式进行。 首先进行机器标注,再进行人工标注。机器标注是 对多义词中可以通过词性决定词义的义项进行标 注,例如,“安定”这个词,凡是词性是形容词的都选 为了方便进行人工标注,我们开发了辅助词义 标注的工具,该词义标注工具的界面如图3所示。 图3 多义词词义标注工具 1期 王敬等:汉语二语教学领域词义标注语料库的研究及构建 225 该软件将多义词词义标注词表加载于其中,通 理,才能对多义词进行标注(图2)。 过点选的方式对每个词进行词义标注。 1.多义离合词的处理:多义的离合词在没有 4.3标注过程中特殊语言现象的处理 分离时和普通的多义词一样进行标注,当离合词分 离之后,只对分离出来可以单独成词的那一部分进 在多义词词义标注过程中,会涉及很多特殊语 行标注,不成词的部分不进行标注,另外,可离合的 言现象,需要有一定的规范对这些现象进行统一处 趋向动词在分离后都不进行标注。 表2多义离合词的标注规范及示例 离合情况 标注规则 实例 例l父亲/n是/v!一/m个/q胖子/n,/w@DUOYI__ 不离合时 正常标注。 走/v#①@DUOYI过去/vd#[3]一①自然/d@ DUOYI要/vu#[2]一⑧费事/v些/q。/w 分离时,两个部分都可单独 例2他/r上班/v时/nt完成/v@DUOYI一工作/n# 成词 两个部分单独进行标注。 ③,/w@DUOYI一下/v#[-1]一⑩了/u@DUOYI一班/n #②就/d闲着/v。/w 分离时,一个可单独成词, 可单独成词的部分,按照该词进行 标注,不可单独成词的部分,词性 例3可/vu@DUOYI一一起/d#②@DUOYI一洗/v# 一个不可单独成词 改为语素,并标注UN。 [1]一O@DUOYI一过/u#[3]一①澡/g以后/nd 分离时,两个部分都不单独 例4一些/m人/n@DUOYI一确实/d#②替/v@ 成词 词性修改为语素g,并标注UN。 DUOYI一你/r#①帮/g了/u个/q大/a@DUOYI_, ̄/ g拉UN 例5便/d@DUOYI一回/v#[1]一③@DUOYI一过/g 可离合的趋向动词分离时 两个词都不进行标注。 #UN@DUOYI一脸/n#①@DUOYI一去/g#UN,/w 不/d@DUOYI一再/d#①理会/v。/w 例1中,多义离合词“过去”没有分离,因此按照 2.多义重叠词的处理:一个多义重叠词是否 词典,将此句中的“过去”标注上词义。例5中,多义 要进行标注,要看这个词的重叠形式是否能拆分成 离合词“过去”分离为“过”和“去”,那么此时就将它 的词,能拆分出的词就进行标注,不能拆分 们的词性标注为“语素g”,并标注上“UN”表示无需 或拆分后不能成词就不进行标注,是否拆分以 标注。 《现汉》的收词标准进行判断,拆分规则如表3所示。 表3 多义重叠词的标注规则及示例 重叠形式 动词重叠 形容词重叠 量词重叠 数词重叠 AA式 慢慢/d慢慢JL/d 早早/d早早JL/d 个 令『q —/m.——/m 飚 跑步f 红/a红/a的/u AAB式 畈 好好/a的/u } | 雪白/a雪白/a的/u ABB式 香喷喷/a —tm令|q令jq f ABAB式 瓠扫 瓠扫 轻松/a轻松/a 一|m 一|m jq | AABB式 | 干干净净/a f | 的义项标注数据进行了统计和分析,希望从中能够 5 多义词义项分布情况的统计和分布 挖掘出其中的规律,并解释其中的原因,希望对汉语 教学尤其是教材编写提供一定的参考。  ,按照上述步骤,我们将在340万字语料上进行 1.多义词义项复现情况统计 1 181个多义词的词义标注,并对这1 181个多义词 词表1 181个多义词,根据《现代汉语词典 226 巾艾信息学报 201 7证 (第6版)≥。共包括 21 3个义项,平均每个义项 现3.57次。存所有语料Lf】,待标注多义词共 38 1 59浏次.其ff1需要标注的多义洲共537 493同 I~I()()次 ・10I、20(】次 2()I~300次 -3()卜40(】次 #4()卜500次 5()I~60()次 60I-700次 70I、80()次 8()I~90()次 901~I()()()次 次,无需标注的多义同共666词次。本文将每个义 项m现的次数按照1 O()的距离进行了统计,其结果 女¨ 4∈1)所示。 … . 1000以卜。欠 l 多义 义项 料巾的分布悄 从 4 fl可以看 . 现次数 1 O()以内的义 项是最多的,为2 83 1个.共L 总义项的78.7() 。 ⑦”m现次数最多.为20 l73次。 阿此基础I .本义义统计了 现次数l在1— 其r{J 现次数排存前l0位的同的义项分为别:在 l 000次以上的词分别为“在/p#⑦”(2O 1 73次)、 “你, r:①”(1 8 1 91次)、“有,/'V ①”(8 796次)、 1 00次之问的义项,并以l 0为距离再次进行了统 计.其结果 41))。其结果表示, 现次数在l一 1 0的义项最多。一共 现丁1 466次,占总义项 的5 1.78 9/6,并且随着}}I现次数的增加,义项逐 渐减少。 “和/c茸[ 2]③”(7 79O次)、“希/v#[2]一①”(7 288 次)、“有//v#②”(6 664次)、“能/vu#④”(6 1 8O 次)、“会,,/VI.1辱[2]一⑤”(5 403次)、“把/p#[1]一⑩” (5 1 24次)、“仆么/r#①”(5 079次),其小。“在/p# 3 …随后,本义继续统汁_r m现次数在1~10次之 间的义项,其结果如图5所示。 一义 i数 O 2 3 4 5 6 7 8 9, 次嗽啾瞅瞅瞅瞅瞅瞅 ● 罄 奠 ~ ¨2 3 4 5 6 7 8 9 r¨ 譬 ~~ #r ~ ~ ~ ~ 一 1 l I 嚣  Il 243  l85 38 ‘ l 8 —84 94 9l — I 一 _…■…_-..■…JlL 行义频的统汁分析,可以反映出教材中选择词义的 状况.结合新汉语水平考试(HSK)词汇等级大纲中 5 fff观次数小f 10的义项 f 料rfl的的分布情况 这表明.所有义项中.出现一次的义项最多.为 370个.【 总义项的2j.44 。 2.高频义项及低频义项的分布统计及分析 根据对多义词在真实语料下的词义情况分析. 绝大部份多义同的义项频率分布是不均衡的。具体 现为只钉个圳义项高频.其他义项低频.对义项进 的词汇等级,可以为以后的编写者提供客观的数据 础。以下的数据.本文只统计了773个复现次数 在1()()次以上的义项。高频义项及低频义项的统计 如表4所示。 1期 王敬等:汉语二语教学领域词义标注语料库的研究及构建 227 表4语料中高频及低频义项分布情况 频率阈值 总义项数 义项总占比/ 1级义 项数 一2级义 项数 1 21 3O 3级义 项数 7 41 64 4级义 项数 12 59 77 5级义 项数 1O 42 63 6级义 项数 O 4 5 超纲义 项数 2 6 1O 100.00 35 l89 274 4.53 24.45 35.45 3 16 25 >一90 >一8O >=70 348 45.02 33 38 75 lO5 78 5 l4 <一30% <=20 <一10 220 15O 9O 28.46 19.40 l1.64 83 70 48 52 36 22 41 24 I4 19 7 1 5 O O O O O 20 13 5 —0 l 367 { 87 113 118 227 364 312 146 从表4可以看出,当高频阈值设置为7o 时, 有45.02%的多义词义项是高频义项,并且当词汇 1)该义项为其所在词的不常用义项,比如“扒” 的第[2]一④个义项:烹调方法,现将原料煮到半熟, 再用油炸,最后用文火煮烂:~羊肉I~白菜。这些 义项主要是方言义、文言文义等,通过统计,这l 381 个义项中,共有方言义63个,文言义24个,口语义 l1个,旧时义12个,少数民族用语1个,用作姓氏 180个,统计291个; 2)多义词义项释义太窄,导致该义项的适用范 围太小,比如:“编辑”的第二个和第三个义项:“② 一的等级是四级时,高频义项出现的最多。通过低频 义项的分布可以看出,无论低频阈值设置为30%、 20 还是1O ,词汇等级是一级的词汇所包含的低 频义项最多。 多义词义项频率分布的两个极端情况是:①一 个多义词有多个词典义项但除一个高频义项外其他 义项不出现;②一个多义词中个别义项不会出现在 语料中。 【名】做编辑工作的人”;“③-【名】新闻出版机构中 限定的太窄,导致语料中出现“编辑/n”90 都都会 对于第一种情况,通过调查发现,共有35个多 义词只在语料中出现了一个义项,其他义项没有出 现,并且这35个多义词只包括2—3个义项,除了出 现的那个义项,剩下的1—2个义项基本都是不常见 义项。 编辑人员的中级专业职称。”第三个义项就是将义项 选择义项②,只有在上下文很明确的条件下,才会选 择义项③; 3)语料的,因为语料是来自汉语二语教学 的教材,有一部分语料是面向初中级的留学生,一小 在所有的义项中,一共有1 367个义项没用出 现在语料中,涉及699个多义词,这l 367个义项所 部分是面向高级留学生,所以语料中出现的多义词 的义项总是会集中在一些基本义或词的最常用义。 属词汇的HSK等级分布如表5所示。 表5词表中多义词的HSK等级分布 HSK等级 双音节词 单音节词 多音节词 1级 2级 14 18 41 47 例如,义项“把/p#[1]一⑧”就一共出现了5 000多 次,而其他词义基本上很少出现或不出现。这在一 总计 55 65 定程度上也显示了教材选词和词义的局限性,以及 程度不均的词义复现率。 3级 4级 5级 6级 66 135 222 296 49 61 91 35 2 1 2 2 117 197 315 333 6 多义词义项查询功能的实现 通过系统的、大规模的语料标注实践,我们构建 了一个面向汉语二语教学的词义标注语料库。资源 的开发需要面向实际的需求,为了更好地服务于汉 超纲 总计 5O 801 48 372 1 8 99 1 18l 语二语教学及相关的研究工作,我们对该领域的用 户需求进行了分析,开发了语料库检索系统①,并依 通过分析语料,发现造成这种现象主要有以下 几点原因: ①语料库检索系统网址:WWW.aihanyu.org。 228 中文信息学报 20l7年 此设计并实现了了多义词义项的查询功能。图6不 完全显示了多义词词表,通过词表可以查询某个多 义词的义项。如图7所示,在检索框中输入“阿姨”, 会显示 “阿姨”这个词所包含的义项。点击“阿姨” 的义项1,将会显示出义项1所包含的所有语料,如 图8所示。 囊妻蝗量l冀望塑 一鱼塞 鞑 蓑— 塾鱼鳓一 壤塞鸢 ■耋鳗婆蹩-L羞王 辐豪{ 多义词 jOl 干扰 序号 多义词 廨 口Ol 多义词 接 矮 ^ S 2 7 8 !堂 』!!三一 塞 刚 晶 往 ∞3 妄鑫! 忘记 危机 高慨 307 唁 敖 高明 高尚 ∞9 606 607 卖 为难 惺 忙 尾巴 扒 11 把 jlO 3l1 3l2 高兴 籀 告别 6lO 茫然 毛 毛病 9lO 口ll 912 未来 6ll 3l3 I4 lS l6 匹 掐外 5l4 没 没有 gl5 精离 自 臼臼 3l5 接 班 3l6 3l7 个人 6l7 门 闷 9i6 文化 文件 图6汉语国际教育动态语料库检索系统一一多义词检索功能 9 g ”一¨ 一 一 嚷 陶7 多义词“阿姨”的检索结果 甘…亭■一工吐社 一矗 ∞拈亭■. '士占普, ■ 5佶酋峦, ●毒阵1 # ■蒜 幢囊  l、 t 一E‘‘l_ l 0 ~7| l我 0年寸45岁,每天不是跑步・就是打网球・上十月去医院植童・医生说挑有心脏痫。 难煞 “中文起垮"Volume1 Lesson23我吃蔫Tot& :甜 ,l,书 州j f. 0 转 r 』备茸 n 丑 45 m岑,nt,/w每 Ynt 女 r藕 心脏痛,n… 是 ^- 是,vI跑步~・/w戴_,d是, £L 网球,n,fw上L 十,q目 圭 匡P ,nL旦 ・一w医生 n说~ 呈叠一 I_童童皂 2圭 : k老师.这是栽的r § 3 唑:你好1 4夫人: ・I青结} 老师衄苇。 5陌 :好。 5 :菲亳师 请喝苹 7 :午喜气 8 i: ^・f 好。 9去 :倚蜉 o lo . :夫^・对不起・我束I曼了。 11.- 4,:好o l2在南美_州・撤手击寻找宦拘的时假・也像^类一样-}巴弦子寰绐外婆“或者” 13娣片上自憾 人是你剜坤? 糯著o 陶8标注了“阿姨”义项1的语料详情 1期 王敬等:汉语二语教学领域词义标注语料库的研究及构建 229 如图8所示,“阿姨”的义项1共包含13条语 和应用空间。 料,在所有包含“阿姨”的中占比7.34 。当点击第 一条语料时,会显示出这条语料的详情,包括该语料 参考文献 的来源、词性标注信息、多义词标注信息,以及该语 料所包含的语法点信息。 E1]Ide N,Wilks Y.Making sense about sense[J].Word Sense Disambiguation.Dordrecht::Springer,2007, 7 结论 33:47—73. [2]Leech G.Corpus annotation schemesEJ].Literary and Linguistic Computing,1993,8(4):275—281. 多义词是汉语二语教学领域词汇教学中的重点 I-3] Sinclair J.Corpus,concordance,collocation[-M].Ox— 和难点。本文根据三张经典领域词表,筛选出1 181 ford:Oxford University Press,1 99 1. 个重点多义词,在197册经典汉语二语教材上,以 1-43符淮青.现代汉语词汇(增订本第二版)[J].北京:北 《现代汉语词典(第6版)》为标注体系进行了标注, 京大学,2004:63. 制定了一套多义词标注规范和形式,构建了一个包 [5] 国家汉办/.K子学院总部.新汉语水平考试大纲[M]. 北京:商务印书馆,2009. 含约350万字的面向汉语二语教学的词义标注语料 [6]金澎,吴云芳,俞士汶.词义标注语料库建设综述 库。在该语料库上,本文对1 181个多义词及其 I-J].中文信息学报,2008,22(03):16-23. 4 323个多义词义项进行了数量统计,分析了多义 [7]李如龙,吴茗.略论对外汉语词汇教学的两个原则 词义项复现情况、高频及低频义项分布情况及其规 [J].语言教学与研究,2005,2(41):2l_ 律。并在此基础上研发了一个原料库检索系统,实 [8]刘英林,马箭飞.汉语国际教育用音节汉字词汇等级 现了多义词词义查询功能。 划分[M].北京:北京语言大学出版社,2010. 基于上述研究工作,我们希望从以下几个方面 [92吴云芳,俞士汶.信息处理用词语义项区分的原则和 方法I-J].语言文字应用,2006,2:126—133. 做出尝试,以改进和提升现有的资源,并探索新的应 [1O] 肖航,杨丽姣.基于词典的语料库词义标注研究[J]. 用空间:第一,扩大语料库规模,目前语料库仅包含 语言文字应用,2010,2:135—141. 汉语二语教学领域的教材语料,并未包含真正的母 [11] 肖航.基于词典的语料库词义标注[D].新加坡:新 语语料,希望以后的工作中能够加入一些新闻语料、 加坡国立大学,2009. 网络语料等,使语料覆盖更广;第二,加入更多的多 [12] 杨寄洲,贾永芬.1700对近义词语用法对比[M].北 义词,实现全词标注。因为人力物力有限,目前仅在 京:北京语言大学出版社,2005. [13] 中国社会科学院语言研究所词典编辑室.《现代汉语 语料上实现了部分词标注,有很多多义词并没有被 词典》(第6版)[M].北京:商务印书馆,2012. 标注上;第三,在第二部的基础上,开展多义词词义 消歧研究,以节省人力,丰富现有的资源库建设维度 王敬(1988一),博士,主要研究领域为中文信息 杨丽姣(1973),副教授,主要研究领域为汉语 处理。 国际教育、词汇语义学、语料库语言学,对外汉语 E—mail:wangjingl204@foxmail.com 教学。 E—mail:yanglijiao@bnu.edu.cn 蒋宏飞(1982)。博士后,主要研究领域为自然 语言处理、智能问答、文本挖掘、机器翻译。 E—mail:jianghongfei@dinfo.ClI ▲

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- net188.cn 版权所有 湘ICP备2022005869号-2

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务