难道就难道齐国没有人了吗投过AI communications吗

完成奥美2012校园招聘大礼包_备战完成奥美2012校园招聘_大街网_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
大街网是以实名制为基础,致力于为用户打造...
评价文档:
喜欢此文档的还喜欢
完成奥美2012校园招聘大礼包_备战完成奥美2012校园招聘_大街网
完​成​奥​美02​校​园​招​聘​大​礼​包​_​备​战​完​成​奥​美02​校​园​招​聘​_​大​街​网
阅读已结束,如果下载本文需要使用
想免费下载本文?
把文档贴到Blog、BBS或个人站等:
普通尺寸(450*500pix)
较大尺寸(630*500pix)
你可能喜欢当前位置: >>
从语料库中挖掘知识-北语
语言信息处理与汉语知识研讨会,-30,北京语言大学从语料库中挖掘知识 Mining Knowledge from Corpus冯志伟 提要: 本文主要介绍中国传媒大学依存树库研究团队从依存树库中获取语言学知识的一些工作, 如,汉语名词语法功能的研究,20 种语言中心词居前与中心词居后的分布研究,汉语复杂网络 的研究。这些工作都是在汉语依存
树库的基础上进行的。本文也简要地介绍了国外从语料库中 获取非语言学知识的研究。 20世纪90年代以前,从事计算语言学系统开发的绝大多数学者,都把自己的目的局限于某 个十分狭窄的专业领域之中,他们采用的主流技术是基于规则的句法-语义分析,尽管这些应用 系统在某些受限的“子语言” (sub-language)中也曾经获得一定程度的成功,但是,要想进一 步扩大这些系统的覆盖面,用它们来处理大规模的真实文本,仍然有很大的困难。因为从自然 语言系统所需要装备的语言知识来看,其数量之浩大和颗粒度之精细,都是以往的任何系统所 远远不及的。而且,随着系统拥有的知识在数量上和程度上发生的巨大变化,系统在如何获取、 表示和管理知识等基本问题上,不得不另辟蹊径。这样,就提出了大规模真实文本的自动处理 问题。1990年8月在芬兰赫尔辛基举行的第13届国际计算语言学会议(即COLING'90)为会前讲 座确定的主题是: “处理大规模真实文本的理论、方法和工具” ,这说明,实现大规模真实文本 的处理将是计算语言学在今后一个相当长的时期内的战略目标。为了实现战略目标的转移,需 要在理论、方法和工具等方面实行重大的革新。1992年6月在加拿大蒙特利尔举行的第四届机器 翻译的理论与方法国际会议(TMI-92)上,宣布会议的主题是“机器翻译中的经验主义和理性 主义的方法” 。所谓“理性主义” ,就是指以生成语言学为基础的方法,所谓“经验主义” ,就是 指以大规模语料库的分析为基础的方法。从中可以看出当前计算语言学关注的焦点。当前语料 库的建设和语料库语言学的崛起,正是计算语言学战略目标转移的一个重要标志。随着人们对 大规模真实文本处理的日益关注,越来越多的学者认识到,基于语料库的分析方法(即经验主 义的方法)至少是对基于规则的分析方法(即理性主义的方法)的一个重要补充。因为从“大 规模”和“真实”这两个因素来考察,语料库才是最理想的语言知识资源。但是,要想使语料 库名符其实地成为自然语言的知识库,就有必要首先对语料库中的语料进行自动标注,使之由 “生语料”变成“熟语料” ,以便于人们从中提取丰富的语言知识。可以看出,计算语言学现在 正在面临着一场战略转移。这场战略转移的关键是知识的获取方式和方法:从依靠“内省”方 式转向依靠“语料”的方式,从基于“规则”的方法转向基于“统计”的方法。 面对计算语言学的战略转移,我觉得,语言学在获取知识的方式方法也应当进行一场战略 转移。 与计算语言学相似,传统语言学家获取语言知识的方法基本上是通过“内省”进行,由于 自然语言现象充满了例外,治学严谨的学者们提出了“例不过十不立,反例不过十不破”的原 则,这样的原则貌似严格,实际上却是片面的。在成千上万的语言数据中,只是靠十个例子或 十个反例就来决定规则的取舍,难道真的能够保证万无一失吗?显然是不能保证的。因此, “例 不过十不立,反例不过十不破”的原则只是一个貌似严格的原则,实际上是一个很不严格的原 则。现在,是抛弃这个原则的时候了。 语料库是客观的、可靠的语言资源,语言学研究应当依靠这样的宝贵资源。语料库中包含着 极为宝贵的语言知识,我们应当使用新的方法和工具来获取这些知识。当然,前辈语言学家数 千年积累的语言知识(包括词典中的语言知识。语法书中的语言知识)也是宝贵的,但由于这 些知识是通过这些语言学家们的“内省”或者“洞察力”发现的,难免带有之主观性和片面性, 需要我们使用语料库来一一地加以审查。语言学的一切知识,都有必要放到语料库中来检验, 决定其是正确的,还是片面的,还是错误的,甚至是荒谬的,从而决定其存在的必要性,决定 其是继续存在,还是放弃其存在。我们可以预见,语言学研究战略转移的时代必将到来!一种 新的基于语料库的研究方式必将代替传统的依靠“内省”的研究方式, “内省”的研究方式今后 只能是基于语料库研究方式的补充,而决不能是语言学研究的主流。 “从语料库挖掘知识”―这 应当现代语言学的基本研究方法。自然语言处理中的战略转移,必将影响到传统的语言学,传 统语言学战略转移的时刻或迟或早总会来临。 从语料库可以挖掘的知识,可以是语言学的知识,也可以是非语言学的其他有用的知识。 由于时间的限制,这里我们着重讲怎样从语料库挖掘语言学知识,最后,我们举一个例子 说明怎样从语料库中挖掘非语言学知识。一、从语料库中获取语言学知识语言学的研究必须以语言事实作为根据,必须详尽地、大量地占有材料,才有可能在理论 上得出比较可靠的结论。传统的语言材料的搜集、整理和加工完全是靠手工进行的,这是一种 枯燥无味、费力费时的工作。计算机出现后,人们可以把这些工作交给计算机去作,大大地减 轻了人们的劳动。后来,在这种工作中逐渐创造了一些独特的方法,提出了一些初步的理论, 形成了一门新的学科 -- 语料库语言学(corpus linguistics) ,由于语料库是建立在计算机上的, 因此,很多学者把它看成是自然语言处理的一个分支学科。 语料库究竟有什么用处。中国传媒大学依存树库研究团队(包括硕士生、博士生和部分青 年教师)近年来在从语料库中获取语言学知识方面做了一些初步的探索。这里,我们只举例说 明。 如果我们有关于副词“多半”用法如下的例句: 1. 游览北京名胜古迹的多半是外地人。 (表示“大部分” ) 2. 过了立秋,天气多半会变得凉爽起来。 (表示“通常” ) 3. 他们多半会同意的,你不用着急。 (表示“很有可能” ) 仔细观察,发现句子 3 有歧义。除了表示“很有可能”之外,还可以表示“他们”中的“大 部分” 。也就是说, “多半”的语义指向可以向后指向“同意” ,还可以向前指向“他们” 。 最近,我的博士生高松带着这样的问题,对北大语料库提供的 500 条语料进行分析,得出 了如下的统计结果: 条目数 比例 切分错误 22 4.4% 无歧义 329 65.8% 有歧义 149 29.8% 合计 500 100% 发现如果不分词,会产生如下的切分错误句子: 4. 我差不多半年都没去书店了。 其实句子 4 中根本没有“多半”这个单词。 在有歧义的 149 条中,歧义格式可以分为两类: -- 名词、名词性短语 + 多半 + 动词 5. 考到外地大学生又多半不想回来。 -- 人称代词 + 多半 + 动词 6. 她们多半是妙龄女子。 进一步分析发现,出现歧义的条件是:句子的主语必须是群体性的名词、名词词组或者人 称代词。 句子 3 之所以有歧义,就是因为主语“他们”是表示群体的人称代词。这样就解释了句子 3 出现歧义的原因。 可见,语料库是语言研究的有力工具,值得我们注意。我们从语料库中获取知识的过程大致如下: 语料库数据?带标语料库?树库?数据挖掘?结构化的数据?统计分析?知识(包括语言 学知识和非语言学知识) 。 可以看出,树库(tree-bank)在数据挖掘中起着重要的作用。 树库是在词性标注的基础上,对每个句子加注句法关系的语料库。近年来,树库作为获得 句法结构的知识源和评价句法分析结果的工具,受到很多研究者的重视 (Abeillé ,2003)。越来 越多的研究发现:树库资源不仅可以使用在计算语言学的研究中,也可以使用在理论语言学的 研究中, 它是语言学研究有用的工具 (Hinrichs et al., 2005; Nivre, 2005; Hudson, 200) 。 树库中含 有的大量句法分布信息可为句法研究提供坚实的基础 (刘海涛,2009)。 依存树库是一种用依存语法标注的语料库,通过建立词语之间的联系来描述句法的结构, 以依存关系为基础。依存关系是两个词之间一种有向的、非对称的关系。它具有三个组成部分: 支配词、从属词、依存关系标记。句子中的每个词都有自己的支配词,即它是受哪个词支配的, 它依存于哪个词。把这种依存关系用符号标记出来,这些符号就是依存关系标记。有关依存语 法理论,可参见冯志伟(1983)、Hudson (2007)、刘海涛(2009)。图 1 为汉语句子“这是一本书。 ” 的依存句法结构图。 s objsubj 这 r 是 v qc 一 m atr 本 q 书 n 。 bjd 图 1 “这是一本书。 ”的依存句法结构图图 1 中带箭头的弧的起点为支配词,箭头指向的是从属词,弧上标记为依存关系标记。 动词“是”是句子的谓语,它支配主语“这”和宾语“书”“是”是支配词, 。 “这”和“书” 是从属词, 、 “s”“subj”“obj”是依存关系标记。数词“一”作量词“本”的量词补足语, 、 “本”是支配词, “一”是从属词, “qc”是依存关系标记。数量短语“一本”作名词“书” 的定语,名词“书”支配量词“本”“atr”是依存关系标记。 , 我们在汉语树库中使用的标记集(最新版)如下: 1.词性标记集ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31标记 np nt ns nl n vu vd vl vi vts vtd vtc vt v pba pbei pjiang p cc cs ua uc ur um up uo usde usdi usdf m q中文含义 专有名词 时间名词 处所名词 方位名词 其它名词 助动词 趋向动词 系动词 不及物动词 小句宾语 双宾动词 兼语动词 其它及物动词 其它动词 介词“把” 介词“被” 介词“将” 其他介词 并列连词 从属连词 动(时)态助词 比况助词 替代助词 语气助词 介词框架助词 其他助词 结构助词“的” 结构助词“地” 结构助词“得” 数词 量词标记类别 词类标记 词类标记 词类标记 词类标记 词类标记 词类标记 词类标记 词类标记 词类标记 词类标记 词类标记 词类标记 词类标记 词类标记 词类标记 词类标记 词类标记 词类标记 词类标记 词类标记 词类标记 词类标记 词类标记 词类标记 词类标记 词类标记 词类标记 词类标记 词类标记 词类标记 词类标记 32 33 34 35 36 37 38 39 402.依存关系标记集a d r e o zdi zmen bnd bjd形容词 副词 代词 叹词 拟声词 字“第” 字“们” 句中标点 句末标点词类标记 词类标记 词类标记 词类标记 词类标记 语素标记 语素标记 标点标记 标点标记ID 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28标记 s subj obj obj2 subobj soc pobj fc comp dec dic dfc baobj plc oc qc beis sentobj obja adva va atr top coor epa ma ta esa中文含义 谓语 主语 宾语 间接宾语 兼语 兼语补语 介词宾语 方位结构补语 补语 “的”字结构补足语 “地”字结构补足语 “得”字结构补足语 “把”字句宾语 名词复数 序数补足语 量词补足语 被字句 小句宾语 能愿动词宾语 状语 连动句 定语 主题 并列关系 同位语 数词结构 时态附加语 句末附加语 29 30 31 32 33树库标注实例:ina cr csr auxr punct插入语 复句关系 连带关系 助词附着关系 标点符号在这个树库的基础上,中国传媒大学依存树库研究团队进行了一系列的研究。我们将 最主要的一些研究介绍如下。 1.1 高松对于汉语名词语法功能的研究中文信息处理系统在进行现代汉语自动句法分析时, 需要量化的研究成果, 特别是需要 词的各种语法功能的量化描写。 量化的信息也有助于语言的本体研究与对外汉语教学。 名词 是现代汉语词类中的重要成员, 是三大类实词之一。 语言学家们从定性的角度对名词语法功 能进行了研究,得出了一些有共识的结论。 博士生高松通过定量分析, 统计出汉语名词的语法功能, 可以验证和补充前人的研究结 论,有助于对名词语法功能的认识更清晰。在对外汉语教学中,可以根据名词各语法功能出 现频率的高低区分出典型、非典型功能来分阶段教学。 刘海涛、冯志伟 (2007)提出了概率配价模式理论 (Probabilistic Valency Pattern Theory, 简称 PVP)1。该理论是对传统配价理论的发展,吸收了配价理论的优点,将配价理论和依存 语法很好地结合起来,形成了一种较完整的自然语言分析和理解理论。他们提出该理论时, 给出的汉语词类概率配价模式图是凭借着语感用粗细不同的线条表示词类结合力的大小。 线 条粗的,词类的结合力大;线条细的,词类的结合力小。我们从真实语料出发,构建汉语依 存树库,从树库中提取汉语词类的配价模式,用精确的数据来表示词类结合力的大小,改变 了原来凭借语感用线条的粗细表示结合力的大小,这是对概率配价模式理论的进一步发展。 高松利用汉语依存树库, 统计出名词作为支配词时, 它支配从属词所形成的支配关系和 和这种支配关系出现的频次;以及,名词作为从属词时,支配词支配名词所形成的名词从属 关系和这种从属关系出现的频次; 由此总结出汉语名词所具有的句法功能; 将统计结果与前 人的研究结果进行对比, 验证和补充以前的研究结论; 并按照汉语名词各语法功能出现频率 的高低区分出名词的典型功能和非典型功能,以此来为对外汉语教学提供参考。 1959 年,法国语言学家泰尼埃的《结构句法基础》一书出版。此后,他所提出的配价 理论与依存语法引起了世界各国语言学界的广泛重视。在语法研究、语言教学、自然语言处 理中,配价理论都得到了广泛的应用。这体现出配价理论是一种面向实用的语言学理论。 刘海涛、冯志伟 (2007) 认为:配价是对词汇的一种静态描述,它是词与其他词结合的 潜在能力。在词典中,词的配价有多种可能。但当词进入到具体的语境中,它与其他词结合 的潜在能力得以实现,多种可能的配价变为一种,这也就形成了依存关系,依存关系是一种 实现了的配价。配价是一个词的结合力,力有大小,我们可以用一个词类支配或被支配的依 存关系在数量上的不同来描述力的大小, 可以通过依存树库来获得精确的定量描述。 这就是 概率配价模式理论。 它就是在描述一个词或词类的配价模式时, 不仅用定性的方式来描述它 可支配什么样的依存关系, 可受什么样的依存关系的支配, 还用定量的方式给出这些依存关 系的权重或概率分布。高松的研究以概率配价模式理论为理论基础。 高松研究使用的树库是中国传媒大学依存树库研究团队开发的面向有声媒体语言的汉 语依存树库。 选取的语料为 2007 年电视台和广播电台 31 档节目的转写文本。 电视节目如 “新 闻联播”“实话实说”“鲁豫有约”“百家讲坛”等;广播节目如“新闻和报纸摘要”“今 、 、 、 、 日论坛”“海峡时评”“中国之窗”等。选取的语料既包含新闻播报类又包含访谈会话类, 、 、 涉及的范围和内容比较广泛。语体上,既有书面语体又有口语体。语料中共有 3600 个句子, 98236 个词次,使用软件工具进行了自动分词和词性标注,并采用依存语法对其进行了句法 标注。为确保标注的一致性,对汉语的某些特殊结构,给出了统一的标注方法(高松、赵怿 怡、刘海涛, 2009)。所有的标注结果都经过了人工和工具的核对校正。所用的汉语依存关系 句法标注体系见 Liu and Huang (2006)。 在依存树库中,高松用 excel 电子表格统计出“从属词词性”“支配词词性”与“依存 、 类型”之间的关系,得到汉语名词通过哪些依存关系支配从属词,支配词通过哪些依存关系 支配名词。名词支配从属词形成的依存关系,能得出名词可以带什么成分,受什么词修饰; 支配词支配名词形成的依存关系, 能得出名词在句中作什么成分。 分析这两种依存关系能得 出汉语名词具有的句法功能分布。1刘海涛,冯志伟,自然语言处理的概率配价模式理论[J],载《语言科学》,2007 年第 3期。p. 32-41. 高松实验的结果与分析1 汉语名词的语法功能分布 在依存树库中,高松首先统计了名词为支配词时,它与从属词所形成的支配关系,包 括支配关系标记、 这种支配关系出现的频次、 每种支配关系占名词作支配词所形成的所有支 配关系的比例以及在树库中的例句。见表 1。表 1:名词为支配词,支配从属词所形成的依存关系、依存关系出现的频次、比例和例句 支配关系 定语 atr2频次
331 127 121 111 108 56 50 37 33 31 8 16306比例 73.70% 20.09% 2.03% 0.78% 0.74% 0.68% 0.66% 0.34% 0.31% 0.23% 0.20% 0.19% 0.05% 100%例句 援助巴勒斯坦国际 会议昨天在巴黎结束3。 如果他当选总统 ,普京准备出任总理。 胡锦涛 总书记发表了重要讲话。 大力推进社会主义民主 政治制度化。 他在电视上都谈论很 学术的问题。 很多老年人都患有心脑血管 等多种慢性病。 昨天星期天,他想这该好好歇歇了。 王主任家 俩屋一厅。 向为我国航天事业做出贡献的同志 们致敬。 这是什么原因 呢? 该项工程启动了三 年多,成效显著。 那里需要的不是军队,而是行政资源。 比方说,你的书的销量。标点符号 punct4 同位语 epa 并列关系 coor 状语 adva 助词附着关系 auxr 复句关系 cr 主语 subj 名词复数 plc 句末附加语 esa 量词补足语 qc 连带关系 csr 插入语 ina Total5从表 1 中,可以得到的结论主要有: 1) 汉语名词支配补足语可以形成的依存关系有:主语、名词复数、量词补足语。名词 带各补足语的比例在名词支配从属词的比例中都很低。 其中, 名词带主语的比例在名词带所 有补足语的比例中是最高的,占 0.34%。其次是带名词复数,占 0.31%。接下来是带量词补 足语,占 0.20%。 2) 汉语名词支配说明语可以形成的依存关系有:定语、同位语、并列结构、状语等。 其中,名词带定语的比例在名词带所有说明语的比例中是最高的,占 73. 70%。其次是带同 位语,占 2.03%。然后是带状语、带助词附着成分、带复句谓语、带句末附加语、带复句连 词、带插入语。 3) 语言学家们指出汉语名词能受数量短语修饰、特定条件下可受副词修饰、指人的普 通名词后边可加 “们” 表示复数。 我们统计出来的汉语名词可以带量词补足语(如 “一个人” )、 可以带状语(如“很学术”)、可以带名词复数(如“朋友们”)验证了这些结论。一些语言学 家认为汉语名词不能受否定副词“不”修饰(胡裕树,1995;邵敬敏,2001),而在我们的树 库中有“不中国”“不男人”“不青春”“不学术”等名词受“不”修饰的例子,所以我们 、 、 、依存关系标记基本上是根据相应英语单词缩写的, subj 是 subject 的缩写, 如 表示主语; obj 是 object 的缩写,表示宾语;adva 是 adverbial 的缩写,表示状语。 3 例句中双下划线的词为支配词,单下划线的词为从属词。表 2 同表 1。4 2punct 表示标点符号,这里考虑到句法结构的完整性,所以给每个标点符号以相应的支配词。实际 连带关系指的是在一个复句中,从属连词和其所在分句谓词之间的关系。上,标点符号并不参与句法成分,也不体现语法功能。5 认为现在有少量名词可以受“不”修饰,这些名词带有形容词的性质。 4) 由数据可以得出汉语名词作支配词时,语法功能是:受数量短语修饰、部分名词后 可加“们”表复数、一定条件下可受副词修饰带状语、少量带有形容词性质的名词可受否定 副词“不”修饰、可以带主语(此时名词作谓语)、可以带定语作其修饰语、带同位语、带并 列结构、带助词附着成分、带复句谓语、带句末附加语、带复句连词、带插入语。 5) 从统计数据来看,汉语名词支配说明语的比例是 99.15%,支配补足语的比例是 0.85%。基于传统的配价理论,通常考虑汉语名词带补足语的情况很多,对带说明语的关注 程度不高。本文的统计数据显示:汉语名词支配说明语的比例远高于补足语。这说明我们应 当加大对汉语名词支配说明语的考察力度。 汉语名词作从属词时,支配词支配名词所形成的名词从属关系,包括从属关系标记、从 属关系出现的频次、 每种从属关系占名词作从属词所形成的所有从属关系的比例以及在树库 中的例句。见表 2。表 2:名词为从属词,支配词支配名词所形成的依存关系、依存关系出现的频次、比例和例句 从属关系 宾语 obj 主语 subj 定语 atr 介词宾语 pobj “的”字结构补语 dec 方位结构补语 fc 状语 adva 同位语 epa 兼语 subobj 话题 top 谓语 s 并列关系 coor 插入语 ina 间接宾语 obj2 小句宾语 sentobj Total 频次 26
511 428 294 197 179 126 31 13 10 16230 比例 33.76% 21.67% 15.57% 7.47% 5.98% 4.53% 3.15% 2.64% 1.81% 1.21% 1.10% 0.78% 0.19% 0.08% 0.06% 100% 例句 俄罗斯昨天成功试射了一枚洲际弹道导弹。 报纸 指出,发达国家基本上不发展炼焦了。 建议制定科索沃问题 路线 图。 新政策对外资银行是个机遇。 机关 的耗电量大约是城镇居民 的 10 倍。 国际 上取消了对食用味精量限制的规定。 过去,该地区劳动力出现过短缺现象。 国务院总理 温家宝昨天会见了世界银行行长。 我们要带领 人民从新的历史起点出发。 这件事我没有听说过。 这种方式 呢 ? 审议关于加强食品 药品安全监管情况的报告。 本台消息,昨日阿尔及尔市发生爆炸袭击事件。 政府给这些下岗职工支持和帮助。 您看您这么大年纪了,还继续工作呢!6从表 2 中,可以得到的结论主要有: 1) 汉语 6 种主要的语法功能,即主语、谓语、宾语、定语、状语,补语,除了补语之 外,其余的语法功能名词都具备。其中,名词作宾语的比例最高,占 33.76%。其次是作主 语,占 21.67%;作定语,占 15.57%;作状语,占 3.15%;作谓语,占 1.10%。对名词这几 种主要语法功能的统计,结果与莫彭龄、单青(1985)一致。 2) 除了主要的语法功能之外,汉语名词还可以作介词宾语、 “的”字补足语、方位结构 补语、同位语、兼语、话题、插入语、间接宾语、小句宾语,以及与其他词形成并列结构。 3) 语言学家们提出汉语名词经常充当主语、宾语、定语,能用在介词后边构成介词短 语,少数名词可作状语。我们统计出来的汉语名词可作主语、宾语、定语,可作介词宾语、该例句中小句“您这么大年纪了”是谓语动词“看”的宾语。 “看”要支配小句的谓词,依存关系 标记为小句宾语。名词“年纪”是小句的谓词,因此由“看”来支配,作“看”的从属词。6 可作状语,验证了这些结论。 4) 由数据得出汉语名词为从属词时,语法功能是:作宾语、作主语、作定语、作介词 宾语、作“的”字补足语、作方位结构补语、作状语、作同位语、作兼语、作话题、作谓语、 与其他词形成并列结构、作插入语、作间接宾语、作小句宾语。 2 汉语名词的概率配价模式 刘海涛、冯志伟(2007) 认为把依存关系和词类联系到一起,可以形成现代汉语词类组 合能力的模式,即汉语词类的配价模式。因为一个词类可支配的依存关系是不均衡的,某个 词类可以通过若干依存关系支配其他若干类词, 但这些依存关系出现的概率是不一样的, 所 以可以在词类的句法配价模式中引入量的概念。 在树库中, 可以统计词类依存关系的强度和 词类结合力的大小。某种依存关系出现得多强度就大、结合力就大,出现得少强度就小、结 合力就小。他们提出此类配价模式时,因为缺乏精确的统计数据,所以仅凭借着语感,用线 条的粗细来表示词类结合力的大小。 高松的统计可以为汉语名词的结合力提供精确的数据,用数据来来表示名词结合力的 大小。汉语名词的概率配价模式图如下:atr 73.7 epa 2.03 0.78 coor 4 0.7 8 6 dva a 0. xr au 名词 N ina 0.05 csr 0 qc .19 es 0. a 2 0. 23名词 N obj 33.76 subj 21.67 15.57 atr 7.47 pobj 8 5.9 dec .53 4 fc sentobj 0.06 obj2 ina 0.08 0.1 co 9 or 0. 78subj 0.34.31 plc 0cr 0. 66.1 s1 .21 top 1 subobj 1.81图 2 汉语名词的概率配价模式图由图 2 可见,汉语名词是结合力较强的词类,它既可以是支配词,又可以是从属词。结 合力分为离心力和向心力。当结合力是离心力时,名词是支配词,图中用向外的箭头表示名 词可以支配的关系,如: “美丽的家乡”中名词“家乡”是支配词,支配结构助词“的”“美 , 丽的”作“家乡”的定语;当结合力是向心力时,名词是从属词,图中用向内的箭头表示名 词可以满足的关系,如: “他是学生。 ”中名词“学生”是从属词,受谓语动词“是”的支配, 作“是”的宾语。依存关系后的数字是名词可支配、可满足关系的比例(%)。 可以看出,我们根据树库对于汉语名词的研究,补充了前辈语言学家的结论,加深了我 们对于汉语名词的认识。 1.2 刘海涛对于 20 种语言词序的研究 刘海涛使用了 20 种语言的树库,对于这些语言中的中心词居前(head-initial,简称 HI) 与中心词居后(head-final,简称 HF)的分布进行了统计分析7。这些树库如下: -- Prague Dependency Treebank (PDT, Czech); -- Prague Arabic Dependency Treebank (PADT); -- Slovene Dependency Treebank (SDT);7Liu Haitao, Dependency direction as a means of word-order typology: a method based on dependencytreebanks. (依存方向作为语序类型学的指标), Lingua, 2010 年第 6 期,SSCI、A&HCI 检索期刊。adv a3 .15 epa 2 .64 -- Danish Dependency Treebank (DDT); -- Swedish Talbanken05; -- Turkish Metu-S -- German TIGER -- Japanese V -- The Floresta sinta?(c)tica (Portuguese); -- Dutch A -- Spanish Cast3LB; -- Bulgarian BulTreeB -- Romanian dependency Treebank15; -- English Penn T -- CuC Chinese dependency T -- Italian Syntactic-Semantic Treebank (ISST); -- Basque T -- CESS-Cat C -- Szeged Treebank (SzTB,匈牙利语树库); -- Greek Dependency Treebank (GDT). 例如,使用Japanese Verbmobil treebank,他发现日语中的HI和HF的分布如下:图 3 日语的 HI 和 HF 的分布 20 种语言的统计结果如下:图4HI 和 HF 在 20 种语言中的分布情况其中,使用的 ISO ISO 639-2: Codes for the Representation of Names of Languages. http://www.loc.gov/standards/iso639-2/php/code_list. 的语言名称简写:Chinese (chi), Japanese (jpn), German (ger), Czech (cze), Danish (dan), Swedish (swe), Dutch (dut), Arabic (ara), Turkish (tur), Spanish (spa), Portuguese (por), Bulgarian (bul), Slovenian (slv), Italian (ita), English (eng), Romanian(rum), Basque (eus), Catalan (cat), Greek (ell), Hungarian (hun). Size 表示树库中的句子数, 也就是树库的规模, 表示平均句长 msl (mean sentence length) , genre 表示文体,type 表示树库的标注方法,其中,D 表示依存标注(Dependency),C 表 示成分标注(Constituent),CF 表示使用成分标注和语法功能标注的混合方法;%n.p.表示 非映射依存关系的比例(non-projective dependency relation),存在这种非映射依存关系的 语言,句子的依存结构图中会出现交叉的弧(a crossing arc in the dependency graph of a sentence)。图 5 出现非映射依存关系的交叉弧 例如, 英语句子 saw a dog yesterday which was a terrier” “I (昨天我看到一个猎狐狗) 中, yesterday 会造成交叉弧。 这种非映射依存关系在 20 中语言中的分布情况如下:图 6 20 种语言中非映射依存弧的百分比 可以看出,在 20 种语言中,这种非映射依存弧最多占 6%(荷兰语) ,最少为 0%(汉 语) 。 刘海涛根据 HI 和 HF 在 20 种语言中的分布情况,做出如下的统计分布图:图 7 20 种语言中 HI 和 HF 的分布统计图 著名语言学界泰尼埃(Tesniere)在 1959 年曾经根据依存关系的方向,对于语言做过大致的 分类,在轴线前的语言中心词居先(head-first) ,在轴线后的语言中心词居后(head-final) 。 图 8 Tesniere 在 1959 年根据依存方向对语言的分类 可以看出,在刘海涛的研究中,巴斯克语(eus)是中心词居后的,而在 Tesniere 的研 究中, 巴斯克语却是中心词居前, 刘海涛的工作明显地改进了 Tesniere 的结论。 使用语料库, 我们有可能对于前辈语言学家的结论进行检验,从而对这些结论作出证实或证伪。 刘海涛还进一步把 HI 和 HF 分为 VS 和 SV,VO 和 OV,NAdj 和 AdjN 三种情况进行 统计,结果如下:图 9 VS 和 SV,VO 和 OV,NAdj 和 AdjN 的分布 其中,VS 表示动词在前主语在后,SV 表示主语在前动词在后;VO 表示动词在前宾语 在后,OV 表示宾语在前动词在后,NAdj 表示名词在前形容词在后,AdjN 表示形容词在前 名词在后。WALS 表示在某种语言中占统治地位的词序。?号表示在该语言中某种词序是否 在统治地位尚有争议。 据此可以画出相应的统计图。图 10 20 种语言中 SV 和 VS 的分布图 图 11 20 种语言中 VO 和 OV 的分布图 根据上述分析,刘海涛对于 20 中语言进行聚类,得到如下的聚类分布图:图 12 20 种语言的聚类分布图 使用树库对前辈语言学家的结论进行的证实和证伪, 可以进一步深化我们对于语言规律 的认识,说明了语料库在获取语言学知识方面具有巨大的潜力。 Greeberg 在他的著作中,专门研究过 30 种语言的词序,提出了如下的关于词序倾向性 的结论8: 1:带有名词性主语和宾语的陈述句中,优势词序几乎总是主语处于宾语之前。 2:使用前置词的语言中,领属语几乎总是后置于中心名词,而使用后置词的语言,领 属语几乎总是前置于中心名词。 3:优势词序为 VSO 的语言,总是使用前置词。 4:采取 SOV 为常规词序的语言,在远远超过随机频率的多数情况下,使用后置词。 5:如果一种语言以 SOV 为优势词序,并且领属语后置于核心名词,那么形容词也后置 于核心名词。 6:所有以 VSO 为优势词序的语言,都可以把 SVO 作为可能的或唯一的一种替换性基本 词序。8Greenberg, Joseph.H. . of meaningful elements.Some universals of grammar with particular reference to the orderUniversal of Language. ed. J.H. Greenberg (second edition), 73-113.Cambridge, Mass: MIT Press. 中译文“某些主要跟语序有关的语法普遍现象”(陆丙甫、陆致极译) 《国外语言学》-60 7:在以 SOV 为优势词序的语言中,如果没有替换词序,或仅有 OSV 为替换词序,那么 动词所带的一切状语都处于动词之前。 Greenberg 的这些有关语言词序的倾向性的结论, “语言类型学” 为 (language typology) 的研究奠定了基础。刘海涛采用树库来研究 20 种语言的词序,对各种语言的词序进行了定 量分析, 大大地丰富并补充了 Greenberg 关于词序的这些结论, 对于语言中词序的分布规律 做出了比 Greenberg 更加具有说服力的说明, 显示了采用语料库确实能够帮助我们从语料库 中获取语言学知识。 英国著名科学哲学家波普尔(Karl R. Popper,)在为中文版《波普尔科学哲 学选集》所撰写的前言中说: “人们尽可以把科学的历史看作发现理论、摒弃错了的理论并 以更好的理论取而代之的历史。 ??我不怀疑我们有许多科学理论是真实的; 我所要说的是, 我们无法肯定任何一个理论是不是真理, 因而我们必须作好准备, 有些最为我们偏爱的理论 到头来却原来并不真实。既然我们需要真理,??我们除了对理论进行理性批判以外,别无 其他选择。 ”正是本着这样一种对于传统的语言学研究结论进行理性批判的科学精神,我们 大胆地对前辈语言学家的结论证实和证伪, 在语言事实的基础上进行理性的审视, 提出不同 的但更富于发展前景的学术意见。 在语言学研究中, 我们尽最大的努力避免偏颇和错误。 波普尔在他的同一篇前言中还说: “科学是可以犯错误的, 因为我们都是人, 而人是会犯错误的。 因而错误是可以得到原谅的。 只是不去尽最大的努力避免错误,才是不可原谅的。但即使犯可以避免的错误,也是可以原 谅的。 9最重要是语言的客观事实,只有面对客观事实,才能使我们避免前辈语言学根据内 ” 省的研究方法做出的可能有片面性的结论,从而推动语言学的发展。 1.3 刘海涛、胡凤国对于汉语复杂网络的研究刘海涛和胡凤国把依存树库中的依存树转换成汉语依存网络,使用复杂网络(complex network)的理论和方法依存网络进行了研究10。 例如,英语句子“The student has a book”和“He reads an interesting book”的依存树库 如下:9 10波普尔著,纪树立编译: 《波普尔科学哲学选集》 ,生活? 读书? 新知三联书店(北京), 1987 年出版。 Liu Haitao, Using a Chinese treebank to measure dependency distance. (基于树库的依存距离测度研究) ,Corpus Linguistics and Linguistic Theory. 2009 年第 2 期。SSCI、A&HCI 期刊。 图 13 依存树库 把树库中的结点加以合并,形成如下的依存网络(右图是以单词为结点的依存网络, 左图是以词类标记为结点的依存网络) :图 14 依存句法网络 使用这样的方法,对于汉语的《新闻联播》 (xwlb)树库中的单词结点进行合并,形成了 如下的汉语句法网络: 图 15 汉语《新闻联播》树库形成的汉语依存句法网络 刘海涛等使用复杂网络理论对于这个依存句法网络进行分析。 为了衡量一个网络的复杂性, 最常用的复杂网络参数是平均路径长度、聚集系数和度分 布。我们围绕这三个参数对句法网络进行考察研究. . -- 句法网络的平均路径长度表示的是网络中任意两个结点之间的平均最短路径长度, 用 &d&表示。 -- 在句法网络中, 结点的度k指的是与该结点相连的其他结点的数目(或边数), 它在一 定程度上反映了一个结点在网络中的重要性. 全部结点的度的平均值称为句法网络的平均 度, 它反映了句法网络中词与词之间的平均组合能力。结点的度分布通常用分布函数P(k)描 述, 它表示一个随机选定词的度恰好为k的概率. -- 聚集系数 C 是一种用来衡量网络聚集倾向或小集群形态的指标, 它度量的是句法网 络中一个结点的两个相邻结点之间互连的可能性。 如果一个网络有较小的平均路径长度d和较大的聚集系数C,那么,这种网络是一种小 世界(Small World)网络。汉语句法网络的节点数为4017,平均路径长度较小,&d&为3.372, 聚集系数C较大,为0.260,所以,汉语句法网络可算是一种小世界网络。 1967 年,美国社会心理学家 Stanley Milgram(米尔格兰姆,)提出了“六 度分隔” (Six Degrees of Separation)理论。 图 16 Stanley Milgram 这个理论可以通俗地阐述为:“任何两个陌生人之间所间隔的人不会超过六个,也就是 说,最多通过六个人,就可以让任何两个陌生人认识。” 1967 年,Milgram 曾经想要描绘一个连结人与社区的人际连系网,提出了六度分隔 (Six Degrees of Separation)假设。他认为,任何两个陌生人都可以通过“亲友的亲友”建 立联系,而两人之间的中介大约是 5 人。 在 Milgram 之前,麻省理工学院的政治学家索拉? 普尔和 IBM 的数学家曼弗雷德? 科 臣曾经做过相关计算,得到的数字是 3。 自称为“实验主义者”的 Milgram 对这一数据并不满意,于是亲自设计并执行了著名的 六度分隔实验。 他从内布拉斯加州和堪萨斯州招募到一批志愿者,随机选择出其中的 300 人,请他 们邮寄一个信函。信函的最终目标是 Milgram 指定的一名住在波士顿的股票经纪人。由于 几乎可以肯定信函不会直接寄到目标,Milgram 就让志愿者把信函发送给他们认为最有可 能与目标建立联系的亲友,并要求每一个转寄信函的人都回发一个信件给 Milgram 本人。 出人意料的是,有 64 封信最终到达了目标股票经济人手中,在发表于 1967 年 5 月《今 日心理学》上的论文中,他描述了一份文件是如何仅用 4 天时间就从堪萨斯州的农场主手 中转交到麻省坎布里奇某神学院学生妻子手中的: 农场主将文件交给一个圣公会教父, 教父 将其转交给住在坎布里奇市的一位同事,然后文件就到了神学院学生妻子的手中 - 整个过 程只需要 3 步,而中间人只有两个。并不是每一个实验对象都如此成功,但平均所需中间 人的数目为 5。也就是说,对于 Milgram 的陌生人,6 步是最远的距离。 虽然 Milgram 的实验结果由于设计和操作上的缺陷,受到了一些心理学家的质疑,但 是其他的实验结果也表明,世界的确不大。在互联网的时代,人们不再习惯通过邮局寄信, 可以改用电子邮件重复 Milgram 的实验。2002 年, 美国哥伦比亚大学的研究人员向 166 个 国家的 6 万多网民发去一封连环信,请他们转给随机选中的位于 13 个国家的 18 名收信者 之一,结果发现大部分信件在转了 5~7 次后就寄到了收信人。2007 年,微软研究人员对 2 亿 4 千万名 MSN 用户的 300 亿条短信进行分析,发现 MSN 用户之间的距离是 6.6 步。 世界是如此的小,因为这并不是一个有序的世界。如果世界是有序的,人与人之间的 距离有时会非常遥远。 如果你要把一个围棋子从棋盘的一端很有秩序地沿着连线一步一步地 移到棋盘的另一端, 将会有很多步。 但是如果在移动时允许时不时地走捷径一步跳到远处的 点,就会很快地抵达目的地。在现实世界中,人们的交往有一定的秩序(例如有相似背景的 人容易相互认识) 组成朋友小圈子, , 但是也时不时会结识其他朋友圈的人――正是这些 “捷 径”让世界变得很小。在这个“小世界”中,如果有 3 亿人(等于美国人口的 90%,假定 剩下的 10%为忽略不计的儿童) ,每人认识 30 个亲友,那么可以算出人与人之间的距离是 5.7。如果有 60 亿人(等于世界人口的 90%) ,人与人之间的距离则是 6.6。 刘海涛等的研究表明,在结点数为 4017 的汉语句法网络中,结点之间的平均路径长度 &d&为 3.372,比“六度分隔”还要小,因此,我们认为,语言的句法网络是一个小世界。 他们还发现汉语语义网络的平均路径长度&d&为 3.952,聚集系数 C 为 0.079,也可以算是一 个小世界网络11。 这些研究成果分别在 2008 年的 physica A 和 Europhysics Letter12上, 引起了国际物理学 界的关注。他们还在《科学通报》2009 年 7 月 54 卷 14 期上发表了《汉语语义网的统计特11Liu Haitao. The complexity of Chinese dependency syntactic networks. Physica A, : Liu Haitao, Hu Fengguo. What role does syntax play in a language network? Europhysics Letter,,SCI, EI检索期刊。12002. SCI检索 期刊。 性》 ,介绍了在语义网络方面的研究成果13。 physica A的影响因子为1.178,Europhysics Letter的影响因子为2.162。(见“物理学 杂志影响因子”)。 这些研究成果显示了语料库的威力,证明了我们确实可以从语料库中挖掘到有用的语言 学知识。 语言学知识究竟在哪里?我们的回答是:语言学知识固然在词典里,在语法书里,在汗 牛充栋的语言学著作里, 但是, 这些语言学知识毕竟是通过语言学家对于局部的语言现象归 纳出来的,难免会有片面或错误的地方;更多的语言学知识还隐藏在语料库里,语料库是语 言学知识最可靠的来源。 从语料库中获取语言学知识, 并根据这些知识对于前辈语言学家根 据内省得出的结论进行检验,从而证实或证伪这些知识,这是生活在 21 世纪的语言学家责 无旁贷的任务。二、 从语料库中获取非语言学知识上面介绍了中国传媒大学依存树库研究团队如何从语料库中获取语言学知识, 下面, 我 们介绍如何从语料库中获取非语言学知识,这样的研究叫做“文本数据挖掘” (text data mining,简称 TDM) 。文本数据挖掘目的在于从大规模真实文本数据中发现或推出新的信息, 找出文本数据集合的模型, 发现文本数据中所隐含的趋势, 从文本数据的噪声中分离出有用 的信号。 “文本数据挖掘” (TDM)中的“挖掘” (mining)这个单词并不是一个很确切的比喻。 在这里, “挖掘”意味着从没有价值的岩石中提取贵重的金属。如果文本数据挖掘真的遵照 这一比喻的话, 那就意味着文本数据挖掘是在数据的清单当中寻找新的事实, 文本数据挖掘 目前倾向于自动地或半自动地发掘大量数据中隐藏的趋势和模式, 就像从没有价值的岩石中 提取贵金属一样,这样的数据挖掘通常以决策制定为目的。 网络数据挖掘有两个目标。 第一个目标是帮助用户在网页上找到有用的信息并在网页文 件集描述的范围内找到有用的知识。第二个目标是分析基于网页系统下的交互,优化系统, 并找出用户使用系统的信息。 我们实际上是把网页中的信息看成是一个庞大的知识库, 我们 要从中提取出新的、前所未有的信息。 我们刚刚着手做这样的研究, 还没有明显的成绩。 所以, 我们只能介绍别人的一些研究。 在十年前,Don Swanson (斯万森)证明了医学文献的语料库中暗含的因果链可以帮 助我们找到有关罕见疾病起因的假说,而其中一些假说最后得到了实验数据的支持。 例如,当调查偏头痛(migraines)的起因时,Don Swanson 从生物医学文献的文章标题 中提取了各种各样的线索,其中的一些线索如下: 因果链 1: ?Stress is associated with migraines (偏头痛与精神紧张有关) ?Stress can lead to loss of magnesium (精神紧张可能会导致镁流失) 因果链 2: ?Calcium channel blockers prevent some migraines13刘海涛,汉语语义网的统计特性, 《科学通报》 ,2009 年,第 54 卷,第 14 期,SCI 检索期刊。 (钙通道阻滞剂可以防止某些偏头疼) ?Magnesium is a natural calcium channel blocker (镁是一种天然的钙通道阻滞剂) 因果链 3: ?Spreading cortical depression is implicated in some migraines (传播皮层抑郁与某些偏头痛有联系) ?High levels of magnesium inhibit spreading cortical depression (高含量的镁可阻止传播皮层抑郁) 因果链 4: ?Migraine patients have high platelet aggregability (偏头痛患者有很高的血小板聚集) ?Magnesium can suppress platelet aggregability (镁能抑制血小板聚集) 根据这些线索可以假定,缺镁可能是某些偏头痛的原因之一;但是,在 Swanson 发现 这些链接之前,这一个假定在文献中并不直接存在,它是隐含在文献中的。这个假说还需要 进行非文本手段的检验,不过,重要的是,这项研究说明,一个新的、可能是正确的医学假 说是来源于文本片段, 一旦这个假设得到研究者的医疗专业知识的印证, 就可以发现新的医 学知识。Don Swanson 的研究生动地说明了文本数据挖掘在新知识发现中的重要作用。参考文献[1] Abeillé A. Treebank: Building and using Parsed Corpora [M]. Dordrecht: Kluwer, 2003. , [2] Hinrichs, E Sandra Kü bler. Treebank Profiling of Spoken and Written German[A]. Proceedings of The Fourth Workshop on Treebanks and Linguistic Theories[C]. Barcelona, Spain, 2005. [3] Nivre, J. Dependency Grammar and Dependency Parsing [R]. (MSI report) V? University: xj? School of Mathematics and Systems Engineering, 2005. [4] Hudson, R.A. Language Networks: The New Word Grammar [M]. OXford: OXford University Press, 2007. [5] Applet D E, Israel D J, Introduction to Information Extraction Technology, A Tutorial for IJCAI-99, 1999 [6] Gaizauskas R, Wilks Y, Information Extraction: Beyond Document Retrieval. Journal of Documentation, 1997. [7] Sager N, Natural Language Information Processing, Reading, Massachusetts: Addison Wesley, 1981. [8] Dejong G, An Overview of the FRUMP System. In: LEHNERT, W., & RINGLE, M.h. (eds), Strategies for Natural Language Processing. Lawrence Erlbaum, 6. [9] Grishman R, Sundheim B, Message Understanding Conference-6: A Brief History, In Proceedings of the 16h International Conference on Computational Linguistics (COLING-96), August 1996 [10] Chinchor N, Marsh E, MUC-7 Information Extraction Task Definition (version 5.1), In Proceedings of the Seventh Message Understanding Conference, 1998 [11] Douthat A, The Message Understanding Conference Scoring Software User's Manual, In Proceedings of the Seventh Message Understanding Conference, 1998 [12] Chinchor N, Overview of MUC-7/MET-2, In Proceedings of the Seventh Message Understanding Conference, 1998 [13]The ACE2002 Evaluation Plan, ftp://jaguar.ncsl.nist.gov/ace/doc/ACE-EvalPlan-2002-v06.pdf, Site visited on August 30th , 2002 [14] Chen H H, Ding Y W, Tsai S C, et al, Description of the NTU System Used for MET2, In Proceedings of the Seventh Message Understanding Conference, 1998 [15] Yu S H, Bai S H, Wu P, Description of the Kent Ridge Digital Labs System Used for MUC-7, In Proceedings of the Seventh Message Understanding Conference, 1998 [16] Zhang Y M, Zhou J F, A Trainable Method for Extracting Chinese Entity Names and Their Relations, In Proceedings of the Second Chinese Language Processing Workshop, Hong Kong, Oct. 2000 [17] Hobbs J, The Generic Information Extraction System. In Proceedings of the Fifth Message Understanding Conference (MUC-5), pages 87-91. Morgan Kaufman, 1993 [18] Yangarher R, Grishman R, NYU: Description of the Proteus/PET System as Used for MUC-7, In Proceedings of the Seventh Message Understanding Conference, 1998 [19] Grishman R, Information Extraction: Techniques and Challenges. In M-T. Pazienza, editor, Information Extraction: a Multidisciplinary Approach to an Emerging Information Technology, Springer, Berlin, 1997 [20] Hobbs J, Appelt D, Bear J, et al, FASTUS: A Cascaded Finite-State Transducer for Extracting Information from Natural-Language Text, in Roche and Schabes, eds. Finite State Devices for Natural Language Processing, MIT Press, Cambridge MA, 1996. [21] Appelt D E, Introduction to Information Extraction, AI COMMUNICATIONS, Vol. 12 No. 3, 1999 [22] Yangarber R, Scenario Customization for Information Extraction, Ph.D. Thesis, New York University, January 2001 [23] Cowie J, Lehnert W, Information Extraction. Communications of the ACM, Vol. 39 No. 1, 1996 [24] Grishman R, Adaptive information extraction and sublanguage analysis, In Proceedings of IJCAI-2001 Workshop on Adaptive Text Extraction and Mining, 2001 [25] Marti A. Hearst, Text data mining, The Oxford handbook of Computational Linguistics, ed. R. Mitkov, 616-628, 外语教学与研究出版社&牛津大学出版社,2009 年。 [26] W. J. Broad, Study finds public science is pillar of industry,The New York Times, 13 May, 1997. [27] D. R. Swanson, Two medical literature that are logically but not bibliographically connected, Journal of the American Society for Information Sciences (JASIS), 38(4), 228-233, 1987. [28] F. Narin, K. S. Hamilton, and D. Olivastro, The increasing linkage between US technology and public science, Research Policy, 26(3), 317-330, 1997. [29] 刘海涛 .依存语法的理论与实践 [M]. 北京: 科学出版社, 2009. [30] 冯志伟 .特思尼耶尔的从属关系语法 [J]. 国外语言学,1983,(1): 63-65. [31] 刘海涛、冯志伟 .自然语言处理的概率配价模式理论 [J]. 语言科学,2007,(5): 32-41. [32] 高 松、赵怿怡、刘海涛 .汉语特殊结构的句法标注策略 [A]. 中国计算语言学研究前 沿进展()[C]. 北京:清华大学出版社,2009. [33] Liu H, Huang W. A Chinese Dependency Syntax for Treebanking[A]. Proceedings of The 20th Pacific Asia Conference on Language, Information and Computation[C]. Beijing: Tsinghua University Press, 2006. [33] 胡裕树 .现代汉语(重订本) [M]. 上海: 上海教育出版社, 1995. [34] 邵敬敏 .现代汉语通论 [M]. 上海: 上海教育出版社, 2001. [35] 莫彭龄、单 青 .三大类实词句法功能的统计分析 [J]. 南京师范大学学报. 1985,(3): 55-62. [36] 朱德熙 .语法答问 [M],商务印书馆,1985. [37] 冯志伟 .汉语句子的多叉多标记树形图分析法 [J],人工智能学报,1983, (2): 29-46. [38] 沈家煊 .形容词句法功能的标记模式 [J]. 中国语文,1997,(4): 242-250. [39] 沈家煊 .不对称和标记论 [M]. 南昌:江西教育出版社,1999. [40] 沈家煊 .我看汉语的词类 [J]. 语言科学,2009,(1): 1-12. [41] 李保利,陈玉忠,俞士汶,信息抽取研究综述,2003 年, 《计算机工程与应用》 ,第 30 卷,第 10 期,1-5 页。 [42] 赵军,命名实体识别、排歧和跨语言关联, 《中文信息学报》, 2009 年。
从语料库中挖掘知识-北语―汇集和整理大量word文档,专业文献,应用文书,考试资料,教学教材,办公文档,教程攻略,文档搜索下载下载,拥有海量中文文档库,关注高价值的实用信息,我们一直在努力,争取提供更多下载资源。}

我要回帖

更多关于 有没有人曾告诉你 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信