汉语树库构建——标注规范cslt.riit.tsinghua.edu.cn/~qzhou/corpus/treebankscheme.pdf ·...

34
1 汉语树库构建——标注规范 清华大学计算机系 智能技术与系统国家重点实验室 北京 100084 [email protected] 1 引言 对汉语语料库的多级加工处理,主要分为以下几个阶段:切词、词类标注、语块标注、 分析树标注、语义信息标注等。本规范主要涉及汉语句子的句法树标注问题。内容包括: 1句法标记集的内容描述和不同句法标记的功能结构说明,2)句法树的划分规范,包括同形 结构的处理、多切分问题、结构分析的方向性等方面。 作为语料库多级加工过程中的一个中间阶段,句法分析和标注的一个重要目标,是为进 一步进行汉语句子的词语义项和语义关系标注提供有力的支持。理想情况下,在对句子进行 正确句法信息标注的前提下,应能依据一个语义知识库和自动标注工具,准确地标注出大部 分的语义信息。而要实现这个目标,就必须在这个阶段给出尽可能详细的句法信息描述。 我们认为,对汉语句法信息的完整描述,至少应包含以下内容: 1句法成分的功能特征描述:分析它与其他句法成分相组合的能力; 2句法成分的结构关系描述:分析它内部的组成成分之间的结构语义关系; 3句法成分的语义中心词描述:分析它的语义中心词位置; 其中 2)、3)部分内容,对于下一阶段的语义信息标注尤为重要。 另外,在此阶段,重点需要解决以下两大问题:1)句法成分的划分问题,即如何从线 形词语串中划分出正确的句法成分;2)句法成分的定性问题,即如何对划分出的句法成分 给出准确的功能结构描述。两者相辅相成,相互促进,共同构成了进行语料库句法标注的重 要基础。 在下面的几节中,我们将对有关的内容进行详细介绍。其中,第 234 节涉及句法成 分的定性问题,分别侧重于汉语短语和单句的语法功能和内部结构的信息描述,汉语复句的 子句逻辑语义关系描述,汉语其他语言现象的描述。第 5 节涉及句法成分的划分问题,试图 给出不同结构组合的比较统一的处理规范。第 6 节介绍一些疑难问题的解决原则和方法。最 后是结语。 2 短语和单句的标注规范 在现代汉语中,对短语进行分类一般采用下面两大标准:① 内部结构,② 外部功能。 按照内部结构,可分为联合短语、偏正短语、述宾短语、述补短语、主谓短语、连谓短语等 几类;而按照外部功能,则一般可分为名词短语、动词短语、形容词短语和副词短语等几类。 两种分类方法在研究内容和方法上有不同的侧重点。一些比较系统地描述汉语短语的语言学 著作,如:范晓(1991),李子云(1991) 大多采用了结构分类的方法。针对中文信息处理的特 殊要求,陈小荷(1998)和詹卫东(1999)提出了汉语短语的功能分类体系,并在深入分析

Upload: others

Post on 23-Oct-2020

32 views

Category:

Documents


0 download

TRANSCRIPT

  • 1

    汉语树库构建——标注规范

    周 强

    清华大学计算机系

    智能技术与系统国家重点实验室

    北京 100084

    [email protected]

    1 引言

    对汉语语料库的多级加工处理,主要分为以下几个阶段:切词、词类标注、语块标注、

    分析树标注、语义信息标注等。本规范主要涉及汉语句子的句法树标注问题。内容包括:1)句法标记集的内容描述和不同句法标记的功能结构说明,2)句法树的划分规范,包括同形结构的处理、多切分问题、结构分析的方向性等方面。 作为语料库多级加工过程中的一个中间阶段,句法分析和标注的一个重要目标,是为进

    一步进行汉语句子的词语义项和语义关系标注提供有力的支持。理想情况下,在对句子进行

    正确句法信息标注的前提下,应能依据一个语义知识库和自动标注工具,准确地标注出大部

    分的语义信息。而要实现这个目标,就必须在这个阶段给出尽可能详细的句法信息描述。 我们认为,对汉语句法信息的完整描述,至少应包含以下内容: 1) 句法成分的功能特征描述:分析它与其他句法成分相组合的能力; 2) 句法成分的结构关系描述:分析它内部的组成成分之间的结构语义关系; 3) 句法成分的语义中心词描述:分析它的语义中心词位置; 其中 2)、3)部分内容,对于下一阶段的语义信息标注尤为重要。 另外,在此阶段,重点需要解决以下两大问题:1)句法成分的划分问题,即如何从线

    形词语串中划分出正确的句法成分;2)句法成分的定性问题,即如何对划分出的句法成分给出准确的功能结构描述。两者相辅相成,相互促进,共同构成了进行语料库句法标注的重

    要基础。 在下面的几节中,我们将对有关的内容进行详细介绍。其中,第 2、3、4节涉及句法成

    分的定性问题,分别侧重于汉语短语和单句的语法功能和内部结构的信息描述,汉语复句的

    子句逻辑语义关系描述,汉语其他语言现象的描述。第 5节涉及句法成分的划分问题,试图给出不同结构组合的比较统一的处理规范。第 6节介绍一些疑难问题的解决原则和方法。最后是结语。

    2 短语和单句的标注规范

    在现代汉语中,对短语进行分类一般采用下面两大标准:① 内部结构,② 外部功能。按照内部结构,可分为联合短语、偏正短语、述宾短语、述补短语、主谓短语、连谓短语等

    几类;而按照外部功能,则一般可分为名词短语、动词短语、形容词短语和副词短语等几类。

    两种分类方法在研究内容和方法上有不同的侧重点。一些比较系统地描述汉语短语的语言学

    著作,如:范晓(1991),李子云(1991) 大多采用了结构分类的方法。针对中文信息处理的特殊要求,陈小荷(1998)和詹卫东(1999)提出了汉语短语的功能分类体系,并在深入分析

  • 2

    两者的内在联系方面进行了有益的探索。 吸收并综合这些研究成果,我们建立了一套汉语短语和单句的功能结构标注体系。表 1

    和表 2 列出了它们各自的标记集描述。

    表 1 汉语句法功能标记集

    序号 标记代码 标记名称及其实例 1 np 名词短语,如:我们买的 漂亮的帽子 2 tp 时间短语,如:战争初期 周末晚上 3 sp 处所短语,如:村子里 中国内地 4 vp 动词短语, 如:给他一本书 去看电影 5 ap 形容词短语,如:特别安静 好一些 6 bp 区别词短语,如:大型中型小型 7 dp 副词短语,如:虚心地 非常非常 8 pp 介词短语,如:在北京 被他的老师 9 mbar 数词准短语,如:一千三百

    10 mp 数量短语,如:三个 这群 一大批 11 dj 单句句型,如:她态度和蔼 那时候,天气还很冷

    表 2 汉语句法结构标记集

    序号 标记代码 标记名称及其实例 1 ZW 主谓结构,如:我们买 态度和蔼 2 PO 述宾结构,如:看电影 给他一本书 3 SB 述补结构,如:做完 冷得直哆嗦 4 DZ 定中结构, 如:他的学生 中国内地 战争初期 这群 5 ZZ 状中结构,如:特别安静 努力工作 6 LH 联合结构,如:老师和学生 大型中型小型 7 LW 连谓结构,如:去看电影 回北京参加会议 8 AD 附加结构,如:虚心地 漂亮的 所想 同志们 9 CD 重叠结构,如:高兴高兴 看看

    10 JY 兼语结构,如:请他参加会议 11 JB 介宾结构,如:在北京 对这件事 12 FW 方位结构,如:村子里,几天前 13 KS 框式结构,如:除这些人以外 14 BH 标号结构,如:《鲁迅全集》 15 SX 顺序结构,如:从北京到天津 五月至六月 16 XX 缺省结构,用来标注不需要分析或没有内部结构的情况

    功能标记集主要侧重于对汉语短语进行功能分类。图 1 显示了其中定义的几个主要短

    语的功能分布特点,它们在句子中的句法功能简单概括如下: 1). 动词短语 vp :在句子中主要作谓语,一般不能作补语。 2). 形容词短语 ap :在句子中可以作谓语,也可作补语和定语。 3). 副词短语 dp :只能作状语,不能充当其它句法成分 。

  • 3

    4). 介词短语 pp :在句子中可以作状语、定语和补语,但不能充当其他句法成分。 5). 区别词短语 bp :在句子中只能作定语,不能充当其它句法成分。 6). 名词短语 np :在句子中可以作主语、宾语,有时也作谓语,不能作“在/到”的宾

    语。 7). 时间短语 tp:在句子中可以作主语、宾语、状语,一般可以作“在/到”的宾语,

    并能用“什么时候”提问,有时也作谓语。 8). 处所短语 sp :在句子中可以作主语、宾语、状语,可以作“在/到”的宾语,可以

    用“哪儿”提问,但不能作谓语。 9). 数量短语 mp :在句子中可以作主语、宾语、定语,有时也可作述补结构的补语。 句法成分 │ 可以作谓语 Y ┌─────────┴─────────┐N │ 可以作主语/宾 ┌───┴────┐ N┌────┴─────┐Y 中心成分是v,vp等 中心成分是a,z,ap等 只作定语 数量结构 │ │ N┌──┴──┐Y N┌──┴──┐Y │ │ 可以作补语 │ "在/到"~ │ │ │ N┌─┴─┐Y │ N┌─┴─┐Y │ │ │ │ │ │ │ 可用"什么 │ │ │ │ │ │ │ 时候"提问 │ │ │ │ │ │ │ N┌─┴─┐Y │ │ │ │ │ │ │ │ │ │ vp ap dp pp bp np sp tp mp

    图 1 汉语主要短语的功能分布特点

    这些功能标记与北大汉语词语分类体系[YSW94]的主要词类标记建立了比较好的功能对应关系,据此可以形成比较完整的汉语句法结构规则库。

    结构标记集则侧重于对不同句法成分内部的结构语义关系进行更深入的描述。除了比较

    常见的 9种结构标记:主谓、述宾、述补、定中、状中、联合、连谓、方位、介宾,我们还增加了以下结构关系描述:

    1) 附加结构:主要描述虚词和实词相组合形成的各种语法结构关系,如: a) 前助词:结构助词“所” b) 后助词,包括:

    结构助词“的、地、得” 时态助词“了、着、过” 比况助词“似的、一样”等 并列助词“等、等等”

    c) 前后缀情况,如:表复数的名词后缀“们”等 d) 后语气词,包括两种情况:

  • 4

    在句子后面表示各种语气,整体功能标记可处理为“dj”。 在句子中间表示停顿,整体功能标记与前项成分保持一致。

    2) 兼语结构:这实际上是连谓结构的一个特例,为了保持与前面的语块标注体系的一致性,我们对这种结构进行了单独标注。在我们的标注体系中,兼语主要指处在结构:

    “V1 N V2”中的 N(名词性成分),此结构具有以下分布特点: A. 从句法上看,N既是 V1 的宾语,又是 V2的主语,即“兼语”; B. 从语义上看,N既是 V1 的受事,又是 V2的施事; C. 处于此结构中的 V1只能带体词性宾语,基本上是一个封闭类,大致有以下几种:

    表示使令意义的动词,如:“使,让,叫,请,派,吩咐,打发,促使,使得,要求,要,强迫,迫使,逼,催”等;

    表示容许或禁止意义的动词,如:“容许,许,准,允许,禁止”等; 表示称谓或认定意义的动词,如:“称,叫,骂,选,选举,推选,认,认为”;

    表示爱憎好恶意义的动词,如:“喜欢,讨厌,爱,恨,嫌,佩服,钦佩,欣赏,赞扬,原谅”等;

    动词“有”,如:“唐代 有 个诗人 叫 贾岛”; 表示肯定或强调意义的动词“是”,如:“是 我 把 她 气 哭 了”。

    3) 重叠结构:主要描述不同句法成分的重叠现象,包括:名、词、形、量词等。 4) 框式结构:主要描述一些特殊的固定搭配组合(三分结构),它们一般很难再进行内部结构分析,因此我们把它们整体处理为一个框式结构。如:“除…以外”,“就…而言”,“从…起”。 5) 标号结构,主要描述一些特殊的标号对结构(三分结构),包括引号对、括号对等,其整体功能标记一般由中间的句法成分所决定,如:[np-BH 《鲁迅全集》] 6) 顺序结构,主要描述汉语时空和数量表示中一些从大到小、从古到今等特殊现象。 7) 缺省结构,主要描述以下语法现象:

    a) 用于描述一些暂不需要分析内部结构的句法成分,如:数词准短语。类似的情况还包括后面的“zj, jq, yj”等标记。

    b) 一些没有内部语义结构关系的句法成分,如:“c+xp|x”(连词一般用来连接两个或多个词、短语、子句,以反映它们之间的不同语义关系。目前为了便于

    层次结构分析处理,组合形成了一些“c+xp|x”结构,它们的内部结构标记一般确定为“XX”。但考虑到语言的复杂性,在有些情况下也可以处理为状中结构“ZZ”)

    下面以功能标记为主线,详细地分析各个句法成分的功能结构分布特点。

    2.1 名词短语 np:

    汉语中名词短语的常见组合包括: 1) 定中结构,主要分为以下情况:

  • 5

    ①. 以名词n1或名词短语 np为中心成分的定中结构,包括: – a | b | f | i | m | n | r | s | t | v | z + [“的”] + n2 – r | t | mp | sp + np – xp3 +“的”+ n | np – dj +“的”+ n | np ②. 形容词、动词以及动词短语、形容词短语,受定语修饰而组成定中结构的np, 如:

    – r +“的”+ a : 我的光荣 – n + [“的”] + v : 儿童教育 问题的提出 – a | r +“的”+ v : 周密的调查 我们的讨论 – v + v : 现代化建设 – n | r +“的”+ vp : 书的不出版 ③. 一些同位性组合,我们也处理为定中结构,如

    – n + n | r : 诗人李白 父亲自己 – r + m | n | r | mp | np : 你俩 我们学生 他们三个 – n | np + mp : 花生三十斤 盗版光盘三千张 (需要注意的是,此结构的语

    义中心词在前项位置)

    2) 联合结构 – n + {n}+ : 铅笔橡皮 – n + {n}* + c + n : 父母与孩子 – np + {np}+ – np + {np}* + c + np

    另外,多个名动词‘vN’或名形词‘aN’组成的联合结构短语,整体标注为‘np’。 3) 附加结构,包括以下几种情况: ① 名词加后缀“们”,表复数,如:工人们,学生们 ②“的”字结构,包括:

    – a | b | f | n | r | s | t | v | z +“的” – xp +“的” – dj +“的” ③“所”字结构:“所”+ v ,如:所得 所惧

    2.2 时间短语 tp :

    在我们目前的标注体系中,时间词性短语tp主要包括:

    1 不同词类标记简要说明如下:a-形容词, b-区别词, c-连词, d-副词, f-方位词, m-数词, n-名词, r-

    代词, s-处所词, t-时间词, v-动词, z-状态词。另外,符号‘x’表示可以取常见词类,主要包括 v,n,a,m,s。

    2 结构规则符号说明:

    '|' : 或操作

    [X] : 表示X是可选的

    {X}* :表示X可以重复0到n次

    {X}+ :表示X可以重复1到n次

    3 xp : 表示可以取各种常见短语,主要包括 vp,np,ap,mp 等

  • 6

    ①. 以时间词或时间短语为中心的定中结构: – t | n | d + [“的”] + t | tp : 宋朝初期 中国古代

    ②. 以某些特殊时间名词(如:时候、时、阶段、时期等)为中心的定中结构: – r | m | n | vN + [“的”] + n : 什么时候 战争时期 研究阶段 – vp | dj + [“的”] + n : 吃饭的时候 他看书时

    ③. 由数词加时量词组成的时量结构: – m | mbar + qT : 1998年 三月

    ④. 表示广义时间的方位结构: – mp | vp | dj + f : 几天前 上班以后 她吃饭以前 他来了以后

    ⑤. 联合结构: – t + {t}* [+ c + n] : 昨天今天和明天 – tp + {tp}* + c + tp

    2.3 处所短语 sp :

    常见结构包括: ①. 以处所词、方位词或处所短语为中心成分的定中结构:

    – d + f : 正前方 最上面 – n | np + [“的”] + s | sp : 中国内地

    ②. 以空间名词为中心词的定中结构,如:隔离地带 ③. 表示广义空间的方位结构:

    – n | r | np + f : 树林里 他左面 木头桌子上 理论上 ④. 联合结构:

    – s + {s}* : – sp + {sp}* + c + sp

    2.4 动词短语 vp :

    汉语中动词短语的基本组合包括: ①. 述宾结构:

    – v | vp + n | r | v | a – v | vp + xp – v | vp + dj

    ②. 述补结构: – v + v |a : 送进 捧起 吃饱

    – v + p : 来自 作用于 打在 (注意:动词与介词的紧密组合体,功能相当于一个词,这种情况处理为述补结构) – vp + pp : 扔了块石头在地上 集多种职务于一身 (注意:有些文献把这种结构处理连谓结构,我们这里处理为述补结构) – vp + v : 送进门来 (注意:这种双音节趋向动词分离使用的情况,我们也处理为述补结构) – v +“得” | “不”+ a | v : 听得懂 看不见 – v +“得”+ ap | vp : 检查得那么彻底 气得发了疯

  • 7

    – v +“得”+ dj ③. 状中结构: – a | m + v : 三打(白骨精) 苦干 大喊

    – d | dp | ap + v | vp : 正在起床 大大方方地坐着 很快进入角色 – pp + v | vp : 从上海来上学 – tp | sp + v | vp – p + v | vp : 被打败 给晒死 (注意:我们把动词或动词短语前接介词“被,

    给”表被动意义的情况处理为状中结构) – v | vp + v | vp : 会去 [不应该] [感到奇怪] (注意:我们把“助动词或助动

    词短语+动词及动词短语”的情况也处理为状中结构,而不是述宾结构)

    ④. 连谓结构: – v + v | vp : 来学习 去看电影 – vp + vp : 乘火车去北京 倒水喝了 走过去看了看 (这里的vp一般为述宾结构) – v | vp + a | z | ap : 闻着香喷喷 看上去挺年轻 另外,我们把动词的重用组合也处理为连谓结构,如:喝酒喝醉了

    ⑤. 兼语结构: – v + np + v | vp : 请领导考虑 通知职工学习文件

    ⑥. 联合结构: – v + {v}* [+ c + v] – vp + {vp}* [+ c + vp]

    ⑦. 附加结构:主要是动词与助词“了、着、过”的组合 – v +“了、着、过” : 看过 学习了 – vp +“了、着、过” : 运动运动了 忍住了

    ⑧. 重叠结构,反映了一定的句法意义: – v +“了”+ v : 看了看 – v +“了”+“一”+ v : 听了一听 – v + “一”+ v : 走一走 – v + v : 运动运动 (双音节动词重叠式) – v + “不” | “没”+ v : 去不去 讨论没讨论

    2.5 形容词短语 ap :

    汉语中常见的ap是以a、z或ap为中心的状中结构和述补结构,还有一些述宾结构及联合结构等: ①. 状中结构:

    – d | r + a : 很安全 这么安静 – a + a | z : 绝对可靠 突然通红 – dp + a : 非常地可靠 – d + ap : 更快一点

    ②. 述补结构: – a + v | a : 成熟起来 累死 乐坏了 – a + “极了” : 漂亮极了

  • 8

    – a + “得”+“很” : 机灵得很 – a + “得”+ vp | ap : 激动得直挥胳膊 黑得很可怕 – a + “得”+ dj : 热得大家都喘不过气来

    ③. 述宾结构: – a | ap + m | q : 快了点 满意些 少了许多 – a | ap + mp : 瘦了一圈

    ④. 联合结构: – a + {a}* [+ c + a] : 机智勇敢 伟大光荣和正确 – z + {z}* [+ c + z] : 糊里糊涂慌里慌张 – ap + {ap}+ : 更精密更灵活

    ⑤. 附加结构: 形容词加助词“了、着、过”组成的结构,如:红了 “似的”结构:即由助词“似的”(包括“般”、“一般”、“样”、“一样”等)附着在实词(或短语)后边构成的结构,常见组合有:

    – n | a | v + “似的”等 : 石头似的 死一般 – np | vp | ap +“似的”等 : 象得了气管炎似的 – dj +“似的”等 : 箭出弦一般

    ⑥. 重叠结构:双音节形容词的ABAB重叠式,如:高兴高兴

    2.6 区别词短语 bp:

    主要指由区别词组成的联合结构,如:急性慢性 大型中型小型

    2.7 介词短语 pp :

    汉语中的介词短语比较规范,其基本组合包括: ①. 介宾结构:

    – p + n | r : 根据原则 把我们 – p + xp | dj

    ②. 状中结构: – d | dp + pp :

    ③. 框式结构: – p + xp + f | u : 除这些题目以外 就这件事而言

    ④. 联合结构: – pp + {pp}+ : 在北京在天津 从1998年至2000年

    2.8 副词短语 dp :

    最常见的结构是‘地’字结构以及一些以副词为中心成分的状中结构或联合结构: ①. ‘地’字结构:

    – a | d | i | n | v | z + “地” – ap | mp | vp +“地” : 非常仔细地 一步一步地 不停顿地

    ②. 状中结构:

  • 9

    – d + d | r : 并没有 不怎么 不太 ③. 联合结构:

    – dp + {dp}* [+ c + dp]

    另外,我们把多个叹词的连用结构也归入 dp中,如:[dp 哈 哈 哈 ]

    2.9 数词准短语 mbar :

    是由两个或多个数词组合而成的。从语法上看,它们本身应为一个词,只是因为切分规

    范[GB92]的原因而把它们分开了。对于数词准短语,我们暂不分析其内部结构,把所有mbar短语的内部结构都设置为缺省结构标记“XX”。

    2.10 数量短语 mp :

    主要包括以下情况: ①. 定中结构,主要包括数词与量词组成的数量结构和指示代词与量词组成的指量结

    构,其中量词作为中心词: – m | mbar + q : 一头 这台 – m | mbar + a + q : 一大杯 – m | mbar + q + m : 三米五 五十上下 – r + q : 这台 那群 – d | r + mp : 大约五十岁 这三个

    需要注意的是,这里的量词只包括名量词、动量词和一部分复合名量词,对于由时量词

    组成的数量结构,我们已统一归入时间短语(tp)中了(参阅2.2节说明)。 ②. 联合结构:

    – mp + {mp}* [+ c + mp]

    2.11 单句句型 dj :

    这是最基本的句型组合情况。它包括最为常见的主谓结构,由状语加上主谓结构形成的

    状中结构以及主谓结构加上语气词所组成的结构等,且句尾无表示语调的标点符号。其常见

    组合包括: ①. 主谓结构:

    – np + [,] +np : 这个厂就一辆车 – sp + [,] +np : 桌前两三把小沙发 – np + [,] +mp : 这个学生十八岁 – np + [,] + ap : 今天的比赛太精彩了 – sp + [,] + ap : 教室里非常热闹 – vp + [,] + ap : 锻炼身体很重要 – dj + [,] + ap : 他担任组长比较合适 – np + [,] +vp : 王老师教我们体育 – sp + [,] +vp : 台上坐着主席团 – dj + [,] +vp : 他不来也可以 – np + [,] +dj : 这儿的战士嘴唇都干了

  • 10

    – sp + [,] +dj : 山上红旗在飘扬 ②. 状中结构:

    – d + [,] + dj : 虽然他不来 – dp | pp + [,] + dj :

    ③. 附加结构: – dj + y : 他来了

    3 复句的标注规范

    汉语的复句是由多个分句通过关联词语或标点符号连接而成的。主要包括由平行分句组

    成的平行结构复句(并列、递进、选择等)以及由主从分句组成的主从结构复句(假设、因

    果、转折、条件等),句尾没有标点。汉语的复句一般包含两个或两个以上的分句,各个分

    句间既相互独立又相互依存,形成复杂的逻辑语义关系。许多语言学家对此进行了深入研究,

    比较全面的工作包括王维贤(1994)和邢福义(2001)等。 综合利用现有的汉语语法学研究成果,我们在目前的标注体系中,为复句设计了两套标

    记。一方面,用标记‘fj’标注所有的复句,以此作为复句的外部语法功能的载体。另一方面,通过一组结构关系标记描述复句内部各个分句间的复杂逻辑语义关系,这是复句标注研

    究的重点所在。关联词语是复句的分句间逻辑语义关系的重要载体,它包括连词、副词以及

    一些常用的固定短语。因此,我们首先根据这些关联词语,将复句的内部结构分为并列、连

    贯(顺承)、递进、选择、因果、目的、假设、条件、转折等 9类。通过对他们各自的特征关联词语的详细描述,可以对其做出比较准确的关系判断。而对于子句间没有关联词语的复

    句,则遵循了以下处理原则: 1) 对于通过词汇手段(指代、反复)和结构手段(对偶、排比)等连接起来的复句,深入分析其中隐含的子句逻辑语义关系,把它们归入上面的 9种结构关系子类中,并标注相应的结构标记。

    2) 对于两类特殊的复句:解注复句和流水复句(详见后面说明),我们设计了两个新的结构标记(JZ和 LS)予以标注。

    3) 对于其他不能归入以上 11类的复句,标注缺省结构标记‘XX’,便于以后统一进行更深入的分析。

    表 3 汉语复句结构关系标记集

    序号 标记符号 关系类型 1 BL 并列关系 2 LG 连贯关系 3 DJ 递进关系 4 XZ 选择关系 5 YG 因果关系 6 MD 目的关系 7 JS 假设关系 8 TJ 条件关系 9 ZE 转折关系

    10 JZ 解注复句 11 LS 流水复句

  • 11

    表 3 列出了目前设计的的复句结构关系标记集。有关内容将在下面几节进行详细说明:

    3.1 并列关系:

    并列关系是指各个分句分别述说几种事物、几种情况或同一事物的几个方面,前后

    文意彼此对等,或者相反,分句间关系是并列的,没有先后之分。它主要包括以下情况: 1)表同时存在 主要的关联词语有:既⋯⋯也⋯⋯,既⋯⋯又⋯,也⋯⋯也⋯⋯,又⋯⋯又⋯⋯,

    同时,并,并且等。 2)表同时进行 主要的关联词语有:一边⋯⋯一边⋯⋯,一面⋯⋯一面⋯⋯等。 3)表交替发生 主要的关联词语有:一会⋯⋯一会⋯⋯,一会儿⋯⋯一会儿⋯⋯,忽而⋯⋯忽

    而⋯⋯,时而⋯⋯时而⋯⋯,一时⋯⋯一时⋯⋯,有时⋯⋯有时⋯⋯等。 4)表并存列举 主要的关联词语有:一方面⋯⋯另一方面⋯⋯,有的⋯⋯有的⋯⋯,一来⋯⋯二

    来⋯⋯,一者⋯⋯二者等。 5)表示肯定与否定 主要的关联词语有:不是⋯⋯而是⋯⋯,不是⋯⋯是⋯⋯,不⋯⋯而⋯⋯等。 典型实例有:

    这两位女士,既善于长期作战,也能速战速决。 我们 一边 吃饭 ,一边 看 电视。 我们 根本 上 不是 从 观念 出发 ,而是 从 客观 实践 出发。

    3.2 连贯关系:

    连贯关系即是传统意义上的承接关系,主要表示分句与分句之间的一个接一个地说

    出的连续的动作或先后的情况。主要的关联词语有:才⋯⋯就⋯⋯,才⋯⋯便⋯⋯,当

    初⋯⋯现在⋯⋯,而后,起初⋯⋯后来⋯⋯,首先⋯⋯其次⋯⋯,先⋯⋯然后⋯⋯,先⋯⋯

    其次⋯⋯最后⋯⋯,一⋯⋯便⋯⋯,一⋯⋯就⋯⋯等。 典型实例有:

    才 七岁 一个 孩子,就 有 这 大 气性 按 顺序 排列,他 先 是 小双 的 朋友,其次 是 大双 的 朋友,最后 才是 毛毛 的 朋友。

    他 一 跑 到 出钢口,就 叫 别人 让开,亲自 接过 铁管子 来 烧。 另外,有的连贯关系的复句不用关联词语,只借助动作或事件发生的先后顺序排列

    语序。例如: 她穿上那件旧花袄,走出窑来,解下门扇上的铁链子,拨开了门闩。 他轻轻地打开后门,偷偷地溜了出去。

    连贯复句大体上可以分成三小类: 1) 时间上的连贯:分句按照时间的先后顺序排列; 2) 空间上的连贯:分句按照空间位置的衔接顺序排列;

  • 12

    3) 事理上的连贯:分句按照一定的事理逻辑来排列;

    3.3 递进关系:

    递进关系表示后边分句的意思比前边分句更近一层:有的是范围的扩大或缩小,有

    的是数量的增多或减少,有的是程度的加深或减弱,有的是时间的延续,等等。 递进关系主要的关联词语有:不但⋯⋯而且⋯⋯,不光⋯⋯而且⋯⋯,不仅⋯⋯

    还⋯⋯,不只⋯⋯而且⋯⋯,而,而且,非但⋯⋯反而⋯⋯,既⋯⋯更⋯⋯ 等等。 典型实例有:

    他 不仅 讲,还 表演,不知 又 从 哪里 找来 许多 生动 的 譬喻。 我们 不光 请 你 的 客,而且 还 管 饱。 她 不只 是 我 爱 的 女人,而且 是 我 的 知心、我 的 伴侣、支持 我的 一只 手臂。

    3.4 选择关系:

    选择关系表示几个分句分别说出可供选择的几种事物或情况,表示要从中至少选择

    一项。在各种可能性之间,有三种不同的选择关系: 一是任选关系,在几种可供选择的项目中,任选其一,有“或此或彼”、“非此即

    彼”的意思。典型的关联词语是:或,或者,也许。 二是限选关系,在几种可供选择的项目中,只能选择其中之一。典型的关联词语有:

    要么⋯⋯要么⋯⋯,不是⋯⋯就是⋯⋯,不是⋯⋯便是⋯⋯等。 三是优选关系,表示在两个分句所代表的两种事物或情况中说话人经过评估比较取

    其一种舍其一种的选择情况。典型的关联词语有:宁可⋯⋯也不⋯⋯,与其⋯⋯倒不

    如⋯⋯等。 例如:

    这个 人 也许 永远 不 回来 了,也许 明天 回来。 来 到 山中,不是 吃 喝,便是 赌博,真是 大杀风景。 宁可 虚 位 待 人,不可 滥 任命 误党误国。

    3.5 因果关系:

    因果关系表示分句与分句之间是原因与结果的关系。主要分为以下两种情况: 1)陈诉性因果关系,或者先说明原因后说明结果,或者先说明结果后追述原因。

    主要关联词语有:因为⋯⋯所以⋯⋯,因为⋯⋯因此⋯⋯,由于⋯⋯才⋯⋯,之所以⋯⋯

    是因为⋯⋯等; 2)推论性的因果关系:前边分句提出一个前提或根据,后边分句推出一个结论。

    主要关联词语有:既然⋯⋯就⋯⋯,既⋯⋯便⋯⋯,既然⋯⋯就⋯⋯,既然⋯⋯那么⋯⋯

    等等。 例如:

    因为 知用 中学 的 先生 们 希望 我 来 演讲 一回,所以 今天 到 这里 和 诸君 相见。

    散文 之 所以 比较 容易 写,是 因为 它 更 接近 我们 口中 的 语言。

  • 13

    事情 既 已 点破,我 也 就 不 在乎 了。 既然 没有 呆呆 的 太阳,便 宁愿 有 疾风 大雨。

    3.6 目的关系:

    目的关系表示分句与分句之间是目的和行动的关系。它主要侧重于从主观活动的角

    度描述原因和结果的关系,这与主要侧重于从客观现象之间联系的角度描述的因果关系

    复句是有区别。目的关系的主要关联词语有:为了,为了⋯⋯便⋯⋯,以便,以免、以

    等 例如:

    晋国 为了 战胜 楚国,便 派 人 联络 吴国。 大姐每天都须很好地设计,忙中要有计划,以免发生混乱。

    3.7 假设关系:

    假设关系表示前边分句提出一个假设的原因或情况,后边分句依据前边的假设推断

    出结果。假设关系有两种:一种是假设与结果相一致的,就是说有这一假设的充分条件,

    必定会有这一结果,例如:你如果不娶我,我就死!另一种是假设与结果不一致的,就

    是说前边分句先承认某一假设的事实,然后来一个转折,后边分句说出一个跟这一假设

    恰恰相反的结果,例如:即使是下雪天,也有人去看那坟上松树到底还剩几棵。 主要的关联词语有:即便⋯⋯也⋯⋯,即使⋯⋯还是⋯⋯,即使⋯⋯也⋯⋯,假

    如⋯⋯便⋯⋯,假如⋯⋯那么⋯⋯,假使⋯⋯便⋯⋯,假使⋯⋯那么⋯⋯,如果⋯⋯那

    么⋯⋯,若⋯⋯便⋯⋯等。 例如:

    即使 在 生气 的 时候,也 掩盖 不 住 她 那 美丽 的 影子。 即使 我 逃 不 了 下放,那 工资 还是 少 不 了 的。 假如 没有 这 勇气,而 苟安 于 虚伪,那 也 便 是 不能 开辟 新 的生路 的 人。

    3.8 条件关系:

    条件关系表示前边分句说出一种条件,后边分句表示具备这种条件之后的结果。条

    件关系有两种:一种是唯一条件的,就是说这种条件是必要的、唯一的。例如: 你 只要 说 王青林 家 有 病,他 就 会 来 的。 另一种是无条件的,就是说前边分句排斥一切条件,后边分句表示在任何条件会产

    生同样的结果。例如: 不管 认识 不 认识,见到 谁 都 打 招呼。 主要的关联词语有:不管⋯⋯都⋯⋯,不论⋯⋯都⋯⋯,除非⋯⋯才⋯⋯,无论⋯⋯

    也⋯⋯,一旦⋯⋯就⋯⋯,只要⋯⋯便⋯⋯,只有⋯⋯才⋯⋯等。 典型例子还有:

    不管 他 当面 嘲笑 过 我,背后 乱骂 过 我,我 都 不 记 在 心上。 除非 车子 的 毛病 太 大,他 无法 整治 了,才 去 向 胡文发 请教。 卖 女儿,无论 怎么 卖,也 对不起 女儿。

  • 14

    3.9 转折关系:

    转折关系表示前边分句先说一面,后边分句并不顺着前边分句的意思说下去,而是

    转到与之相对或者相反的一面,表意的重点在后边分句。 主要的关联词语有:虽然⋯⋯但是⋯⋯,固然⋯⋯但⋯⋯,反而,尽管⋯⋯但⋯⋯

    却⋯⋯,可是,然而,虽则⋯⋯但是⋯⋯。 例如:

    帝国主义 固然 厉害,但 全 中国 民众 团结 起来 的 斗争 力量 也 是 不可 侮 的 啦!

    尽管 你 在 来信 时 对 我 没有 丝毫 的 抱怨,但 我 从 心里 觉得,我 实在 对不起 你。

    心中 发热,四肢 反倒 冷 起来。 虽然 汉语 对于 外来语 以 意译 为主,音译词 比重 较小,但是 数目也 还是 可观 的。

    3.10 解注复句:

    解注复句,主要描述一些解说性和注释性的分句之间的关系。它一般由两部分组成,前

    面的分句是主句,后面的分句是“补句”,对前面的分句进行补充性说明或解释。分句之间

    有补充和被补充的关系。主要包括以下几种情况: 1) 注释关系: 补句对主句中的某个名词性成分进行补充解释,主句和补句之间通常用冒号或逗号分

    隔,也常用关联词语“即,就是,换句话说,例如”等连接。具体实例有: 前面停了一辆车,是食品公司的。 部队接到命令:不等敌人全进入包围圈,决不能放一枪。 杨树有一个显著特点,就是特别容易繁殖。 告诉你八个字:明哲保身,另辟途径

    2) 总分关系: 主要有两个小类:a)分说性复句,特点是先总说,后分说;b)总说性复句,特点是先

    分说,后总说。表示总说和分说的分句间一般不用关联词语,但在总说部分常用数量词或集

    合名词,分说部分用“有的⋯有的⋯”或“一⋯二⋯”等照应。另外,分说性复句前面也常

    用关联词语“具体的说,总的来说,总而言之,综上所诉,比方说”等与前文发生意义关联。

    例如: 具体的说, 写 文章 要 注意 的 地方 有 以下 几点:文章 的 结构 要 严谨,层次要 清晰,内容 要 丰富,语句 要 通顺。

    或者把老虎打死,或者被老虎吃掉,两者必居其一。

    3.11 流水复句:

    汉语的流水句是一种口语现象。在结构上它如行云流水,自由自在,不用或极少用作为

    形式标记的关联词语。分句与分句之间采用意合的方法,其关系相当松散,或上挂下连,或

    藕断丝连。对于流水复句,我们一般不再进行内部层次分析,整体标注为“fj-LS”。它主要包括以下情况:

  • 15

    1)带直接引语的流水句 我们将直接引语和两个引号对划分为一个成分,标为yj(详见下面说明);并将引述成

    分和被引成分看成独立的分句,共同组成一个流水复句。常见的排列顺序有以下三种: NV S 型: [fj [dj 他说 ] :[yj“ 小王来了。”]] S NV 型: [fj [yj“小王来了。”] [dj 他说]] 。 S1 NV S2 : [fj [yj“小王,”] [dj 他问] ,[yj“来了吗?”]]

    2)“VO1O2”衍化的流水句 “VO1O2”是所谓的双宾语结构,当“O2”是谓词性成分,并且独立出来形成一个语调

    比较自足的分句,整个结构就形成一个流水复句。如: [fj [dj 他还启示人们] ,[fj 不应该迷信古书上的道理,而应该重视客观事实,重视实验和实践]] 。

    3)分句间主语不同和变换情况 后一分句可以承接上一分句主语以外的成分为主语,甚至暗中更换主语。承前和更换还

    可以变得很复杂。如: 但我无意中碰到了身边的一个什么东西,伸手一摸,是他给我开的饭,两个干硬的馒头。

    4 其它句法现象的标注规范

    4.1 整句

    在我们目前的标注体系中,整句是由词、短语、单句或复句加上语调,即句尾标点符号

    (。?!)构成的。它反映了汉语句子的主要实现过程。一般情况下,它不充当句子中的句

    法成分,这反映出它与‘dj’和‘fj’在语法层次和具体使用上的差别,但多个整句仍可以进一步组合为更大的语法单位—句群。整句的常见结构组合包括:

    – n | a | v [+ y] + 。 | ? | ! : 证件! – np | ap | vp [+ y] + 。 | ? | ! : 多么美丽的城市啊! – dj | fj + 。 | ? | ! : 他态度端正。 在具体标注时,我们使用功能标记‘zj’表示整句,而对其内部信息暂不予标注,用缺

    省标记‘XX’表示。

    4.2 句群

    在我们目前的标注体系中,句群是由若干个整句组合而成的。主要出现在超句中

    [GGS81]。 在具体标注时,我们使用功能标记‘jq’表示句群。一般情况下,对其内部信息暂不予

    标注,用缺省标记‘XX’表示。事实上,句群内部的各个整句之间也存在着复杂的逻辑语义关系,其内部层次组织与复句和分句之间的关系非常类似。因此,在特殊情况下,也可以

    沿用 11种复句结构分析标记对句群进行内部结构分析。

  • 16

    4.3 直接引语

    在我们目前的标注体系中,直接引语是由引述成分加上两边的双引号组成的,表示直接

    引述别人的原话。如:他说:“小王来了。” 在具体标注时,我们使用功能标记‘yj’表示直接引语,一般情况下,其内部结构为标

    号对,用“BH”表示。

    4.4 独立成分

    句子中的独立成分不充当句子成分,也不跟句子中的其他成分发生结构上的关系,删除

    它们不改变原句的基本意思,也不影响原句在结构上的完整性。

    在具体标注中,我们使用功能标记‘dlc’表示独立成分,便于统一识别和自动处理。一般情况下,‘dlc’只是表示一种语用信息,其内部成分还是应该进行一般的功能结构分析,只是通过在上层‘dlc’标记以控制它不与其他成分发生句法关系。我们还设计了以下内部信息标记,表示不同的独立成分:

    1) 插入语(CY),如“我看”,“老实说”,“看样子”,“据说”,“总而言之”等;在小说类的语料文本中,插入语出现的频度很高,需特别加以注意。

    2) 应答语、呼语或感叹语(HD),如: [dlc-HD好 ] ,你要有话,你就说! [dlc-HD 朋友们 ],为做一个祖国的英雄而奋发努力吧! [dlc-HD 啊 ] , 我们的青年作家来了!

    3) 补充说明(BC):在句子中对前面的某些成分进行补充说明,主要以括号对的形式表现出来,如:

    侧重以作为有机整体的社会本身为研究对象 [dlc-BC (这里的社会既包括整体社会,也包括局部社会,即社会的某一方面、某个领域、某个层次) ] 。

    北京 [dlc-BC(中华人民共和国的首都)] 是一个令人向往的地方。 4) 复指成分(FZ),主要是一些名词性同位成分,一般前后有逗号或破折号分隔。

    如: 昨晚所说的路——[dlc-FZ 所谓雷公岩的 ] ——果然险极了。

    5) 强调成分(QD):如果不把强调成分作为短语结构的组成成分,可以用独立成分标记(dlc)把它从结构中分离出来,并标注内部信息标记(QD)。如:

    我 [dlc-QD 是 ] 昨天到 [dlc-QD 的 ] 北京。 6) 序号(XH):句子前面的序号信息。如:一、 ② 7) 对于其他独立成分,则设置缺省标记‘XX’。

    5 句法树的划分规范

    汉语句法树标注的主要任务,是在带有词类标记的汉语词语串基础上,把不同的句法成

    分正确地划分出来,确定不同成分的层次关系和句法标记。它涉及到同形结构的处理、多切

    分问题、结构分析的方向性等方面,主要遵循了以下基本处理原则: 1). 句法结构宜‘平’不宜‘深’ 句法成分的划分并不局限于层次分析法中严格的二分处理,允许有多分结构(即具有两

    个以上子成分)存在。一个简单的例子是下面的定中结构: “的” ,我

  • 17

    们并不把它分析为:[[ “的”] ],而是直接划分为 [ “的” ]。另外一些类似的结构包括带“得”的述补结构,动词的兼语结构等。这样的处理可以降低机器自动标注和人工处理的复杂度。

    2). 对多分组合,应尽量选择一种统一的短语划分方法 汉语中句法成分的多分问题,是指同一词语组合在意义相同的情况下可以作多种层次切

    分,例如:“认真地学习英语”,既可划分为“[[认真地] [学习英语]]”,又可划分为“[[认真地学习] 英语]”,对于这个组合,两种划分在意义上没有什么差别。这样,我们在进行句法树标注时,就可以对类似的多分组合规定一种固定的划分方法,以保持处理语料的一致

    性,更有利于机器的自动处理。 3). 对同形结构,应给出详细的歧义分化条件和规则 在汉语句法分析过程中碰到的歧义主要有以下两种: A. 标记歧义:指同样的词类组合,在不同的语境下可以标为不同性质的短语,如:

    v n -> vp : 写文章 v n -> np : 工作方法

    B. 结构歧义:指同样的词类组合,可以划分为不同层次的短语,如:“咬死了猎人的狗”,就可能有以下两种划分结构:

    [vp [vp 咬死了] [np 猎人的狗 ]] [np [vp [vp 咬死了] 猎人] 的狗 ]

    对于类似的同形结构,人工标注比较容易分辨。但对于机器自动分析,给出详细的歧义

    分化条件就显得很重要了。

    5.1 多分结构的划分选择

    1). 副·动·名 这里的“副”表示能作状语的词或短语,主要有副词、形容词和副词性短语等。“动”

    指能作述语的动词、 形容词或动词性短语、形容词性短语等。“名”包括各类能作宾语的词或短语,主要有名词、代词和名词性短语等(下同)。 对此类组合,在一般情况下,我们把它划分为: [ 副 [ 动·名 ]],如: ☆ [直接 [ 回答 问题 ]] ☆ [正在 [ 发生巨大的变化 ]] ☆ [一个一个地 [ 问姓名 ]]

    但也有一些特例,包括:某些单音节形容词或数词作状语,只能修饰单音节动词,不能

    修饰vp,此时应划分为:[[ 副 动]·名 ],如: ☆ [苦练 [ 杀敌本领 ]] ☆ [紧握 [ 我的手 ]] ☆ [三打 [ 白骨精 ]]

    2). 名1·名2·动 此类组合,我们划分为:[名1·[ 名2·动 ]],如:

    ☆ [小马 [ 排球打得好 ]] ☆ [这个人 [ 心眼儿好]]

    类似的情况还包括: ☆ [村子里 [ 农民不多 ]]

  • 18

    ☆ 今年 [队里 [ 西瓜丰收 ]]

    3). 助动·动·名 在一般情况下,我们划分为:[ 助动·[ 动·名 ]],如: ☆ [会 [ 吹笛子 ]] ☆ [能 [ 说清楚 [ 这句话 ]]]

    4). 助动·助动·动 多个助动词连用,其层次一般是右向的,即划分为:[ 助动·[ 助动·动 ]],如: ☆ [应该 [ 敢说 ]] ☆ [想 [ 要进去 ]] 并不难

    5). “很”·助动·动 划分为:[“很”·[ 助动·动 ]],如: ☆ [很 [ 能说 ]] ☆ 他 [很 [ 愿意去 ]]

    6). 否定副词·助动·动 划分为:[ [ 否定副词·助动 ]·动 ],如: ☆ [ [ 不 能 ] 说 ] ☆ 他 [ [ 不 愿意 ] [ 去 图书馆 ] ]

    7). 动·趋1·名·趋2 这里的“趋”表示趋向动词。对于此种结构,我们采取以下的划分方法:[[ 动·趋1·名]·趋

    2],如: ☆ [[ 跨进门 ] 来 ] ☆ [[ 拿出一只鹅 ] 来 ]

    8). 动·介·名 统一划分为:[[ 动·介 ]·名 ],并把“动·介”标注为 vp,如: ☆ [[vp 打在(了)] [ 脸上 ]] ☆ [[vp 走向] [二十一世纪 ]]

    类似的组合还包括:动·“给”|“到”·名,如: ☆ [[vp 传授给 ] 学生 ] ☆ [[vp 送到] 家里 ]

    5.2 其他组合结构的处理

    1). 带“的”的定中结构 为简便起见,对这种组合,我们不再往下分了,而把它作为一个句法,标为np, 常见的

    情况包括: – n | r +“的”+ n : [np 他的书 ] [np 教室的桌子 ]

  • 19

    – n | r +“的”np : [np 人们的 [np 生活习惯 ]] – xp +“的”+ n : [np [vp 掌握劳动工具 ] 的人 ] – np +“的”+ np : [np [np 知识分子] 的 [np 工资问题]]

    2). 带“得”的述补结构 直接划分为一个短语,标为ap或vp, 常见的组合包括:

    – a + “得”+“很” : [ap 机灵得很 ] – a + “得”+ vp | ap : [ap 激动得 [vp 直挥胳膊 ]] [ap 黑得 [ap 很可怕 ]] – a + “得”+ dj : [ap 热得 [dj 大家都喘不过气来 ]] – v +“得”|“不”+ a | v : [vp 听得懂 ] [vp 看不见 ] – v +“得”+ ap | vp : [vp 检查得 [ap 那么彻底 ]] [vp 瞪得 [vp 发了火 ]] – v +“得”+ dj : 冰凉的河水 [vp 呛得 [dj 我很难受 ]]

    3). 动词的兼语结构 直接划分为一个短语,标为vp,常见的组合包括:

    – v + n | r | np + v | vp : [vp 爱他 [vp 能劳动 ]] – v + r + dj : [vp 嫌他 [dj 弟弟多 ]] – v + n | r | np + a | ap : [vp 原谅他小 ]

    4). 动词的双宾结构 划分为两层的述宾结构,如:[vp-PO [vp-PO 给 他 ] [np-DZ 一本书 ]] 5). 关于“所” ①. “n | r +“所”+ v”的组合,一般划分为:[np n | r [np“所” v ]],如: ☆ [np [np 我们 [np 所关心 ]] 的]

    ②. “所”前面出现介词结构或副词,则把“所+v”组合处理为vp,如: ☆ [vp [pp 为好奇心] [vp 所驱使 ]] ☆ [np [vp 原先 [vp 所说 ]] 的 ]

    6). 副词连用作状语 ①. 在一般情况下,副词在状语位置是右向逐层修饰的,如: ☆ [ 本来 [ 就 [ 很 [ 不好 ]]]]

    ②. 但在特殊情况下,某些副词可以先组合成一个短语,然后再修饰其他成分,如: ☆ 他 [vp [dp 不太] 聪明 ]] ☆ 我 [vp [dp 决不 ] 回来 ] (在我们目前的词类标记集中,有一类副词称为否定前副词‘dB’。它们一般在否定副词前面出现,如:并、丝毫、绝、决、

    根本。因此,碰到“否定前副词·否定副词·动词”的词类组合“dB·dN·v”,

    内部层次关系一般处理为:[[ dB·dN ]·v ]) 类似的组合还包括:“不十分”、“不一定”、“不怎么”等。

    7). “象X似的”结构 这里的X可以是实词(如:动词,名词,形容词等),也可以是短语(主要为vp,ap,np

    等)。我们处理为:[ap [vp 象X ] 似的 ],如:

  • 20

    ☆ [[ 象这座小山 ] 似的 ] ☆ [[ 象丢了魂 ] 似的 ]

    8). 关于“有” ①. “有·名·形”组合 划分为:[有·[ 名·形 ]],并将后面的“名·形”组合标注为np, 如: ☆ [有 [np 三米深 ]] ☆ [有 [np 他高 ]]

    ②. “有·名·动”组合 分为以下两种情况讨论: Ⅰ. 能组成兼语结构,则直接划分为一个短语,标为 vp,如: ☆ [vp 有 [ 一位老先生 ] [ 找你 ]] ☆ [vp 有 [ 不少人 ] [ 是赞成你的意见的 ]]

    Ⅱ. 其他情况,则划分并标注为:[vp [vp 有·名]·动 ],如: ☆ [vp [vp 有权利 ] 上学 ] ☆ [vp [vp 有理由 ] 不去 ]

    9). 语气词连用 不同语气词连用须逐层分析,并分别标注以dj, 如: ☆ [dj [dj [快六一] 了 ] 吧 ] ☆ [dj [dj [他去] 了 ] 吗 ]

    5.3 联合结构的处理

    汉语里的联合结构,又称并列结构(Conjunctive Structure, CS),是由两个或两个以上的并列成分(Conjuncts, CCs)平等相联在一起而构成的。其判断主要依据了汉语中这样一个基本假设,即认为“词性相同、结构相同、语义类相同、音节数相同的项并列是最理想、最严格

    的并列”([WL92], P162)。 需要注意的是,在我们的标注体系中,对并列结构的标注,只局限在短语层次,对于复

    句中的子句之间的并列关系,则处理为并列复句(内部标记为‘BL’)。一般情况下,两者比较容易区分。对于一些比较容易产生混淆的结构组合,如“vp ,vp”,基本判别原则是:首先判别此组合是整体充当句子中的一个句法成分,还是分别充当复句中的子句,然后

    在分别进行外部功能和内部结构标注。 我们按照并列结构中是否包含形式标记,把它们分为两大类。下面给出了一些具体实例: 1). 使用形式标记的并列结构,主要形式标记有以下几种:

    连词:主要是一组中置连词,包括“和、与、并、或......”,例如:{哥哥 和 弟弟} 关联副词:包括“又、也”等,例如,{ 能 说 也 能 写} 标点符号:主要是顿号、逗号。例如:{坚决、彻底、干净} 地 消灭 一切 敌人

    2). 没有形式标记的并列结构,如:{繁荣 富强}, {伟大 的 光荣 的 正确 的} 并列结构的标注方法是把所有的并列成分和中间可能的形式标志处理为一个层次,整体

    标注为“xp-LH”(其中‘xp’为相应的功能标记),即形成一个特殊的多分结构。一个并列结构内部不再分层次,但允许并列结构嵌套。如:

    商业 部 作为 国务院 管理 国 内 商业 的 职能 部门 ,根据

  • 21

    [np-LH 党中央 、 国务院 ] [np-LH [ 关于 国 内 商业 的 [np-LH 方

    针 、 政策 ] ] 和 [[pp-LH 以 计划经济 为主 、 市场 调节 为辅 ] 的

    原则 ] ] ,统一 [vp-LH 领导 和 安排 ] 城乡 市场 ,协调 各 种 经济 形

    式 的 [np-LH [ 商业 活动 ] 和 [ 经营 比重 ]] ,组织 全 国 商品流通 。

    在这里,需要注意以下情况: 1) 两个形式标志连用的情况,如“A ,B ,以及 C”,整体也处理为一个层次。 2) 并列结构后面添加并列助词“等、等等”的组合,整体处理为两个层次:前面的并列结构先组合,然后与后面的并列连词组合为附加结构,其整体功能标记保持前面

    的并列结构的功能标记。 并列结构识别的关键在于准确把握各个并列成分之间的句法和语义相似度。对此,我们

    确定了以下几条一般的处理原则: 1) 对具有典型标记(顿号或并列连词)的并列结构(1 类),各并列成分的句法相似度可放宽一些,如:

    … 对/p {中国/n 的/u 封建/n 经济/n 思想/n 以至/c 中国/n 封建/n 经济/n 本身/n } 的/u 发展/v … (前面的并列成分包含了助词“的”而后面的没有)

    2) 对具有非典型标记(逗号或分号)的并列结构(2类),相似度把握应趋严,如: { 林刚/nP ,/wD 郭兆勇/nP } ,/w 两/m 位/q 侗乡/n 民兵/n 的/u 名字/n …

    3) 对没有形式标记的并列结构(3 类),并列成分的相似度要求最严格,一般要求各个并列成分的词类应相同。其中应特别注意由单个词并列组成的结构,如:{ 繁荣 富强},{ 北京 天津 上海 },{ 刘 邓 贺 李 }。但在特殊情况下,也允许出现不同词类的词语组成的并列结构(主要是形容词和动词、述宾结构),此时整体功能

    标记,需根据不同的语境进行确定。如下面一些具体实例: 看/v 你/r 的/u 穿戴/n 神情/n ,/w 也是/v 改/v 不/d 掉/v 的/u

    {穷酸/a 受罪/v } 模样/n 。/w

    平时/t 看/v 电视/n ,/w 一/d 听到/v 好/a 词句/n ,/w 就/d 用/p 他/r 那/r {弯曲/a 变形/v } 的/u 手/n 指/v 着/u 电视机/n ,/w

    岁月/n 会/v 把/p 一层层/m 厚厚的/z 尘埃/n 蒙/v 在/p 知识/n 上/f 使/v 它/r 失去/v 光泽/n ,/w 变/v 得/u {陈旧/a 老化/v} 。/w

    在/p {干旱/a } 的/u 地区/n ,/w …

    另外,对包含省略项的并列结构(文献[WL92]称之为骈合结构),基本处理原则是不能因为拘泥于结构相似性而割裂句法成分的完整性(主要包括定语和介词的省略情况)。如: 语法/n 也/d 是/v 这样/r ,/w { 两/m 种/q 语言/n 的/u 构词/v 方式

    /n 可能/v 不同/a ,/w 形态/n 变化/v 可能/v 不同/a }(并列结构应左扩展到

    “两”)

    其中的并列结构的句法层次关系为:[[[ 两 种 语言] 的 [ 构词 方式]] [可能 不

    同]] ,/w [[e= [ 形态 变化]] [可能 不同]] (说明: 其中的 e= 表示 < > 中是承前省略的成分信息)

    类似的例子还有:

    { 路的一边是高山, 一边是深涧 }(中心语骈合) { 把帽子一戴 ,皮包一夹} (介词宾语骈合)

  • 22

    5.4 固定搭配结构的处理

    在汉语中,某些词语对在句子中往往搭配着出现,形成比较固定的“框架”结构。如:

    “当⋯时”。它们一般在句子中作状语,其基本格式为: 。对此种“框架”结构,我们的基本处理原则是:如果其内部可以进行合理的层次分析,则进行一般的功能结构标注,否则整体处理为一个成分,内部结构标注为框式结构‘KS’。

    表 4 列出了我们目前总结的部分常见固定搭配情况。其中,‘搭配前部’和‘搭配后部’分别列出了它们可以取的词语。‘功能标记’给出了搭配框架的最终分析结果的句法功

    能标记。‘结构标记确定’则给出了结构标记的‘指导性’确定方式:0—需进行内部层次分析;1—整体标注为框式结构‘KS’。

    表 4 常见的固定搭配情况

    搭配前部 wi 搭配后部 wj 功能标记 结构标记确定 自从 后 以后 以来 pp 0 直到 为止 pp 1 除 除了 外 之外 以外 pp 1 从 起 pp 1 在 上 下 里 上面 pp 0

    当 每当 时 后 以后 之后 pp 0 在 时 pp 0 当 在 时候 pp 0 非 不可 vp 1

    是 就是 凡是 也是 的 vp 1

    5.5 复杂时空和数量表示

    汉语时空表示具有很强的规律性。一般情况下,不同的时空单位严格按照从左到右从大

    到小的顺序组织,如,在时间方面,是:年 月 日 时 分 秒等;空间方面,是:省(市)

    县(区) 乡(镇)等。相同的时空单位则按照时空的发展顺序进行组织,一般是:起点 历程 终点。 在我们的句法树标注体系中,针对汉语时空表示的这些规律性,确定了两种统一的标注

    方法: 1)针对不同时空单位从大到小的排列顺序,形成“左向”组合的二分层次树,每个层

    次的句法成分通过内部结构标记“DZ”反映大小时空单位之间的领属关系。如: [sp-DZ [sp-DZ上海市 陕西北路 ] 4号 ] [tp-DZ [tp-DZ 1979年 10月 ] 20日 ]

    2)针对相同时空单位之间的顺序性,使用内部结构标记“SX”,形成二分或多分结构

    成分,描述“起点 历程 终点”的时空发展顺序。在真实语料中,这类情况的描述实例比

    较复杂,下面分别加以说明: 通过多个介词结构描述,整体结构处理为:“pp-SX”,如:[pp-SX [pp-JB从北京]

    [pp-JB经天津 ] [pp-JB 到上海 ] ] (这是一个三分结构) 通过“X p(至|到) Y”描述“起点 终点”的时空发展顺序,首先将“p(至|到) Y”组合成“pp-JB”结构,然后与“X”一起形成“SX”结构,如:[tp-DZ 12月 [tp-SX

  • 23

    5日 [pp-JB至 7日 ] ] ] 通过“X –|— Y”描述“起点 终点”的时空发展顺序,整体一起形成一个“SX”结构,如:[sp-SX 北京 – 上海 ] (注意这里的分隔符 ‘–’的词性标记应为‘x’,表示一个特殊符号,而不处理为标点符号:“–/–”)

    其他复杂的“起点 历程 终点”的时空发展顺序描述实例,如:[sp-SX [sp-SX 红绿灯 [pp-JB 向南 ] ] [sp-SX [sp-DZ(相东路)第一个十字路口 ] [sp-DZ 向东 30米 ] ] 路北 ] ] (注意这里通过层次划分形成了三段空间变化历程)

    类似地,我们可以用“SX”标记,标注一些特殊的数量变化关系,如:[mbar-SX 101/m

    –/x 109/m ],[mbar-SX 一/m 到/p 三/m ] 月。为简单起见,对准数词结构,不论其中的分隔成分是特殊符号‘–|—’,还是介词“到|至”,我们都统一处理为三分结构,不再进行内部层次分析。

    5.6 喻式结构的处理

    汉语中的比喻用法有多种表示形式,如:“和 … 一样”,“象 … 似的”,“象 … 那样”。对这些特殊结构的层次分析,语言学上研究深度不一。在我们目前的标注规范中,对

    此进行以下规定: 1)“和 跟 与 同 … 一样”结构 整体分析为“ap-ZZ”,具体组合层次为:[ap-ZZ [pp-JB 和 跟 与 同 … ] 一样/a ]。

    如:[ap-ZZ [pp-JB 和/p 他们/rN ] 一样/a] 。注意:这里的“一样”应统一标注为形容词“a”。 2)“象 好象 仿佛 像 跟 如同 正如 …般 一般 一样 似的 似地”结构 整体分析为“ap-AD”,具体组合层次为:[ap-AD [象 好象 仿佛 像 跟 如同 正如… ]

    般 一般 一样 似的 似地]。如:[ap-AD [vp-PO 象/v 他们/rN ] 似的/u] 。注意:在目前的标注语料中,这里前面的“象 好象 仿佛 像 跟 如同 正如”有的被标为介词,有的被标为动词,目前暂不进行统一处理,按照不同的词性进行层次分析,分别处理为“pp-JB”或“vp-PO”,以后等条件成熟时,可以由程序进行统一修改。后面的“般 一般 一样 似的 似地”等词语,一般处理为助词。

    3)“象 好象 如同 像 正如 … 那样 这样”结构 整体分析为“ap-KS”,具体组合层次为:[ap-KS 象 好象 像 如同 正如 … 那样 这

    样 ],即处理为三分结构。如:[ap-KS 象/v 他们/rN 那样/rV]。注意:这里前面的“象 好象 像 如同 正如”倾向于处理为动词,后面的“那样 这样”则统一处理为“rV”。特别需要注意对中间是“的”字结构的处理,如:[ap-KS 象/v [np-AD 我今天做的 ] 那样/rV ]。

    5.7 独立成分的处理

    5.7.1 独立成分的边界控制 在我们的标注体系中,独立成分左右一般都有标点符号与其他成分分开。但在具体标注

    时,应该注意不要把这些标点划入独立成分内部,即独立成分的左右边界一般不包括标点符

    号。这主要包括以下情况: 1) 插入语(CY)左右的逗号信息,如:这本书,[dlc-CY 我看 ] ,很精彩。 2) 应答语、呼语或感叹语(HD)右边的逗号或冒号信息,如:[dlc-HD 好 ] ,你要

  • 24

    有话,你就说! 3) 复指成分(FZ)左右的逗号或破折号信息或左边冒号信息。如:昨晚所说的路——

    [dlc-FZ 所谓雷公岩的的 ] ——果然险极了。 但以下两种情况需特殊处理: 1) 补充说明(BC),主要以括号对的形式表现出来,具体标注时将标号对内部成分

    和标号对一起标注为一个独立成分。如:北京 [dlc-BC(中华人民共和国的首都)] 是一个令人向往的地方。

    2) 序号信息(XH),如果右边由一个顿号分隔,则将两者一起处理为一个独立成分,如:[dlc-XH 1 、 ] 我们要努力学习(需要注意,如果相同位置出现“. .”等符号,我们把它们处理为特殊符号,词性标记为‘x’,而不处理为标点符号。)

    5.7.2 独立成分的语义分析 在我们目前的标注体系中,不同的独立成分实际上都有特殊的语义内涵。我们希望通过

    不同的层次组合方式,把它们与各自的语义所指有机结合起来,为在后续处理中准确提取出

    所需的语义相关知识提供帮助。为此,作了以下规定: 1) 应答语、呼语或感叹语(HD)和序号(XH)成分,一般右向组合,如:[ [dlc-HD

    好 ] ,你要有话,你就说 ] ! 2) 插入语(CY),一般处于成分中间位置,如:[ 这本书,[dlc-CY 我看 ] ,很精

    彩 ]。 3) 复指成分(FZ)和补充说明(BC),一般左向组合,如:

    [ 昨晚所说的路——[dlc-FZ 所谓雷公岩的 ] ] ——果然险极了。 [ 北京 [dlc-BC(中华人民共和国的首都)] ] 是一个令人向往的地方。

    下面对有关内容进行进一步说明。

    5.7.2.1 括号对结构:(… )

    不论内部信息如何,目前都统一分析为“dlc-BC”,在层次树中与左部的语义相关成分共同组合成一个“XX”成分。如:[np-XX 北京 [dlc-BC(中华人民共和国的首都)] ] 是一个令人向往的地方。 具体的组合形式可以有一定的灵活性,其基本原则是可以通过中心词分析方便地找到其

    相关语义成分,如:对下面的词语组合: 中国/nS 晚清/nR 的/u 学者/n 黄遵宪/nP (/( 1848/m —/x 1905/m )/),层次分析为:[np-DZ [np-DZ [np-DZ 中国/nS 晚清/nR ] 的/u 学者/n ] [np-XX 黄遵宪/nP [dlc-BC (/( [mbar-SX 1848/m —/x 1905/m ] )/) ] 或 [np-DZ [np-DZ 中国/nS 晚清/nR ] 的/u [np-XX [np-DZ 学者/n 黄遵宪/nP ] [dlc-BC (/( [mbar-SX 1848/m —/x 1905/m ] )/) ] ],都可以认为是正确的,因为从中都可以方便地找到“dlc-BC”的语义相关成分“黄遵宪”。

    5.7.2.2 同位性成分

    一般情况下,对于子句层面上进行补充说明的同位性成分,统一处理为与左边相邻的子

    句整体进行组合,如:[dj-XX [dj-ZW 写文章要注意以下几点 ] :[dlc-FZ 文章的结构、层次、内容和语句 ] ]。

  • 25

    另外,为减少人工校对的工作量,整体是谓词性成分的情况,也不必调整为解注复句,

    可以留待以后进行自动调整。但必须注意保证组合层次的正确性,如下面句子片段:[dj-XX [dj-ZW 它/rN [vp-ZZ 不/dN [vp-PO 像/vC [np-DZ 有的/rN [np-DZ [np-DZ 社会/n 意识/n ] 形态/n ] ] ] ] ] ,/, [dlc-FZ [vp-PO 如/v [np-DZ [np-LH 政治/n 法律/n ] 观点/n ] ] ] ]。以后在需要的时候,程序可以根据“dlc-FZ”成分下的“vp-PO” 标记,自动调整为:[fj-JZ [dj-ZW 它/rN [vp-ZZ 不/dN [vp-PO 像/vC [np-DZ 有的/rN [np-DZ [np-DZ 社会/n 意识/n ] 形态/n ] ] ] ] ] ,/, [vp-PO 如/v [np-DZ [np-LH 政治/n 法律/n ] 观点/n ] ] ]

    下面对真实语料中出现的常见同位性成分情况进行分类说明: 1) 没有标点分隔的同位性成分,整体处理为“dlc-FZ”,并与左边相邻的复指成分进

    行组合,如下句中的宾语片段“一些 … 等”: 在 理论 演绎 中 , 为了 使 理论 具有 更 高 的 概括性 和 更 广泛 的 适用性 , 往往 采用 [np-XX [np-DZ 一些 无 量纲 参数 [dlc-FZ [vp-PO 如/v 雷诺数 、 马赫数 、 泊松比 等 ] ] ] 。

    2)有标点分隔的同位结构,分为以下情况: a) 同位成分是名词短语,包括前面可能出现的“如、例如”等,整体处理为“dlc-FZ”,

    并与左边相邻的复指成分进行组合,如: [np-XX 北京 ,[dlc-FZ [np-DZ中华人民共和国的首都 ] ] ,是一个令人向往的地方 。

    [np-XX [np-DZ 这些水果 ] ,[dlc-FZ [vp-PO 如:香蕉、苹果、梨等 ] ] ] ,都是很好吃的。

    b) 同位成分是动词短语或分句,则分别进行标注;如果前面还有“如、例如”等词语,则把这些词语单独标注为插入语“dlc-CY”,其余内容按照常规进行标注。如:

    [fj-JZ [vp-PO 告诉你八个字 ] :[fj-LG 明哲保身,另辟途径 ] ] [dlc-CY 如/p ] [fj-ZE [dj-ZW 13世纪的神学家托马斯·阿奎那 ,原则上反对 贷款取息 ] , [vp-XX 但认为在贷者因出贷蒙受损失,或借主逾期未还,或以入

    伙方式贷款等情况下,可以收取利息 ]] 。

    5.8 标点符号的处理

    1. 点号的处理:

    A. 逗号和分号:一般处于不同的句法成分中起分隔作用,不单独进行标注,如:[dj 昨天 , [dj 我去图书馆了 ]]。

    B. 句号、问号和感叹号:一般与前面的成分共同组合为整句 zj,若有多个这样的标点,则组合形成一个句群,并标为 jq,此种情况常见于超句中。

    C. 冒号:一般用于分隔引述体和引语,在流水复句中出现(参见3.11节说明);或用于分隔主句和补句,在解注复句中出现(参见3.10节说明)。

    D. 破折号:一般用于标题中和引出独立成分,标注方法同逗号。 E. 省略号:若在句子中表示停顿,则标注方法同逗号;若在句尾表示句子结束,

    则标注方法同句号。

    2. 标号对的处理:与中间的成分一起划分为三分结构,其句法功能标记的确定方法如下:

    A. 书名号对,整体标为 np。如:[np 《/w [np 鲁迅/n [np 全/a 集/n ]] 》/w ]

  • 26

    B. 标识直接引语的标号对,包括:双引号、单引号以及特殊标号对:『』「」等,整体标为 yj。

    C. 表示强调作用的标号对,按常规确定,如:[vp [vp [vp“ 限 ”] 进 ] [ np二 人 ]] D. 表示补充说明的标号对,整体标注为‘dlc’,如:[np “/“ 干人/n ”/” ]

    [dlc (/( [np 壮话/nR ,/, 穷人/n ] ))

    5.9 若干歧义现象的处理

    下面我们列出几个比较常见的标记歧义组合,包括功能标记歧义和结构标记歧义。信息

    格式为: { - {} } 由于汉语的功能标记和结构标记间有很强的信息相关性,在很多情况下,我们只要确定

    了其中的一个,另一个也就可以唯一确定了。这就大大减低了排歧处理的难度。但在一些特

    殊的结构组合中,还是会出现一个功能标记对应多个结构标记的情况,对此,我们将在下面

    的描述中作出具体说明。 1) x | xp + [“的”] + n np-DZ, sp-DZ, tp-DZ 这是一个典型的由于中心名词的意义差异而形成的功能标记歧义现象,它的基本识别原

    则是: 如果能确定其中的中心名词表示处所或时间,并满足功能判定式:可以作“在/到”的宾语,则分别标注为 sp或 tp;

    有些处所名词,如学校,有二义性,当它表示处所位置时,处理为 sp;当它表示一个机构时,则处理为 np;

    在不能很好确定的模糊情况下,选择‘np’作为缺省功能标记。 2) v | vp + n vp-PO, np-DZ 一般情况下,汉语中的动词和动词短语不能直接作定语,整个结构为“vp-PO”。只有

    在下面情况下有例外: 动词是双音节的不及物动词(如:工作、睡觉)或名动词(如:设计、研究),整个结构可以处理为“np-DZ”。相应的组合实例有:工作时间,设计方案。

    动词短语是由两个单字词组成的述宾结构(如:上课、洗碗),整个结构也可能是“np-DZ”。相应的组合实例有:上课时间,洗碗工具。

    3) ap | a + v | vp dj-ZW, vp-ZZ 这里的关键问题是确定前面的成分“ap | a”是状语还是主语,需要充分考虑两个成分

    的中心词之间的搭配关系。类似的结构还包括:mp | m + v | vp dj-ZW, vp-ZZ 4) tp | sp | t | s + v | vp dj-ZW, vp-ZZ 在我们的标注体系中,此结构中的时间、处所词(或短语)一般处理为状语,整体标注

    为“vp-ZZ”。只有以下情况例外: 存现句句首的处所词(或短语)处理为主语,如:[dj-ZW河面上飘着雪花 ] 判断句句首的时间、处所词(或短语)处理为主语,如:[dj-ZW 今天是星期天 ]

    5) p + v | vp vp-ZZ, pp-PO 在这里,我们把动词或动词短语前接介词“被,给”表被动意义的情况处理为状中结构

    “vp-ZZ”,其余情况则处理为“pp-PO” 6) uS + v | vp vp-AD, np-AD 有关的判断方法可参阅上面5.2节的有关说明。 7) vp + vp vp, dj-ZW, vp-{LH, LW, PO, ZZ}

  • 27

    对此结构组合,可以按照下面的处理流程进行判断: 判断两个成分的相似度(参阅5.3节有关联合结构的处理),确定是否为联合结构。若是,则标注为“vp-LH”;

    检查前面的“vp”是否是以助动词为中心词的状中结构,若是,则标注为“vp-ZZ”; 检查前面的“vp”的中心词是否能带动词性成分作宾语,并且后面的“vp”也能作宾语,若是,则标注为“vp-PO”;

    判定结构组合是否为主谓结构,然后分别标注为:“dj-ZW”或“vp-LW”。 类似的结构还包括:“v + vp vp, dj-ZW, vp-{LH, LW, PO }”,“vp + v vp, dj-ZW,

    vp-{LH, LW, PO, ZZ}”等。 8) vp + wP + vp fj-XX, dj-ZW, vp-{LH, PO, ZZ} (这里的‘wP’表示逗号) 在这里,首先需要判定这是复句的子句间的结构组合关系还是单句的句法成分间的结构

    组合关系(参见下节的详细说明),将它分为两大类功能标记:fj 或 {dj, vp}。然后,对{dj, vp}功能标记歧义现象,按照上例的流程进行处理。

    6 若干特殊情况的处理

    6.1 单句与复句

    在我们目前的标注体系中,对单句和复句的信息描述具有不同的侧重点。在单句层次上,

    主要描述不同句法成分之间的句法语义关系,包括:体现句子整体结构关系的主谓、述宾、

    述补、连谓结构,以及体现不同修饰关系的定中、状中结构等。在复句层次上,则主要描述

    各个分句的复杂的逻辑语义关系,包括:体现分句所表现的不同事件间的并列、因果、条件

    关系等。因此,在具体标注过程中,对两者的准确区分就具有重要的意义。 区分汉语单复句所依据的标准主要有以下几种:结构、意义、标点停顿和关联词语等。

    下面我们给出一些基本的处理原则: 1)分句的主语可以承前省略,也可以蒙后省略,要把省略主语的分句与连动结构区分

    开来。一般情况下,连动结构如果用逗号停顿,句子也就由单句变成了复句,例如: [fj-LG 大家跳下车来,绕到车后,帮忙推车 ] 。 [fj-LG 放下书包,拿起笤帚,小红扫起地来 ] 。

    2)句子中的逗号停顿有时只是为了强调某个词语,或者为了舒缓语气,此时句子整体为单句,如:

    [dj-ZW 打击敌人的想法,强有力地吸引着他 ]。 [dj-ZW 这个山区呀,矿产非常丰富 ]。

    3)关联词语是表达复句分句之间意义关系的重要结构形式标记,但在某些情况下,有关联词语的句子并非都是复句,如:

    [dj-ZW 只有用知识武装起来的人,才能在理想的蓝天中自由地翱翔 ]。 [dj-ZW 无论什么人,都不能不承认这是真理 ]。

    4)复句的紧缩形式是一种复句的变式,虽然形式上很象单句,但不能分析为单句,如: [fj-TJ 谁想去谁去 ] 。 [fj-TJ 你不请他还不来呢 ] 。

  • 28

    这里的处理难点是一些复杂句子,包括长单句、长复句、长超句等。下面分别进行讨论

    [GGS81]: 1)长单句分析的难点在于长宾语句,主要有以下几种情况:

    a). 复句或长单句宾语,如果在述语与宾语间没有逗号分隔,则与一般宾语同样分析,即与述语动词一起组成一个大vp,否则处理为流水复句。如:

    [dj-ZW 刘江 [vp-PO 指出农村经济改革发展进入新阶段 ]] 。 [fj-LS [dj-ZW 刘江指出] ,[dj-ZW 农村的改革与发展促进了整个国民经济的改革与发展 ] ]。 b). 远宾语长的双宾语,不把它划分为宾语,而作为一般流水复句处理,如:

    [fj-LS [dj-ZW 他还启示人们] ,[fj-ZE 不应该迷信古书上的道理,而应该重视客观事实,重视实验和实践 ]] 。

    2)句群作宾语的长超句,分析同1/a 3)对于长复句,需要注意内部层次分析问题,详见下节说明。

    6.2 复句的层次分析

    与单句的句法成分间的复杂层次关系一样,复句的各个组成成分间也可以进行层次分

    析。在这里,层次分析的基本单元是由点号(主要是逗号或分号)分割的各个成分,其中既

    包括完整的单句,也包括充当句首状语的副词短语、介宾短语等。下面给出一些具体的复句

    层次划分原则: 1)对于句首状语,除了以下情况外,都归入第一个分句中:

    句首状语描述各个分句描述的事件的公用时空信息,整体结构处理为状中结构;

    句首状语表示与前面句子的连接关系,整体结构处理为‘XX’结构; 2) 复句句首的主体成分,我们一般处理为第一分句的主语,然后整体结构处理为连贯复句或流水复句。如:[fj-LG [dj-ZW 苏堤,自南而北横贯西湖 ] ,[dj-ZW 全长二点八公里 ] ] 3) 对于三个以上分句组成的复句,首先应确定是单层复句还是多层复句,在我们的标注体系中,只有并列关系复句、连贯关系复句和流水复句可以处理为单层结构,其余都

    需要进行内部层次分析(不管分句之间有没有关联词语相连接),即将不同分句两两组

    合形成不同层次的逻辑语义组合关系。

    6.3 同位性成分与解注复句

    对于句末进行补充说明的同位性成分,按照下面的方法进行标注:

    1)整体是体词性成分,处理为独立复指成分,如: 写文章要注意以下几点:[dlc-FZ 文章的结构、层次、内容和语句 ] 。

    2)整体是谓词性成分,处理为解注复句,如: 具体的说, [fj-JZ 写 文章 要 注意 的 地方 有 以下 几点:[fj-BL 文章 的 结构 要 严谨,层次要 清晰,内容 要 丰富,语句 要 通顺 ] ] 。

    在汉语真实文本中,经常出现这样的结构组合:“X :Y”,其中‘X’一般是一个名

    词短语或单句,用来提出一个话题,后面的‘Y’则通过一组描述对‘X’进行解释或说明。

  • 29

    对于这种结构,我们的基本处理方法是:先对冒号后面的内容进行分析,形成一个句法成分,

    如果它为复句,则整体处理为解注复句;如果它为是单句或短语,则整体可以处理为“dj-ZW”或“fj-JZ”,根据具体情况分别确定。下面是一些具体标注实例:

    [fj-JZ [dj-ZW礼仪小姐 12人 ] :[fj-LS [mp-DZ 20-25岁 ] , [dj-ZW 身高1.65— 1.75 米 ] , [dj-ZW 体貌均好 ] , [dj-ZW 有商城礼仪接待者最佳 ] ] ] 。

    [dj-ZW [np-DZ 乘车路线 ] :[sp-SX [dj-ZW 火车站 [vp-LW [vp-PO乘 3路车 ] [vp-PO 到终点站 ] ] [sp-DZ 向东 50米 ] [sp-DZ 路南二楼 ] ] ] 。

    6.4 联合结构与并列复句

    在我们的标注体系中,对联合结构的标注,只局限在短语层次(内部结构标记为‘LH’)。对于复句中的子句之间的并列关系,则处理为并列复句(内部标记为‘BL’)。需要注意的是,对于一些特殊的句子,可以分别采取两种不同的标注方法,但必须保持功能标记和结

    构标记的匹配性,如: [dj-ZW 我们 [vp-LH 一边 吃饭 ,一边 看 电视 ] ] 。 [fj-BL [dj-ZW 我们 一边 吃饭 ] ,[vp-XX 一边 看 电视 ] ] 。

    6.5 其他特殊结构

    1. “请”的问题 汉语中“请”有两种用法:

    表示请求、邀请、招待,一般形成双宾结构或兼语结构。需根据具体情况分别进行处理。如:[vp-PO [vp-PO请/vSB 我 ] 一顿饭 ] ,[vp-JY 请/vJY 他 帮忙 ];

    表示敬辞,用于希望对方做某件事。这里的“请”标为一般动词‘v’,整体结构处理为“vp-PO”。如:[vp-PO 请/v [dj-ZW 您准时出席 ] ],[vp-PO请/v 喝茶 ];

    2. “兼”的问题 对于新闻语料中常见的“np 兼 np”组合,我们的处理方法是:词语“兼”标注为动词,

    与后面的‘np’组成述宾结构动词短语;然后与前面的‘np’组成特殊的二分联合结构名词短语。如:[np-LH [np-DZ国务院/n [np-DZ 副/b 总理/n ] ] [vp-PO 兼/v [np-DZ 卫生/n 部长/n ] ] ]。

    3. “f m q”结构,处理为三分结构 这里的‘f’主要是特殊方位词:前 后 上 下。如果‘q’为时量词,则整体结构为“tp-DZ”,

    如:[tp-DZ 上/f 半/m 年/qT ];否则,处理为“mp-DZ”,如: [mp-DZ下/f 一/m 场/qV ]。类似的结构还包括:“m a q”,如:[mp-DZ 一/m 大/a堆/qN ]。

    4. “m q m”结构 层次分析为:[[m q ] m ]。如果其中的‘q’为时量词,则整体结构为“tp-DZ”,如:

    [tp-DZ [tp-DZ半/m 年/qT ] 多/m ];否则,处理为“mp-DZ”,如:[mp-DZ [mp-DZ一/m 斤/qN ]半/m]。

    5. “ vp 以 vp”结构 这里的‘以’应处理为连词,整体结构可以处理为:[vp-LW vp [vp-XX 以 vp ]]。如:

    [vp-LW [vp-LH 搓绩/v 编织/v ] [vp-XX 以/c [vp-PO 供/v 服用/v ] ] ]。如果中间有逗号分隔,则整体结构宜处理为目的复句“fj-MD”。

  • 30

    6. “ vp|v 而 vp|v”结构 这里的‘而’为连词,整体结构一般处理为:[vp-LW vp [vp-XX 而 vp ]]。如:[vp-LW

    奔腾/v [vp-XX 而/c 来/v ] ]。

    参考文献:

    [CXH98] 陈小荷(1998)“从自动句法分析角度看汉语词类问题”,1998现代汉语语法学国际学术会议,北京大学。

    [GB92]“信息处理用现代汉语分词规范”,中国国家标准 GB13715,1992. [GGS81] 高更生 (1981). 《长句分析》,中国社会科学出版社 [LJM93] 陆俭明 (1993). “汉语句法成分特有的套叠现象”,《陆俭明自选集》,河南教育出版社,174-192.

    [Wang94] 王维贤等(1994)《现代汉语复句新解》,华东师范大学出版社。 [WL92] 吴竞存, 梁伯枢 (1992). 《现代汉语句法结构与分析》, 语文出版社。 [Xing01] 邢福义(2001)《汉语复句研究》,商务印书馆。 [YSW94] 俞士汶 (1994)“信息处理用现代汉语词语分类体系”,北大计算语言所内部资料,其摘要刊登于《中国计算机报》1994.5.31. 第 81版.

    [ZWD00] 詹卫东(2000)《面向中文信息处理的现代汉语短语结构规则研究》,清华大学出版社,广西科学技术出版社。

    [YYXY89] 北京语言学院句型研究小组编,“现代汉语基本句型”,连载于《世界汉语教学》1989(1,3,4), 1990(1), 1991(1)

    [Zhu85] 朱德熙. (1985). 《语法答问》. 商务印书馆

    附录1:完整的句法功能结构标记表

    下面两个表格列出了我们目前的句法信息标注体系的完整的外部功能和内部结构标记

    集。为了便于区分,功能标记统一用小写字符串表示,结构标记则统一用大写字符串表示。

    标记代码 功能标记说明 帮助记忆的说明

    np 名词短语 英文(noun phrase)的首字母 sp 处所短语 英文(space phrase)的首字母 tp 时间短语 英文(time phrase)的首字母 vp 动词短语 英文(verb phrase)的首字母 ap 形容词短语 英文(adjective phrase)的首字母 bp 区别词短语 取汉字“别”的声母 + 英文(phrase)的首字母 dp 副词短语 英文(adverb)的第 2个字母 + 英文(phrase)的首字母pp 介词短语 英文(preposition phrase)的首字母

    mbar 数词准短语 mp 数量短语 dj 单句句型 取汉语词“单句”的声母 fj 复句句型 取汉语词“复句”的声母 zj 整句 取汉语词“整句”的声母

  • 31

    jq 句群 取汉语词“句群”的声母 yj 直接引语 取汉语词“引句”的声母 dlc 独立成分 汉语词“独立”的声母 + 英文(constituent)的首字母

    标记代码 结构标记说明 帮助记忆的说明

    ZW 主谓结构 取汉语词“单句”的声母 PO 述宾结构 取英文(predicate)+(object)的首字母 SB 述补结构 取汉语词“述补”的声母 DZ 定中结构 取汉语词“定中”的声母 ZZ 状中结构 取汉语词“状中”的声母 LH 联合结构 取汉语词“联合”的声母 LW 连谓结构 取汉语词“连谓”的声母 AD 附加结构 取英文(addition)的前两个字母 CD 重叠结构 取汉语词“重叠”的声母 JY 兼语结构 取汉语词“兼语”的声母 FW 方位结构 取汉语词“方位”的声母 JB 介宾结构 取汉语词“介宾”的声母 KS 框式结构 取汉语词“框式”的声母 SX 顺序结构 取汉语词“顺序”的声母 BH 标号结构 取汉语词“标号”的声母

    BL 并列关系 取汉语词“并列”的声母 LG 连贯关系 取汉语词“连贯”的声母 DJ 递进关系 取汉语词“递进”的声母 XZ 选择关系 取汉语词“选择”的声母 YG 因果关系 取汉语词“因果”的声母 MD 目的关系 取汉语词“目的”的声母 JS 假设关系 取汉语词“假设”的声母 TJ 条件关系 取汉语词“条件”的声母 ZE 转折关系 取汉字“转”的声母+汉字“折”的韵母 JZ 解注复句 取汉语词“解注”的声母 LS 流水复句 取汉语词“流水”的声母

    CY 插入语 取汉字“插”的声母+汉字“语”的声母 HD 呼语或应答语 取汉字“呼”的声母+汉字“答”的声母 BC 补充说明 取汉语词“补充”的声母 FZ 复指成分 取汉语词“复指”的声母 QD 强调成分 取汉语词“强调”的声母 XH 序号信息 取汉语词“序号”的声母

    XX 缺省结构

  • 32

    附录2:一个具体的标注实例

    下面是从目前的语料库中选出的一个语料文件(语料类型:新闻,文件名:NEWS0060),基本格式为:{ { + } }。其中的句法成分标注格式为: [ + … ]

    1 [dj-ZW [np-DZ 香港/nS [np-DZ 基层/n 组织/n ] ] [vp-ZZ 积极/aD [vp-PO 推广/v 基本法/n ] ] ] 2 [dj-ZW [np-DZ [mp-DZ 一/m 批/qN ] 公务员/n ] [vp-PO 参加/v 讲习班/n ] ] 3 [pp-JB 据/p [np-DZ [sp-DZ 新华社/nO 香港/nS ] [np-DZ [tp-DZ [tp-DZ 3/m 月/qT ] [tp-DZ 14/m 日/qT ] ] 电/n ] ] ] 4 [zj-XX [fj-LS [dj-ZW [np-DZ 香港/nS [np-DZ [mp-DZ 各/rB 界/qN ] [np-DZ 基层/n 组织/n ] ] ] [vp-ZZ [pp-JB 通过/p [np-DZ [mp-DZ 多/m 种/qN ] 形式/n ] ] [vp-PO 推广/v 基本法/n ] ] ] ,/, [vp-ZZ [pp-JB 为/p [np-DZ 香港/nS 的/u [np-DZ 平稳/a 过渡/vN ] ] ] [vp-PO 开展/v [np-DZ 实际/a 工作/n ] ] ] ] 。/。 ] &5 [zj-XX [dj-ZW [np-DZ [np-LH [tp-BH “/“ [tp-DZ 香港/nS 的/u 明天/t ] ”/” ] 和/c [np-BH “/“ [np-DZ [vp-PO 稳定/v 香港/nS ] [np-DZ 新春/t 嘉年华/n ] ] ”/” ] ] [np-DZ [mp-DZ 两/m 项/qN ] [np-DZ [vp-PO 推广/v 基本法/n ] 的/u 活动/n ] ] ] [vp-ZZ 昨日/t [vp-ZZ 分别/d [vp-ZZ [pp-JB 在/p [sp-DZ 香港/nS [sp-LH 长洲/nS 、/、 荃湾/nS ] ] ] 举行/v ] ] ] ] 。/。 ] 6 [zj-XX [fj-LS [dj-ZW [np-DZ [dj-ZW [sp-DZ 香港/nS 离岛区/nS ] [vp-ZZ [pp-JB 在/p 长洲岛/nS ] 举办/v ] ] 的/u [np-DZ [tp-BH “/“ [tp-DZ 香港/nS 的/u 明天/t ] ”/” ] [np-DZ 大型/b 活动/n ] ] ] ,/, [vp-ZZ [dp-AD 深入浅出/iV 地/u ] [vp-PO 推广/v 基本法/n ] ] ] ,/, [vp-PO 组织/v [np-DZ [np-DZ 基本法/n 常识/n ] 问答/vN ] ] ,/, [vp-PO [vp-AD 吸引/v 了/u ] [np-DZ 众多/m 市民/n ] ] ] 。/。 ] 7 [zj-XX [fj-LS [dj-ZW [np-DZ [vp-PO 筹办/v [np-DZ [mp-DZ 这/rN 次/qV ] 活动/n ] ] 的/u 负责人/n ] 说/v ] ,/, [dj-ZW [vp-ZZ [pp-JB 在/p [tp-FW [tp-DZ 后/f 过渡期/n ] 内/f ] ] ,/, [vp-PO [vp-PO 让/vJY [np-DZ 香港/nS 居民/n ] ] [vp-LW [vp-PO [vp-LH 认识/v 、/、 了解/v ] 基本法/n ] ,/, [vp-LH [vp-PO 知/v 法/n ] [vp-PO 护/v 法/n ] ] ,/, [vp-ZZ [pp-JB 以/p [np-DZ 法治/n 精神/n ] ] [vp-PO 建设/v 香港/nS ] ] ] ] ] ,/, [vp-PO 是/vC [np-DZ [vp-PO 保持/vJY [dj-ZW 香港/nS [ap-LH 繁荣/a 稳定/a ] ] ] 的/u [np-DZ [mp-DZ 一/m 件/qN ] [np-DZ 大/a 事/n ] ] ] ] ] ] 。/。 ] 8 [zj-XX [fj-LS [dj-ZW [np-DZ [mp-DZ 这/rN 次/qV ] 活动/n ] [vp-ZZ 只/d [vp-PO 是/vC [np-DZ [mp-DZ 一/m 个/qN ] 序幕/n ] ] ] ] ,/, [dj-ZW 我们/rN [vp-ZZ 将/d [vp-PO 设立/v [np-DZ [mp-DZ 一/m 个/qN ] [np-DZ 常务/b 委员会/n ] ] ] ] ] ,/, [vp-LW [vp-LH [vp-PO 分/v 岛/n ] [vp-PO 分/v 区/n ] ] [vp-PO 进行/v [np-DZ 基本法/n [np-DZ 推介/vN 工作/n ] ] ] ] ,/, [vp-JY [vp-PO 使/vJY [np-DZ 离岛区/nS 居民/n ] ] [vp-PO [vp-LH [vp-ZZ 更/dD 熟悉/v ] [vp-ZZ 更/dD 了解/v ] ] 基本法/n ] ] ] 。/。 ] 9 [zj-XX [fj-LS [dj-ZW [np-DZ [vp-ZZ [pp-JB 由/p [np-DZ [np-DZ [vp-PO 稳定/v 香港/nS ] 协会/n ] [np-DZ [np-DZ 新界/nS 地区/n ] 委员会/n ] ] ] 举办/v ] 的/u

  • 33

    [np-DZ [np-BH “/“ [np-DZ [vp-PO 稳定/v 香港/nS ] 嘉年华/n ] ”/” ] 活动/n ] ] ,/, [vp-ZZ 着重/d [vp-ZZ [pp-JB 向/p 市民/n ] [vp-PO 宣传/v [np-DZ [vp-PO 稳定/v 香港/nS ] 的/u 重要性/n ] ] ] ] ] ,/, [vp-ZZ 也/d [vp-JY [vp-PO [vp-AD 吸引/vJY 了/u ] [np-DZ 众多/m [np-DZ 香港/nS 市民/n ] ] ] 参加/v ] ] ] 。/。 ] 10 [zj-XX [fj-LS [dj-ZW [np-DZ [np-LH [np-DZ [np-DZ [np-DZ [np-DZ [np-DZ 香港/nS 基本法/n ] 推介/vN ] [np-DZ 联席/b 会议/n ] ] 发起人/n ] 之一/rN ] 、/、 [np-DZ 香港 /nS [np-DZ [np-DZ [np-DZ 教育 /n 工作者 /n ] 联会 /n ] [np-DZ 副 /b 会长/n ] ] ] ] 程介南/nP ] [vp-JY [vp-PO 呼吁/vJY [np-DZ 香港/nS 市民/n ] ] [vp-ZZ 认真/aD [vp-PO 学习/v 基本法/n ] ] ] ] ,/, [vp-ZZ 积极/aD [vp-PO 参与/v [np-DZ [vp-PO 建设/v [tp-DZ 香港/nS 未来/t ] ] 的/u 工作/n ] ] ] ] 。/。 ] 11 [zj-XX [dj-ZW [np-DZ 香港/nS [np-DZ [mp-DZ [mbar-XX 40/m 多/m ] 名/qN ] 公务员/n ] ] [vp-PO [vp-AD 参加/v 了/u ] [np-DZ [vp-ZZ 昨天/t 举行/v ] 的/u [np-DZ 香港/nS [np-DZ [tp-DZ 1994/m 年/qT ] [np-DZ [np-LH 公务员/n 与/c 基本法/n ] [np-LH 讲习班/n 及/c 研讨会/n ] ] ] ] ] ] ] 。/。 ] 12 [zj-XX [dj-ZW [np-DZ [mp-DZ 这/rN 项/qN ] 活动/n ] [vp-ZZ [pp-JB 由/p [np-LH [np-DZ 香港/nS [np-DZ 公民/n 协会/n ] ] 、/、 [np-DZ 香港/nS [np-DZ 民主/n 协会/n ] ] 及/c [np-DZ 香港/nS [np-DZ [np-DZ 退休/vN 公务员/n ] 协会/n ] ] ] ] 主办/v ] ] 。/。 ] 13 [zj-XX [fj-LS [dj-ZW [np-AD [np-LH [np-DZ [np-DZ [np-DZ 香港/nS 工会/n ] 联合会/n ] [np-DZ [np-DZ 常务/b 委员/n ] 陈婉娴/nP ] ] 、/、 [np-DZ [np-DZ [np-DZ 港九/nR [np-DZ [np-DZ 劳工/n 社团/n ] 联会/n ] ] 秘书长/n ] 李启明/