关于知网-中文信息结构库
董振东 董强
《知网-中文信息结构库》的研究与建设,是《知网》这一知识系统向中文研究延伸的具体体现。现在我们公布的中文信息结构库包含268种信息结构模式,附带着一万多实例,总字数六万余。就其规模而言它还只能算是一个雏形,但就其所包含的模式而言应该说已趋于成熟。中文信息结构库将是中文信息处理的重要的甚至是不可或缺的资源之一。它也被我们称为袖珍型经典语料库,这是因为它的素材来源于实际语料,而另一方面又是经过人工精心筛选整理的,它覆盖面宽但又能避免统计价值不高的重复。下面我们将对《知网-中文信息结构库》做出说明。
信息结构的描述对象
本库的基础是《知网》。本库的信息结构的描述对象是:由中文词语所表述的、由《知网》所规定的最基本的运算单元,它们是:万物、部件、属性、属性值、事件、时间和空间等。本库的信息结构的描述内容是:中文词语的各个组成部分之间的、由《知网》所规定的动态角色关系或属性。通过对信息结构的揭示,我们可以认识到中文是如何描述诸如万物、部件、属性等等概念的,或如何由简及繁地表达意义的。由此本库也将揭示中文的语言结构的规律。
本库现有规模
现在我们公布的中文信息结构库包含:
A. 信息结构模式:271个
B. 句法分布式:49个
C. 句法结构式:58个
D. 实例:11,000词语
E. 总字数:中文60,000字
说明
| N | 名词 | NUM | 数词 | CLAS | 量词 |
| V | 动词 | PREP | 介词 | CLASP | 数量短语 |
| A | 形容词 | PREFIX | 前缀 | ||
| ADV | 副词 | SUFFIX | 后缀 |
(b)义元标记:
诸如"万物"、"事件"、"属性"、"属性值"等均来源于《知网》,这里不必赘述。
(c)动态角色和属性标记:
诸如"施事"、"经验者"、"时间"、"限定"、"发端"等均来源于《知网》,除此而外,还有几个新增的,如:"合成"、"紧缩并列"等,它们意义明显,不必赘述。
(d)其他标识符:
(1)():其中放置义元标记如:(人,家) [修饰] <--
(人,专/专/姓);在Query中
表示"或"。
(2){}:其中放置有多重套叠关系的词语或义元标记;
如:{N <-- V} <-- N{(万物/属性) [受事/成品受事/范围/内容/对象/领属物]
<-- (事件,行动)} <-- [施事] (人/组织/部件,%组织)
(3)[]:其中放置动态角色和属性标记;如:(人,家) [修饰]
<-- (人,专/专/姓)
(4)<>:
其中放置义元标记,这些义元标记仅出现于信息结构中,它们没有相对应的词语;如:{(事情)
[受事]<-- <事件,行动,从事>}<-- [场所] (设施/组织)
(5)<-- 和 -->:在句法结构和信息结构模式中应用,表示词语和义元之间的管辖关系。标记的箭头端指向的是"受辖者(governed)",后端指向的是"管辖者(governor)"。如:(人,家)
[修饰] <-- (人,专/专/姓)
(6)/ :表示"或", 如:(人,专/专/姓);
(7), (英文逗号):表示"且", 如:(人,家);
(8) ,(中文逗号):用以间隔例子,如:夫-妇,母-女,母-子,
(9)-:用以间隔词语的各组成部分,如:猎-人,行-人,境外-毒品-走私-犯,
(10)"":表示特定的词语而不是义元,如:("嫌"/"员"/"局"/"队"/"处");在Answer中表示作答时要添加的词语,而不是可以从句法结构中直接得到的。
(11)+: 用于句法结构中或Answer中,表示"和";
(12)词性N、V等后面的1、2、3等:表示句法结构中出现的多个N或V等的顺序;
鸣谢
知网-中文信息结构的理论研究开始于1996年。1998年后曾得到国家语委97@YY001课题的支持,在词汇的内部结构方面进行较深入的探讨。1999年开始得到香港大学教育资助委员会基金项目HKUST6149的支持,开展了中文信息结构库的全面建设。在中文信息结构模式方面,有香港科技大学的颜国伟博士和汪炳蔚先生以及南洋理工大学的谭慧敏博士的积极参与。他们的大规模真实语料的标注工作为信息结构库的检验、发现和补充做出了重要贡献。加拿大学者Dekang Lin博士曾给我们寄来他从大规模真实语料中抽取的词语表,为信息结构库的建设提供了可贵的原始数据。我们对上述各单位和学者表示由衷的感谢。
参考文献
(我们下面只列出在我们建设《知网-中文信息结构库》时,主要的、不可或缺的参考文献,而略去了在我们十余年研究过程中曾经参考和学习过的其他许多参考书。)
[1]
现代汉语词典(修订本),中国社科院语言研究所词典编辑室,商务印书馆,1996
[2]
现代汉语通用字典,中国人民大学语言文字研究所,外语教学与研究出版社,1987
[3]
现代汉语语法信息词典详解,俞士汶等,清华大学出版社,1998
[4]
汉语常用词搭配词典,杨天戈等,外语教学与研究出版社,1990
[5]
汉语常用动词搭配词典,王砚农等,外语教学与研究出版社,1984
[6] 形容词用法词典,郑怀德等,湖南出版社,1991
[7]
常用量词词典,台湾中央研究院词库小组等,国语日报社,1996
[8] 复合词词素间的意义结构关系,周荐,天津大学,
[9] 汉语语义学,贾彦德,北京大学出版社,1999
[10] 词汇语义和计算语言学,林杏光,语文出版社,1999
[11]
汉语计量与计算研究,邹家彦,香港城市大学语言资讯科学研究中心,1998
| Copyright © 1999 - 2003 KEENAGE.com, Dong Zhendong & Dong Qiang. All Rights Reserved |
| 电子邮件:support@keenage.com |
| 联系电话:010-62348234 |