发信人: CSGraduate (计算机学院研分会), 信区: Computer
标 题: 图灵论坛:汉语动词次范畴化自动获取技术的研究
发信站: BBS 哈工大紫丁香站 (Thu Nov 17 19:27:21 2005)
题目:汉语动词次范畴化自动获取技术的研究
1、个人介绍(简要)
韩习武(1972-),男,山东日照人,机器智能与翻译研究室博士研究生,主要研究领域为
自然语言计算机处理、人工智能、机器学习。
2、导师介绍(简要)
赵铁军(1962-),男,哈尔滨人,博士,机器智能与翻译研究室教授,博士生导师,主要
研究领域为自然语言计算机处理、机器翻译、人工智能。
3、报告时间:2005年11月19日星期六下午2:00
4、报告地点:新技术楼618会议室
5、论坛内容摘要
摘要:
动词次范畴化信息反映了动词作谓词时所表现出来的不同句法特征的分布,是自然语言处
理进一步发展所不可或缺的知识。世界上很多语种在次范畴化信息自动获取的理论和实践
等方面都取得了很大的进展,而汉语中的相关研究还很薄弱。探索基于汉语自身语言特色
的动词次范畴化自动获取方法对于中文信息处理来说具有重要的理论研究意义和广阔的应
用前景。
对次范畴化信息的自动获取技术来说,最关键的两个问题是假设生成和假设检验。前者解
决如何利用已有自然语言处理工具和语言学规范从输入语料中为相关动词获取可能的次范
畴化信息;后者解决如何设计一种符合相关语言特点的统计检验方法,最大限度地过滤掉
第一步输出结果中的噪音。本文在国内外已有相关成果的基础上,充分考虑汉语的自身特
点,对这两个主要问题进行了深入研究。具体地讲,本文研究从如下几个方面展开:
1.借鉴相关研究,分析了汉语动词次范畴化的语言现象,给出了以句法模式为主的汉语次
范畴化信息的形式化描写规范,在内容和形式上基本保持了次范畴化规范与现有主要汉语
处理工具,以及国际同类研究之间的一致性,为汉语动词次范畴化信息的自动获取打下了
理论基础。
2.基于最大似然估计提出了一种动态估计最优经验阈值的汉语次范畴化类型假设检验方法
。该方法以假设类型出现频率的数学期望为观察量来动态估计用于最大似然假设检验的最
优阈值。并通过自动获取方法,以少量手工分析工作为补充,构建起了汉语动词次范畴化
基础类型集合和以次范畴化类型描述的句式转换集合,为大规模真实文本的汉语动词次范
畴化自动获取打下了物质基础。
3. 设计并完成了从大规模真实文本中自动获取汉语动词次范畴化信息的实验过程,实现了
一个自动构建汉语动词次范畴化词汇知识库的系统原型。性能评价表明,该系统已经达到
了国际上同类研究相应阶段的水平;基于任务的评价体现了次范畴化信息在中文信息处理
领域有着可观的潜在价值。
4. 研究了以动词分类知识和句式转换知识为回退启发信息的获取性能改进技术。动词分类
知识的回退实验揭示了汉语动词次范畴化的形式化描写规范同已有手工资源中动词概念描
述方式之间的潜在关系,在一定程度上改善了次范畴化自动获取的整体性能;在句式转换
知识的回退实验中提出了双重过滤的假设检验方法,该方法通过同一谓语动词的高频和低
频次范畴化假设类型之间可能存在的句式转换关系,比简单的最大似然估计方法更加充分
地利用了输入语料上的可观察信息,较为彻底地摆脱了其它检验方法中次范畴化类型与动
词之间的独立性假设和次范畴化类型之间的独立性假设所带来的负面影响,使得汉语动词
次范畴化自动获取研究取得了当前国内外同类研究的最好结果。
欢迎大家参加!
承办:计算机学院研分会
--
※ 来源:·哈工大紫丁香 http://bbs.hit.edu.cn·[FROM: 202.118.239.104]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:2.001毫秒