精华区文章阅读

发信人: AA (积极的人生、美好的人生), 信区: Algorithm
标  题: 孙茅松谈中文信息处理(zz)
发信站: 哈工大紫丁香 (2002年05月23日19:55:38 星期四), 站内信件

孙茂松教授谈中文信息处理领域面临的机遇和挑战
本刊记者郭弘

---- 问：提起中文信息处理，人们想到最多的恐怕是中文之星、汉王手写识别等
系统，然而发展到今天，中文信息处理涉及的应用领域已远远不止这些了。首先，
您能否为我们介绍一下中文信息处理包括哪些应用领域？我国中文信息处理领域的
发展现状如何呢？

---- 答：概括地说，中文信息处理可分为字处理平台、词处理平台和句处理平台
这3个层次。字处理平台的研究与开发，包括汉字编码输入、汉字识别（手写体联
机识别与印刷体脱机识别）、汉字系统及文书处理软件等。应该说，这些在内核上
与词处理平台关联不多的技术，都已经比较成熟了，市场份额也大势已定（如五笔
字形、汉王、中文Word、中文之星、金山WPS、RichWin等），可继续生长的空间很
小。现在的关键是词处理以上平台的研究。

---- 词处理平台上最典型、最引人瞩目的应用领域是面向Internet的、文本不受
限的中文检索技术，包括通用搜索引擎、文本自动过滤（如对网上不健康内容或对
国家安全有危害内容的过滤）、文本自动分类（在数字图书馆中将得到应用）以及
个性化服务软件等。目前影响比较大的商品化中文通用搜索引擎有雅虎、搜狐、新
浪网等，但这些只用了基于字的全文检索技术，或者仅做了简单的分词处理，性能
还有待于提高。国内研究机构做得比较好的是北京大学的天网（http://pccms.
pku.edu.cn:8000/gbindex.htm），它用了中文分词和词性自动标注技术，但不足
之处在于覆盖能力有限，设计上也稍嫌粗糙。词平台上另一个重要应用是语音识别
。单纯依赖语音信号处理手段来大幅度提高识别的准确率，已经很难再有大的作为
了，必须要借助文本的后处理技术。现在最具代表的产品是IBM的中文ViaVioce，
微软中国研究院也有表现不俗且接近实用的系统。国内在做这方面工作的有清华大
学计算机系、电子系、中科院声学所和自动化所等，但从技术走向市场还有一段距
离。属于这个平台的其他应用还有文本自动校对、汉字简繁体自动转换等。

---- 句处理平台上的重要应用主要有两方面：一是机器翻译，虽然目前机器翻译
的质量还远远不能令人满意，但挂靠在Internet上，就找到了适当的舞台，无论对
中国人了解世界（英译汉），还是外国人了解中国（汉译英），都大有裨益，潜在
的市场十分可观。“金山快译”软件受到市场的欢迎，就是一个有说服力的旁证。
此外，雅信诚公司推出的针对专业翻译人员的英汉翻译辅助工具CAT，虽然没有采
用全自动翻译的策略，但定位及思路都非常好，不失为另一个有前途的发展方向。
句处理平台上另一方面的重要应用是汉语文语转换，不诉诸句法分析技术以获得句
子的韵律结构，要获得理想的自然度是不可能的。“金山词霸”里嵌入了英文文语
转换技术，相信用户将对这一功能有深刻的印象。

---- 总的说来，字平台研究已快成昨日黄花；句平台上的研究还很薄弱，离实用
还有一段距离；而词平台上的研究，难度较句平台容易，且经过十几年的努力，成
果也比较扎实，随着Internet的发展，已经到了厚积薄发的时候。

---- 问：如您所述，Internet为中文信息处理的研究提供了广阔的空间，那么，
您认为当前最具应用价值的中文信息处理技术有哪些？哪些是技术上相对成熟的、
短期内有应用可能性的技术？

---- 答：那些在Internet上能用并且好用的技术，其价值将越来越凸显出来。我
认为目前最具现实性和可能性的语言处理技术或者说本身研究相对成熟、潜在应用
最广泛的技术，非中文自动分词和词性自动标注系统莫属。所谓自动分词就是由计
算机在中文文本的词与词之间加上空格。它看似简单（它也的确是最低层次的语言
处理，相对句法分析、语义分析，难度要大大降低），但对于Internet上的中文文
本处理，却是极为关键的步骤。中文分词研究遇到了不少“拦路虎”，如切分歧义
处理、生词处理等，这些问题都亟待解决，而英文由于基本上没有分词问题，所以
英文搜索引擎的功效比汉语搜索引擎要好许多。

---- 与分词相配套的还有词性自动标注技术，也就是把句子中兼类词的词性根据
上下文惟一地确定下来。在搜索引擎中，虚词一般没有检索意义。英文的虚词（如
介词in、at）很容易被剔除，汉语却不敢这么随意，如“邓在军”、“于在河”中
的“在”“于”显然就不能丢掉。如果中文文本做了分词和词性标注，后续的处理
技术其实都可以从英文处理技术中照搬过来，所以这两项技术是最基本也是最关键
的。国内这方面的相关研究已进行了十几年，清华大学计算机系、北京大学计算语
言学研究所和山西大学计算机系等都有接近实用的实验系统。

---- 其他深层次的语言处理技术，如名词短语捆绑、句法分析、语义分析等，用
于Internet范围内的非受限领域，我认为短期内还没有成熟的应用。当然，这些比
较高端的技术针对某些特定任务（如词汇量受到限制的电话语音查询），能够起到
不可或缺的作用。

---- 问：有人曾说中文处理是外国厂商不易进入的、最易形成我国技术壁垒的领
域，然而我们看到，Microsoft、IBM等公司纷纷在中国建立研究院和研究中心，并
把中文信息处理作为其重要的研究方向之一。您认为面对这种情况，我们应该怎么
做才能保住自己在这一领域已有的优势呢？

---- 答：应该说，如果现在还有人讲什么“壁垒”，那是自欺欺人。科学无国界
，语言研究也没有国界。过去中国IT市场小，人家可能根本就没打算攻城略地，我
们自然可以自诩为所谓的“壁垒”。而现在国内IT市场的发展前景已经引起了外国
厂商的关注，情况就有所不同了。我们不妨分析一下，在人才方面，外国厂商与国
内企业相比只强不弱，在组织结构、资源配置方面比国内合理，在公司内部的资源
共享方面比国内做得完善，在资金、市场上的优势就更不用提了。至于技术方面，
只能说我们在中文信息处理领域比人家早做了几年，多一点Know-How，但总的来说
，危机感是相当严重的。

---- 我认为，在这种情况下，政府应持续加强对这一研究领域的投入。中文信息
处理一直得到了国家自然科学基金的资助，但渠道比较单一，强度也偏弱。研究经
费不足迫使我们不得不把一些技术或资源转让给跨国公司，多少有点“饮鸩止渴”
的味道。最近情况有较大改善，中文信息处理得到了国家重点基础研究发展规划的
支持，资助强度上了一个数量级，但还不够。对我们目前尚掌握一定技术优势的方
向，如中文自动分词，一定要集中力量，在局部上形成拳头，以点带面撕开突破口
。此外，还应组织好跨领域、跨单位的互补型强强联合，设法建立得心应手的研究
团队，靠事业、待遇、感情稳住骨干人才。

---- 问：请您介绍一下目前中文信息处理领域国际上的热点及最新研究动态如何
?有哪些发展趋势？

---- 答：中文信息处理最新的热点问题与国际上自然语言处理的热点问题基本一
致。当前的热点并且可以预期在今后几年会持续升温的研究领域主要有4个。第一
个是面向Internet的文本信息检索、过滤、分类、摘要等领域。目前国外已经研制
出了以自然语言为查询接口的Internet搜索引擎，用户不必键入关键词，而是简单
地敲一句话即可作为查询的命令。有代表性的系统如AskJeevs（http://www.ask.
com），虽然目前它的效果并不算好，但是基于自然语言接口的搜索引擎无疑是一
个非常正确的方向。此外，文本信息与音频、图像、视频等多媒体信息相结合，共
同作用以完成搜索任务是一个不可忽视的发展动态。文本过滤、个性化服务等技术
在国家安全方面也大有用武之地。虽然Internet上的网站都是公开的，孤立地看似
乎没有什么情报价值，但系统性地搜集起来，形成整体再加以分析，就会产生出乎
意料的军用或商用价值。

---- 第二个领域是Internet环境下的机器翻译系统。最新趋势是基于实例的方法
与基于规则的方法融为一体。美欧以前主要做英、日、德、法、俄语之间的翻译，
而现在美国国防部开始支持汉英翻译的项目。可见，机器翻译无论在民用还是在军
用领域都是很重要的。

---- 第三个领域是语音识别。西方普遍认为，语言识别将形成很大的市场。例如
,今后手机会越做越小，以至于无法按键；Internet会进入汽车，用户可以一边驾
车一边通过语音上网；民航无人值守电话查询等专用系统等也有望问世。

---- 第四个领域是大规模的文本挖掘，不可避免地要用到自然语言处理技术。中
文信息处理必须做好准备，迎接来自这4个领域的挑战。

---- 此外，围绕上述领域的配套资源建设也正在世界各地紧锣密鼓地展开。比如
，语音识别系统之所以能够从实验室走向初步的实用，就是因为最终利用了经过初
级加工的大规模语料库来训练统计模型。Microsoft的拼音输入法也是类似的做法
。所以当务之急是系统地建设针对大规模真实文本的语言资源库，即经过多级深层
次加工的语料库以及语法库、语义库等。这些基础的东西做得不扎实，中文信息处
理就很难上一个大台阶。

---- 还有一点需要强调指出的是语义研究，包括静态的语义分类体系以及动态的
动词论旨结构体系、形名约束、名名约束等，将是今后几年中文信息处理学界所普
遍关心的研究重点。它涉及了一系列理论问题，是一项很大的工程。国际上在语言
计算中运用得最为广泛的语义系统当推美国的WordNet，另外Microsoft有MindNet,
欧洲也参照WordNet构建了面向欧洲主要语言的EuroWordNet。国内有影响的语义
系统是董振东先生的“知网”（HowNet），规模相当可观，即使与国外流行的语义
系统相比，也颇具特色，并且只要是用于学术研究而不是用于商业开发，就可以免
费下载（http://www.how-net.com）。

---- 问：您觉得在中文信息处理的研究方面我们应该注意些什么?

---- 答：中文信息处理主要是计算机科学与语言学的交叉，所以在研究过程中要
强调这两个学科之间的交流与实质性合作。目前全国人大副委员长许嘉璐教授主管
的国家社科研究“九五”规划重大项目“信息处理用现代汉语词汇研究”，集中了
国内一大批语言学和计算语言学方面的专家学者，协力进行汉语词平台以上的一系
列基础性研究，内容包括汉语词汇、分词、词性标注、语料库、语义库、短语分析
等。这样的合作方式和研发队伍都是难能可贵的。

---- 此外，我认为做基础研究一定不要忘记市场，尤其是要考虑两三年以后的市
场。基础研究的前瞻性应能保证技术上的先进性。另一方面，语言计算是很复杂的
，比如说用于机器翻译的分词和用于信息检索的分词，其要求可能是很不相同的。
与应用挂钩、与企业和市场捆绑，研究就可以最大程度地避免“无的放矢”，研
究思路与技术路线也会更加明确，一旦加以应用，就会从市场得到回报，形成良性
循环。而这些恰恰是以前搞中文信息处理研究的学者重视不够的。

--
                人世间的事谁也无法掌握
                  该执著的  永不怨悔
                  改舍去的  不在牵挂
                  改珍惜的  好好把握

※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: NLPCenter.hit.edu.cn]

Algorithm 版 (精华区)