精华区文章阅读

发信人: worldguy (稀里糊涂), 信区: P_cliff
标  题: 微软暑期研讨班第二天
发信站: 哈工大紫丁香 (Sun Jun  5 18:11:39 2005), 转信

今天的信息量非常大，我有点吃不消 :-)。三位大牛轮番介绍，煞是有趣。

第一位是黄伟道博士(Dr. Hwee Tou Ng)。黄博士是新加坡国立大学的教授，在信息抽取领域取得不菲成绩。今天他本人就在我们面前。第一印象是，黄博士是一位十分谦逊和蔼的年轻学者。他报告的题目是《Semantic Role Labeling》和《IE from Semi-Structed and Free Text》。由于是tutorial，他选择了4篇论文作为讲座的基本素材。他讲的语义角色标注(Semantic Role Labeling)，思路大概是先选用合适的语料(PropBank 2002/2004)，浅层语义分析(Shallow Parse)，全分析(Full Parse)，有指导的学习算法(Supervised Learning Approach)，特征选择等。介绍特征选择的，首先介绍了一些基本特征(Baseline Features)，然后又介绍了扩展特征(Additional Features)。接下来介绍一篇论文，是发表于IJCAI 2005的一篇论文。大概讲基于全分析的PropBank结果和SVM算法的发现Argument之间的关系(exploiting argument interdependence)。可惜后面的内容，我听懂的不多。以后会找这篇论文，仔细研读。黄博士第二个报告是关于Semi-Structure and Free Text的信息抽取问题。人工智能方方面的知识太少了，我听懂的不多。幸运的是，我回到了一个问题：Which is more helpful in IE, semi-structure or free text? 这是一个比较显然的问题，我马上抢答：In my personal option, semi-structure gives out more information due to the structure itself. Take the email for example. The header itself can tells us where the email comes from and to whom. 可能因为我用英语回答吧，感觉还算比较流利，黄博士送我一个小礼物。他还问我是叫什么名字。我同时告诉他我来自信息检索实验室，哈尔滨工业大学。

下午第一时段是Frank Seide的讲座。他是语音处理领域的专家，内容自然也是语音方面的信息抽取。各行不隔道，即使是语音方面的，我也喜欢听。。Frank的英语非常纯正。如果不是事先知道他是德国人，我肯定会以为他是英国人。他报告的题目是 Audio Information Extraction and Search。素闻德国人以严谨著称，今天算是管中窥豹了。他做的幻灯片非常仔细。便于讲解，他将选择的例子做了一些简化，再辅以适当的动画，使他的报告非常成功。我听得很起劲。报告的内容大致包括声学模型(acoustic model)，tone model，发音词典(pronunc dictionary)，语言模型(language model)。在讲word lattices时候，提到了噪声信道模型(Noisy Channel Model)的应用：构建DAG，然后寻找最优路径。这个和中文自动分词非常相像。后来有人问到求最优路径的一个问题，其实相当于分词中歧义词处理的问题。Frank解释说，他做了很多简化。在实际中，他使用的是trigram，而且每个节点是有一个三元组(如果是bigram，就是二元组)描述，每条边用语言模型的概率描述。依次来求解noisy channel model。相信这方面一定会给hp很大的启发。接下来，他介绍了在语音识别中处理未登录词(unknown words)的方法。他采用pnoneme对unknown words识别和检索。因为在语音识别阶段，还没有文本转换，不能得到自然语言处理的帮助。后来我问了一个问题："Is it a unique way for speech recognition with natural language processing?"。他解释到，也有其他的方法，比如利用音节检索，也能做到，但是不是太慢就是效果太差。看来语音-->文本-->自然语言处理-->文本-->语音仍是一个主流的方法。有点像analog signal->A/D->digital processing machine(computer)->D/A->analog singal。异曲同工。

最后时段由林钦佑博士(Dr. Chin-Yew Lin)介绍用信息抽取处理文档文摘的经验。实践比较短，有一部分关于文摘评测没有介绍。相信这部分对Bill Lang会有很到帮助。不知道他在MSRA会不会有机会听到林博士的报告。

今天收获不少。平时在实验室摸爬滚打的熏陶，还是非常有用的。今天的几个话题，我都能听懂50%以上。总的感觉，几位演讲者做的都是几乎世界领先的研究。他们的共同点有几个：
1) 准备好数据集(训练、测试等)和科学的评测方法，能够及时对新的想法进行评价;
2) 恰当的运用机器学习算法；
3) 以文本处理为主，即自然语言处理方法，不过都是英文；
4) 参加国际顶级会议；
我感觉要做好研究，应该注意这几点。现在国际化是趋势，国际主流是英文的处理。我们实验室也应该逐渐考虑处理英文，而不仅仅中文。Carl现在就是做英文的研究，去多不错的成绩——今天还被黄博士提及。

http://ir.hit.edu.cn/~victor/blog

--
  +--+--+--+--+--+--+--+--+--+--+
  |十|酒|八|七|六|五|四|三|二|一|
  |分|薄|分|分|欲|谷|季|餐|目|贯|
  |坦|烟|交|忍|不|皆|不|有|远|知|
  |荡|断|往|让|张|食|懒|节|眺|足|
  +--+--+--+--+--+--+--+--+--+--+

※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 202.118.250.16]

P_cliff 版 (精华区)