P_cliff 版 (精华区)
发信人: worldguy (稀里糊涂), 信区: P_cliff
标 题: 微软暑期研讨班第二天
发信站: 哈工大紫丁香 (Sun Jun 5 18:11:39 2005), 转信
今天的信息量非常大,我有点吃不消 :-)。三位大牛轮番介绍,煞是有趣。
第一位是黄伟道博士(Dr. Hwee Tou Ng)。黄博士是新加坡国立大学的教授,在信息抽取领域取得不菲成绩。今天他本人就在我们面前。第一印象是,黄博士是一位十分谦逊和蔼的年轻学者。他报告的题目是《Semantic Role Labeling》和《IE from Semi-Structed and Free Text》。由于是tutorial,他选择了4篇论文作为讲座的基本素材。他讲的语义角色标注(Semantic Role Labeling),思路大概是先选用合适的语料(PropBank 2002/2004),浅层语义分析(Shallow Parse),全分析(Full Parse),有指导的学习算法(Supervised Learning Approach),特征选择等。介绍特征选择的,首先介绍了一些基本特征(Baseline Features),然后又介绍了扩展特征(Additional Features)。接下来介绍一篇论文,是发表于IJCAI 2005的一篇论文。大概讲基于全分析的PropBank结果和SVM算法的发现Argument之间的关系(exploiting argument interdependence)。可惜后面的内容,我听懂的不多。以后会找这篇论文,仔细研读。黄博士第二个报告是关于Semi-Structure and Free Text的信息抽取问题。人工智能方方面的知识太少了,我听懂的不多。幸运的是,我回到了一个问题:Which is more helpful in IE, semi-structure or free text? 这是一个比较显然的问题,我马上抢答:In my personal option, semi-structure gives out more information due to the structure itself. Take the email for example. The header itself can tells us where the email comes from and to whom. 可能因为我用英语回答吧,感觉还算比较流利,黄博士送我一个小礼物。他还问我是叫什么名字。我同时告诉他我来自信息检索实验室,哈尔滨工业大学。
下午第一时段是Frank Seide的讲座。他是语音处理领域的专家,内容自然也是语音方面的信息抽取。各行不隔道,即使是语音方面的,我也喜欢听。。Frank的英语非常纯正。如果不是事先知道他是德国人,我肯定会以为他是英国人。他报告的题目是 Audio Information Extraction and Search。素闻德国人以严谨著称,今天算是管中窥豹了。他做的幻灯片非常仔细。便于讲解,他将选择的例子做了一些简化,再辅以适当的动画,使他的报告非常成功。我听得很起劲。报告的内容大致包括声学模型(acoustic model),tone model,发音词典(pronunc dictionary),语言模型(language model)。在讲word lattices时候,提到了噪声信道模型(Noisy Channel Model)的应用:构建DAG,然后寻找最优路径。这个和中文自动分词非常相像。后来有人问到求最优路径的一个问题,其实相当于分词中歧义词处理的问题。Frank解释说,他做了很多简化。在实际中,他使用的是trigram,而且每个节点是有一个三元组(如果是bigram,就是二元组)描述,每条边用语言模型的概率描述。依次来求解noisy channel model。相信这方面一定会给hp很大的启发。接下来,他介绍了在语音识别中处理未登录词(unknown words)的方法。他采用pnoneme对unknown words识别和检索。因为在语音识别阶段,还没有文本转换,不能得到自然语言处理的帮助。后来我问了一个问题:"Is it a unique way for speech recognition with natural language processing?"。他解释到,也有其他的方法,比如利用音节检索,也能做到,但是不是太慢就是效果太差。看来语音-->文本-->自然语言处理-->文本-->语音仍是一个主流的方法。有点像analog signal->A/D->digital processing machine(computer)->D/A->analog singal。异曲同工。
最后时段由林钦佑博士(Dr. Chin-Yew Lin)介绍用信息抽取处理文档文摘的经验。实践比较短,有一部分关于文摘评测没有介绍。相信这部分对Bill Lang会有很到帮助。不知道他在MSRA会不会有机会听到林博士的报告。
今天收获不少。平时在实验室摸爬滚打的熏陶,还是非常有用的。今天的几个话题,我都能听懂50%以上。总的感觉,几位演讲者做的都是几乎世界领先的研究。他们的共同点有几个:
1) 准备好数据集(训练、测试等)和科学的评测方法,能够及时对新的想法进行评价;
2) 恰当的运用机器学习算法;
3) 以文本处理为主,即自然语言处理方法,不过都是英文;
4) 参加国际顶级会议;
我感觉要做好研究,应该注意这几点。现在国际化是趋势,国际主流是英文的处理。我们实验室也应该逐渐考虑处理英文,而不仅仅中文。Carl现在就是做英文的研究,去多不错的成绩——今天还被黄博士提及。
http://ir.hit.edu.cn/~victor/blog
--
+--+--+--+--+--+--+--+--+--+--+
|十|酒|八|七|六|五|四|三|二|一|
|分|薄|分|分|欲|谷|季|餐|目|贯|
|坦|烟|交|忍|不|皆|不|有|远|知|
|荡|断|往|让|张|食|懒|节|眺|足|
+--+--+--+--+--+--+--+--+--+--+
※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 202.118.250.16]
Powered by KBS BBS 2.0 (http://dev.kcn.cn)
页面执行时间:3.325毫秒