精华区文章阅读

发信人: worldguy (稀里糊涂), 信区: P_cliff
标  题: 微软暑期研讨班第一天
发信站: 哈工大紫丁香 (Sun Jun  5 18:11:16 2005), 转信

今天是微软亚洲研究院和哈尔滨工业大学联合举办暑期研讨班的第一天。这次研讨班的主题是信息抽取。今天第一课是牛成博士的报告，介绍信息抽取的基础、理论和应用。

我没有接触过信息抽取，是个门外汉。总的来说，牛博士的报告非常棒。他由浅入深，娓娓道来信息抽取的应用背景，主要问题和目前主要的研究现状。他举了两个例子，介绍应用背景。一个是微软亚洲研究院的对应聘人员投的简历进行信息抽取的应用；另外一个...暂时想不起来了，以后再补充。信息抽取是从无结构的数据中抽取出内容，组织成有结构的数据。目前主要的技术思路是实体识别，关系抽取和事件抽取。他先用了很大的篇幅介绍了有指导的名实体识别(Supervised Named-Entity)，介绍了一种方法用二元模型(Bigram)和Hidden Markov Model(HMM)进行识别的方法。F-Score超过90%。还介绍了MUC和ACE的名实体识别的类别和评测指标。这些对先桃师姐来说，应该有非常大的帮助。

接下来还介绍了无指导的名实体识别(Unsupervised Named-Entity)。用Boosing算法实现NE的识别，准确率相当不错，最差的机构名实别也达到88%左右。不过找回率非常低。他介绍说，目前最高也就达到20%。不过研究学者用HMM进行提高找回率的实验。还不错，虽然和有指导相比还差不少。

听这两部分的报告，我了解到一点：有指导算法的研究主要是靠实力，需要深厚的数学基本功和优良的语料；无指导算法的研究目前还没有实用化，有较大的发展空间，需要好的思路(inspiration)。记得以前先桃师姐和海滨师兄介绍过用一些方法，大概用HMM训练和测试。今天进一步了解，用语言模型结合HMM可以这么深入地研究NE，而且还很有趣味。

牛博士还介绍了Support Vecctor Model(SVM)，同样是深入浅出、生动形象的介绍了来龙去脉。SVM的报告我也听过几个，这个是最清楚，最有趣味的报告。我对核函数也有了一点点了解。相信这些对于我今后进一步学习“机器学习”(Machine Learning)应该有非常大的帮助。

今天我没有争取到提问的机会，很是遗憾。我本身这方面知识太少了，有点底气不足。而且也想不出该问什么。不过我今天收获颇丰，至少了解了IE和部分ML的研究，这些回指导今后这方面的学习和研究。我也要尝试一下在IR中应用IE技术，看看能不能深入研究。
http://ir.hit.edu.cn/~victor/blog

--
  +--+--+--+--+--+--+--+--+--+--+
  |十|酒|八|七|六|五|四|三|二|一|
  |分|薄|分|分|欲|谷|季|餐|目|贯|
  |坦|烟|交|忍|不|皆|不|有|远|知|
  |荡|断|往|让|张|食|懒|节|眺|足|
  +--+--+--+--+--+--+--+--+--+--+

※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: 202.118.250.16]

P_cliff 版 (精华区)