关键词提取的经验如下:
1.TFIDF是一个非常强大的基础,具有很强的普适性。如果你没有太多的经验,你可以实现这个算法基本上可以应付大部分关键词的场景。
2.对于汉语来说,中文分词和词性标注的表现对于关键词提取的效果非常重要。
3.比较复杂的算法有一些问题,比如topicmodel,它的主要问题是提取的关键词一般过于宽泛,无法更好地反映文章的主题。这在我的博士论文中有专门的实验和讨论;textrank的实际应用效果并不比tfidf有明显的优势,而且由于涉及网络构建和随机行走的迭代算法,效率极低。这些复杂的算法集中在如何使用更丰富的文档外部和内部信息来提取他们想要解决的问题上。如果你有兴趣尝试更复杂的算法,我认为我们提出的基于SMT的模型(统计机器翻译)可以更好地考虑效率和效果。
4.以上是无监管算法,即没有预先标记的数据集。如果我们有一个预先标记的数据集,我们可以将关键字提取问题转换为监督分类问题。这在我博士论文的相关工作介绍中提到。在性能方面,使用监督模型的效果一般优于非监督模型,关键字提取也是如此。Web2.0时代的社会标签推荐问题是一个典型的监督关键字推荐问题,也是一个典型的多分类和多标签分类问题。有许多有效的算法可以使用。