圣诞节期间我终于有机会读到一些关于概率潜在语义及其在自动分类和索引中的应用的论文。 “潜在语义”背后的主要概念基于这样的假设:文本中紧密出现的单词与相同的语义结构相关。 圣诞节期间我终于有机会读到一些关于概率潜在语义及其在自动分类和索引中的应用的论文。 “潜在语义”背后的主要概念基于这样的假设:文本中紧密出现的单词与相同的语义结构相关。 基于这一原则,LSA(以及部分 PLSA)构建一个矩阵来跟踪文本中单词的共现,并考虑语料库中的分布为这些共现分配一个分数。 通常使用 TF-IDF 分数对单词进行排名。 不管怎样,我想知道这种技术是否也可以用于从文本中提取关键概念。
基本上我想在 LSA 中我们考
虑一些关于共现的统计数据,所以:为什么不考虑共现之间的联系呢?”。 所以我做了如下(注意这不是LSA的正式实现!): 像往常一样过滤并获取单词的基本形式。 构建共现 奥地利手机号码清单 的多维稀疏矩阵; 我计算了每个实例在语料库中找到它的频率; 我计算了每个实例在文档中找到它的频率; 我还考虑了共现之间的距离来对 TF-IDF 进行加权。 通过这种方式,我们能够对所有共现进行排名,并设置一个阈值来丢弃排名较低的项目。 在最后一步中,我构建了一个图表,将同时出现的情况联系起来。 正如您在以下示例中所看到的,图表最初非常复杂,为了细化结果,我根据图表中连接的组件的数量应用了过滤。
以下示例代表了网络社
会中的媒体一书前三章提取的概念,作者上找到 元 – 从“简介”章节中提取的概念(未过滤)。 元 – 从“简介”章节中提取的概念(未过滤)。 箭头有助于确定阅读“元概念”的 电话号码 MX 正确方向。当然,仍然需要付出一些努力来识别底层语义,但是在快速阅读原始来源之后,很容易说服自己这种表示方式与内容非常吻合。 以下是第一章的结果: 第一章未过滤的元概念 第一章的过滤元概念 而且,这是第二章: 第二章未过滤的元概念 第二章的过滤元概念 我确信这种粗略方法还有很大的改进空间,例如使用尊重通常 TF-IDF 的更复杂的方式分配共现的排名(例如使用基于中心性的度量,或考虑余弦距离。