首页 相关文章 Oracle9i的全文检索技术

Oracle9i的全文检索技术

  1 Oracle Text的体系架构

  下图是Oracle Text的体系架构。


图1 Oracle Text的体系架构

  以上面的体系架构图为基础,Oracle Text 索引文档时所使用的主要逻辑步骤如下:

  (1)数据存储逻辑搜索表的所有行,并读取列中的数据。通常,这只是列数据,但有些数据存储使用列数据作为文档数据的指针。例如,URL_DATASTORE 将列数据作为 URL 使用。

  (2)过滤器提取文档数据并将其转换为文本表示方式。存储二进制文档 (如 Word 或 Acrobat 文件) 时需要这样做。过滤器的输出不必是纯文本格式 -- 它可以是 XML 或 HTML 之类的文本格式。

  (3)分段器提取过滤器的输出信息,并将其转换为纯文本。包括 XML 和 HTML 在内的不同文本格式有不同的分段器。转换为纯文本涉及检测重要文档段标记、移去不可见的信息和文本重新格式化。

  (4)词法分...[ 查看全文 ]

2016-02-19 标签:

Oracle9i的全文检索技术的相关文章

手机页面
收藏网站 回到头部