搜索引擎页面分析中的 javascript 处理

2016-02-19 22:18 5 1 收藏

每个人都希望每天都是开心的,不要因为一些琐事扰乱了心情还,闲暇的时间怎么打发,关注图老师可以让你学习更多的好东西,下面为大家推荐搜索引擎页面分析中的 javascript 处理,赶紧看过来吧!

【 tulaoshi.com - Web开发 】

  在制作搜索引擎的时候、或者做页面分析及数据提取的时候,经常面临页面中存在许多javascript,而页面内容,相当一部分写入到了这些js脚本的命令中,而导致正常的DOM分析失败,无法提取所需的信息。 当然,如果这个页面模板确定,针对这个页面制作信息提取模板也不很难,每个页面人工的分析出需要提取的信息的位置,然后制作模板。可是对于general的网页搜索的话,这就不大现实了。正巧前两天和朋友讨论到这个问题,有些想法。在这里,提供两个思路,供大家参考。 1、做一个简化的 javascript 解释器,执行脚本片段 做一个完整的 javascript 解释器是比较难得,但是做一个简化的 javascript 解释器则很容易。我们不需要那些复杂的库,我们只将基本的 javascript 语法实现,并且将涉及文字输出的函数部分实现就可以了。 这样做的目的并不是要真正的完整执行这个javascript,而是将脚本中的字符串,按照其程序逻辑进行组合,最后输出这个脚本的完整输出。这样自然不全面,肯定由于很多功能没实现,导致输出的字符串和真实的输出不完全一样。但是,如果不出意外,

  在制作搜索引擎的时候、或者做页面分析及数据提取的时候,经常面临页面中存在许多javascript,这些javascript 比较烦人,因为有相当部分页面内容写入到了这些js脚本的命令中,而导致正常的DOM分析看不到这些文字,而使其中的文字数据提取失败。

  当然,如果这个页面模板确定,针对这个特定的页面制作信息提取模板也不很难,每个页面人工的分析出需要提取的信息的位置,然后制作模板。可是对于general的网页搜索的话,这就不大现实了。正巧前两天和朋友讨论到这个问题,有些想法。在这里,提供两个思路,供大家参考。

  1、做一个简化的 javascript 解释器,执行脚本片段

(本文来源于图老师网站,更多请访问http://www.tulaoshi.com/webkaifa/)

  做一个完整的 javascript 解释器是比较难得,但是做一个简化的 javascript 解释器则很容易。我们不需要那些复杂的库,我们只将基本的 javascript 语法实现,并且将涉及文字输出的函数部分实现就可以了。

  这样做的目的并不是要真正的完整执行这个javascript,而是将脚本中的字符串,按照其程序逻辑进行组合,最后输出这个脚本的完整输出。这样自然不全面,肯定由于很多功能没实现,导致输出的字符串和真实的输出不完全一样。但是,如果不出意外,应该不会产生太多的遗漏。因为所有的字符串输出部分我们都实现了,那么完全可以将这些字符串按照其将要输出的逻辑组合在一起。

  对于根据动态条件做动态的事情的问题,如果这些条件无法确定,比如根据浏览器类型或者什么的。完全可以将两个分支的结果都输出。当然,我们不应该将这两块文字组合,中间应该有我们理解的分割符。

  这样做得好处是高性能。这个解释器可以做得很小巧,由于并非完整执行js,所以性能也较之迅速一些。缺点是由于是简化的解释器,因此和真实的结果会有差异。但是一般来说,信息只会多而不会少,(因为同时输出了不同分支的结果),所以,对于搜索引擎的页面分析来说,差不多是够用了。

  2、用HTML渲染引擎完整的解析页面,最后从显示结果中取数据

  采用Gecko (Firefox) 或者Trident (mshtml.dll) (IE) 这些用于浏览器的 HTML 渲染引擎来对页面进行完整的解析和渲染。最后对这些引擎的解析结果进行分析。

(本文来源于图老师网站,更多请访问http://www.tulaoshi.com/webkaifa/)

  这样做得好处是和显示结果最接近,因为他们是页面的真实解析结果。但是缺点是性能相对较差,因为是对页面的所有元素的完整解析,所以做了很多与提取文字信息无用的劳动,如果分析大数据量的页面的时候,需要权衡一下。

来源:http://www.tulaoshi.com/n/20160219/1628145.html

延伸阅读
标签: ASP
  使用ASP建设私人搜索引擎 很多网络爱好者在创建自己的个人主页时,都绞尽脑汁让自己网站的功能更全面。在此,笔者介绍一种使用ASP建立自己的搜索引擎的方法。 基本思路 利用表单将用户提交的搜索关键字存储在变量中,并提交给ASP脚本处理。利用ASP内建的“REQUEST”对象获取变量中的关键字符,随后用“RESPONSE”的“RED...
标签: 手机软件
打开UC浏览器,点击【搜索栏】 点击【搜索】标志 选择并点击自己喜欢的一个搜索引擎(以百度为例) 设置成功,以后默认搜索引擎就是度娘啦
标签: 浏览器
怎么在IE中设置默认搜索引擎?   在IE浏览器中,为了用户搜索更加方便,添加了设置搜索引擎的功能。 在IE浏览器窗口的右上角有搜索框,可以直接输入内容,浏览器在启动的时候会启动默认的搜索引擎,用户可以通过更改,来设置自己喜欢的搜索引擎。 在输入关键词后,可以单击搜索框右侧的下三角,弹出的菜单中有多种搜索引擎...
标签: PHP
编者按:这是一篇精彩的编程教学文章,不但详细地剖析了搜索引擎的原理,也提供了笔者自己对使用PHP编制搜索引擎的一些思路。整篇文章深入浅出,相信无论是高手还是菜鸟,都能从中得到不少的启发。 谈到网页搜索引擎时,大多数人都会想到雅虎。的确,雅虎开创了一个互联网络的搜索时代。然而,雅虎目前用于搜索网页的技...
标签: ASP
    不知你上网时注意到没有:一些内容丰富的网站,总建有一个内容搜索引擎;一些大型的商业网站或者综合网站,都配有强大的网站搜索引擎,比如搜狐、新浪、雅虎等等。其方便的搜索查询功能至今给人们留下难以磨灭的印象,你只要输入你想浏览资料的关键字(比如:网页),一按“搜索”按钮,关于“网页”的资料列表就呈现在...

经验教程

908

收藏

6
微博分享 QQ分享 QQ空间 手机页面 收藏网站 回到头部