巧用WORD导出干净的网页文本

2016-01-29 17:48 25 1 收藏

巧用WORD导出干净的网页文本,巧用WORD导出干净的网页文本

【 tulaoshi.com - 办公软件 】

平常爱逛一些音乐坛子,遇到好听的音乐必下之而后快,而且有些帖子附有歌词、介绍,当然也不能放过,将其复制存成文本更方便了我们这些爱好者日后的收藏、练唱。不过最近却发现有的坛子里的网页文字不是那么好保存了。

(本文来源于图老师网站,更多请访问http://www.tulaoshi.com/bangongruanjian/)

过去见到需要的网页内容,只需点击浏览器的“文件”-》“另存为”命令并选“文本类型”项即可得到想要的文字,但现在有些坛子似乎并不希望访客那么容易的得到它帖子里的文字内容,虽然浏览时并无任何异常,但当将其存成文本文件时就会发现文件里除了你想要的文字外还多了许多不相干的乱码文字(见图一),导致我们无法正常查看和编辑这些文件的内容了。这到底是怎么回事呢?


分析原因

先将想要的内容存为网页文件(HTML格式),通过查看其源代码便会发现其中的奥秘(见图二)。在帖子每行的文字中间都被加入了一大段的干扰文字,其内容甚至含有低值ASCII码(就是通常指的控制字符)且每段的干扰文字内容也都不尽相同,它们就是我们在导出文本时所看到的那些不相干文字。显然这种处理不是由发贴人所做的,而是由坛子的管理者有意为之的结果。


但是在我们浏览网页时为什么没有看到这些干扰文字呢?看看这些文字前面的HTML语言代码就明白了。经过分析发现,干扰文字被用了两种方式加到了这些网页中:<SPAN和<FONT。代码<SPAN STYLE=“DISPLAY:NONE”。。。</SPAN中的STYLE语法表明这段文字在浏览时不会被显示出来;而代码<FONT STYLE=“FONT-SIZE:0PX;COLOR:#F8F8F8”。。。</FONT中的两语法更限定了它所包含的文字在浏览时显示为0字号、浅色。这也就是我们在网页上看不到而在存为文本时却能发现这些干扰文字的原因了。

问题的解决

要消除这些干扰文字并还原得到我们想要的文字的文本内容,一般都会想到使用各类编辑软件的查找替换功能来实现,而事实并不那么简单。由于这些干扰文字里含有控制字符和回车换行符,就使得许多不支持低值ASCII码操作和多行替换处理的编辑软件只能望之兴叹了。经过笔者的多次测试,最后发现用最常见的WINWORD软件来处理才是最好的选择。

操作步骤如下:[next]

1. 浏览时先将网页内容存为HTML页面格式:点击浏览器“文件”-》“另存为”命令并选“仅HTML页面”项;

2. 用系统自带的记事本软件打开该网页文件:点击“文件”-》“打开”命令并在文件名处输入先前保存好的网页文件全称(带扩展名如ABCD.HTM);

(本文来源于图老师网站,更多请访问http://www.tulaoshi.com/bangongruanjian/)

3. 这时你在记事本中看到的是文件的全部源代码,选“编辑”-》“全选”和“复制”命令,接着新建一空白WORD文件并选“编辑”-》“粘贴”命令,将所有源代码转移到WORD文件中;

4. 在WORD程序中点击“编辑”-》“替换”命令进行处理。首先选中“使用通配符”选项,根据前面的分析结果在查找栏处输入要查找的文字并执行替换命令(见图三)。


它们分别是:

<SPAN STYLE=“DISPLAY:NONE”*</SPAN

及<FONT STYLE=“FONT-SIZE:0PX;COLOR:#F8F8F8”*</FONT

其中替换栏处为空,目的是将所涉及文字全部去除。

5. 执行完上述替换命令后,点击“文件”-》“另存为”命令将处理后的文字保存为新的网页文件。注意:保存时“保存类型”处不要选“WEB页”项而选“带换行符的纯文本”项,且“文件名称”处应填入带指定扩展名的名字,如“EFGH.HTM”;

6. 双击打开新保存的网页文件,点击“文件”-》“另存为”命令并选“文本文件”项。最后得到的新文件就是去除了干扰文字后干净的文本内容了(如图四);


提示

不同的网站会加入不同的干扰文字,但其原理大多是一样的,通常都是通过<SPAN、<FONT等HTML语言代

来源:http://www.tulaoshi.com/n/20160129/1503010.html

延伸阅读
标签: Web开发
语法: word-wrap : normal | break-word 取值: normal :? 默认值。允许内容顶开指定的容器边界 break-word :? 内容将在边界内换行。如果需要,词内换行( word-break )也将发生 说明: 设置或检索当当前行超过指定容器的边界时是否断开转行。 此属性仅作用于有布局的对象,如块对象。内联要素要使用该属性,必须先设定对象的 h...
标签: 软件教程
MindManager 15与office系列软件有着很好的兼容性,可以将制作好的思维导图导出为PPT、word格式,其中Word文档是最常用的文本格式,也是MindManager最常用的输出格式,那MindManager怎么导出PPT、Word文件呢?和小编一起来看看具体方法吧! MindManager导出PPT文档 步骤一 打开MindManager 15思维导图软件,制作好导图。 步骤...
Oracle数据直接导出到文本文件的方法 利用Oracle中的Spool缓冲池技术可以实现Oracle数据导出到文本文件。 1)、在Oracle PL/SQL中输入缓冲开始命令,并指定输出的文件名: spool d:output.txt 2)、在命令行中随便输入你的SQL查询: select mobile from customer; select mobile from client; …… 3)、在命令行中输入缓冲结果命令: spool
标签: 电脑入门
[方法一] 第一步:打开要编辑的文本。 第二步:拖动鼠标或使用键盘选定要改变字体的文本。 第三步:单击格式工具栏上字体框右边的下拉箭头,打开字体下拉列表。第四步:在字体下拉列表中单击黑体,则所选文本变成黑体。 此外,格式工具栏上还有字号框和粗体、斜体、下划线、字符边框、字符底纹、字符缩放等按钮,通过它们可改变所选文本的 ...
标签: 办公软件
很多文章对使用Word进行图片简单加工的方法做过介绍,其实它能做的还远不止这些,我们还可以使用Word将图片裁剪成任意形状,比如飘扬的旗帜、天空中的云朵等。 首先执行“视图→工具栏→绘图”命令,将绘图工具栏打开,然后从“自选图形”中选择一个你喜欢的形状,比如“星与旗帜”中的“爆炸形1”;然后在工作区按下鼠标左键,释...