批量保存网页信息

壮壮在一家医药零售单位工作,需要经常和本省的一些制药企业联系,但记录网页中众多联系地址的工作量是非常大的。以登录中国医药网(http://www.pharmnet.com.cn/cgi/company_search.cgi)为例,在“搜索企业”处输入“四川”,一共可以获得159家企业之多。

牐犗衷谖颐抢用网络数据库探索者来批量保存这些联系地址,就能大大减少重复劳动的工作量。

牐犗略氐刂罚篽ttp://www2.skycn.com/soft/14620.html

牐犚弧⒉檎乙趁婀媛

牐犜谑褂猛络数据库探索者前我们要摸清页面的规律,一般可以从两、三个所需页面的链接地址对比中找到规律。在“四川”的企业列表中进入第二、第三页,发现它们的地址分别为:http://www.pharmnet.com.cn/cgi/company_search.cgi?p=2&t=company&terms=四川&c=和http://www.pharmnet.com.cn/cgi/company_search.cgi?p=3&t=company&terms=四川&c=,可见地址变化的就是p的值,依此类推就可以得出p=4是第四页、p=5就是第五页……这里的p就是数据页的url关键字,其前面的地址部分http://www.pharmnet.com.cn/cgi/company_search.cgi?是url1,后面的&t=company&terms=四川&c=则是url2了。www.ITComputEr.cOM.CN

牐牰、设置规则

牐犌宄页面规律后还需要为要保存的网页信息建立一个规则。开启网络数据库探索者,在“文件”下点击“新建规则文件”打开“设置规则”窗口(图1)。首先设置“一级规则”,一级规则的内容就是类似制药企业列表这样的一级数据了。在“规则用途”方面是根据所要保存的页面数据大小来定,这里的各企业联系方法数据较小就勾选“提取一般数据”,接下来给规则输入一个名称并输入数据页的url1、url2和关键字。

牐犔崾荆喝绻没有url2就以空格代替;填写url关键字的时候要注意其大小写要和实际地址中的一致。

牐犚蛭在页面中我们只需要其中的列表部分,这里要设置一下列表部分的“起始关键字”,一般可以取列表上一行的固定文字,这里取用“共有159家企业”;“每页行数”则是从关键字开始一直到列表结束的行数,包括空格;“提取页数”就是列表的页数了,这里共有11页,就设置为“1到11”,“递增值”一般设置为1。

牐犖颐钦嬲所需的企业联系信息是列表中的各个企业的链接页面值,即二级数据,因此在设置完“一级规则”后勾选“二级规则”,进入“二级设置”选项卡,勾选“使用提取行数”,“二级链接的url范围”的选择可先在软件自带的浏览器中打开一个一级数据网页如http://www.pharmnet.com.cn/cgi/company_search.cgi?p=2&t=company&terms=四川&c=,然后按下“二级链接的url范围”后的小按钮,在弹出的窗口中定位好所需网页资料的序号(图2),若需要28~42之间的二级数据,则“二级链接的url范围”就是“28到42”;然后像设置“一级规则”一样设置好“二级数据页的起始关键字”和“提取行数”就可以“确定”保存规则了。

牐犔崾荆涸谘≡瘛笆褂锰崛⌒惺”和“使用结束关键字”时要注意,如果二级数据的行数固定就选“使用提取行数”选项,否则选“使用结束关键字”。

牐犎、批量提取数据

牐牴嬖蛏柚猛瓯戏祷厝砑主界面就可以提取所需要的网页信息了。在“规则”下选择刚才建立的规则文件“四川制药企业”,单击“提取”按钮就可以执行数据库的信息提取了。提取完毕,在“数据浏览”中可以查看到与一级数据相对应的二级数据即各制药企业的具体联系方法了。运行“文件→提取的数据另存为文本”就能保存所需要的网页信息了。

牐牨嗪螅耗承┩站提供的网页信息是以分页形式发布出来的,这样的网页具有一定的规律性且数据量大,要想保存这样的网页若依靠手工逐一操作,工作量太大。使用网络数据库探索者可以直接读取网站数据库来保存网页信息,能够有效减少重复劳动,减轻工作量。

 
批量转换中文文件名为拼音 在Windows 98的MS-DOS环境下,所有中文文件名的文件都无法正常识别。此时就有必要将这些文件的文件名转换为英文或是对应的汉语拼音。下面笔者就教大家一招如何在瞬间将多个中文文件名更改为其对应汉语拼音的方法。

牐牭谝徊剑合略匾豢蠲叫《拖把更名器》的软件,安装到系统中后,选择“扩展更名”选项卡,将“预设方案”设置为“汉字转换为拼音”选项。

牐牭诙步:单击菜单“文件→添加文件”并在打开的窗口中选择待转换文件名的文件。(可以一次选择多个文件)。

牐牭谌步:单击菜单“更名→应用”即可将所有添加进来的中文文件名转换成相对应的汉语拼音文件名了。

牐犠⒁猓喝绻在更名后还想再撤销,那你就得事先保存当前的操作记录,在需要撤销时,再导入操作记录并单击“撤销”按钮即可。保存操作记录的方法:单击“文件→导出当前文件列表”即可。