下载帮

您现在的位置是:首页 > 服务器 > SEO工具

SEO工具

火车头7.6版本无法采集HTPPS网址怎么办【附带解决方案】

2022-02-10 15:30SEO工具

目前有两种方式来解决,一种是按照c#插件,需要联系插件作者付费购买,绑定机器码,可以绑定3台电脑,第四台10元,第五台起20元。(我没有,也不建议购买,都用没钱买正版火车了还花钱买破解版的插件?)

另一种是运行一个http服务程序,免费。这里说的是第二种

下载并运行软件程序 locoy-https.exe,然后在采集网址时,网址前缀加上http://127.0.0.1:8000?url=即可。不支持https下的图片采集,解决方法简单:用正版火车采集图片上传到指定目录,在7.6版本规则内设置好对应路径即可。

火车头采集器无法采集HTPPS网址怎么办,笔者也是找了很多方法工具和插件,结果都不好用。

最后在知乎上找到这哥们写的方案,根据他的方案我做了一些细节的优化,软件也是别人写的,我搬运过来。

由于某些原因,目前使用量较多的还是2013年推出的火车头采集器7.6的版本。火车头7.6版本由于发布时间久远,虽然采集器大部分功能都还可以正常使用,但是现在很多网站都从之前的http协议切换到了https协议。加密性得到极大的提高,也导致火车头低版本无法抓取到数据,结果都为空。

当火车头7.6遇到新版的https协议时,经常无法完成网页请求而无法继续使用,比如部分TLS 1.3加密的网站,用火车头采集会直接请求不到数据,如图

那么针对这种由于https站点协议问题,是否有简单可用的方法来解决呢?

首先最优的方案当然是使用新版的火车头采集器V9版本了,当然某些功能需要付费才能使用,而且费用不菲。那么还有一些其他的办法吗?

答案也是有的,经过测试发现,火车头7.6版只是无法完成对这类网页的请求响应,但是如果能正常获取到网页数据,后面的数据处理都是可以使用的。所以我们需要解决的就是如何让火车头获取到这个源码。

我们可以在本地搭建一个简易http服务,用这个服务去请求源代码,然后用火车头请求这个简易http即可。原理就是给火车头和目标网页中间加了一层中转,从而解决火车头无法直接请求获取源代码的问题。

我把这个流程写成了一个软件,大家可以直接下载打开即可使用。

使用该软件的优缺点:

先说缺点

1,在采集数据时需要该软件保持运行,从而实现请求的中转

2,编写采集规则时,需要在网址前面添加简易http服务的前缀"127.0.0.1:8000?url=",当然这个在采集规则中可以很简单的通过内容替换功能来过滤掉

再说优点:

1,解决了火车头7.6版的部分https站点无法采集问题

2,可以通过修改源代码,在简易http请求中手动添加一些特殊header信息,这些功能在7.6版本中是没有的,但是在v9版本中存在。所以通过这个软件来实现一些v9版本中才存在的功能

使用说明

1,首先双击打开locoy-https.exe,使用时请勿关闭软件

2,制作采集规则,在起始网址处输入"127.0.0.1:8000/?url=url=你要采集的网址",其他部分跟正常规则定制是一样的,如果对火车头规则利用很流畅的人来说一般问题不大,但是对我这种半吊子水平来说,采集到的内容页地址还是HTTPS,无法抓取到内容层怎么办。

好办,我们直接通过测试采集地址,通过右侧二级地址导出,导出到桌面txt文件,然后我们做下链接替换,把原有https头前面加个127.0.0.1那一串,然后回到第一步,把批量采集改为单网址采集,每行一个地址,这样就能完美实现HTTPS地址采集了。

使用前后的效果对比

有人可能会问这样设置之后采集效率是否会变慢。一般来说,该软件启动的是本地http服务,火车头去请求这个本地http服务是很快的,所以不会有明显的影响,另外如果你经常使用的话,在使用火车头采集前,最好重启下这个小软件,不重启也可以,但是你要先打开一个测试的127地址,看下本地能不能访问,如果不能,在这个小软件里输入enter键就可以继续使用了。就一个唤醒的操作。

软件下载地址:https://github.com/beijiyouyu/locoy-https/raw/master/dist/locoy-https.exe

文章评论