微信公众号采集文章的几种方案

分享到:
点击次数:741 更新时间:2018年06月20日15:08:53 打印此页 关闭

微信公众号采集文章的几种方案

以下是涨粉吧为大家收集的几种微信公众号采集文章的几种方案,供大家参考!

方案一:基于搜狗入口

在网上能搜索到的公众号文章采集相关的信息来看来看,这是最多、最直接、也是最简单的一种方案。微信公众号如何涨粉

一般流程是:

· 搜狗微信搜索入口进行公众号搜索

· 选取公众号进入公众号历史文章列表

· 对文章内容进行解析入库

采集过于频繁的话,搜狗搜索和公众号历史文章列表访问都会出现验证码。直接采用一般的脚本采集是无法拿到验证码的。这里可以使用无头浏览器来进行访问,通过对接打码平台识别验证码。无头浏览器可采用selenium。

即便采用无头浏览器同样存在问题:公众号如何涨粉

· 效率低下(实际上就是在跑一个完整的浏览器来模拟人类操作)

· 网页资源浏览器加载难以控制,脚本对浏览器加载很难控制

· 验证码识别也无法做到100%,中途很可能会打断抓取流程

如果坚持使用搜狗入口并想进行完美采集的话只有增加代理IP。顺便说一句,公开免费的IP地址就别想了,非常不稳定,而且基本都被微信给封了。

除了面临搜狗/微信的反爬虫机制之外,采用此方案还有其他的缺点:

· 无法获得阅读数、点赞数等用于评估文章质量的关键信息

· 无法及时获得已经发布公众号文章,只能作定期的重复爬取

· 只能获得最近十条群发文章

方案二:对手机微信进行中间人攻击

中间人攻击本是某种黑客手法,用于截取客户端与服务端之间的通信信息。这种方案的思路是在手机微信和微信服务器之间搭建一个"HTTPS代理",用于截获手机微信获取的公众号文章信息。一般性步骤是:微信公众号涨粉

· 手机微信搜索一个公众号

· 点击进入公众号历史文章页面

· 代理识别已经进入列表页,进行内容截获,同时根据实际情况返回继续下拉或爬取新的公众号的js代码

这种方案能够实现自动化的原因是:

· 微信公众号使用的是HTTPS协议,且内容未加密

· 微信公众号文章列表和详情本质上是个Web页面,可以嵌入js代码进行控制

这种方案的优点:

· 一般情况下不会被屏蔽

· 能拿到点赞数和阅读数等文章评估信息

· 能拿到公众号全部的历史文章  公众号如何快速涨粉

当然,也存在很多缺点:

· 需要一个长期联网的实体手机

· 前期需要设置代理,工作量比较大

· 本质上还是个轮查的过程,而不是实时推送

· 同样有Web加载难以控制的风险,且本地网络环境对其影响非常大

· 存在着微信接口发生变更代码不再适应的情况

上一条:新媒体如何打造社群经济 下一条:微信小程序推广盈利变现