A. 如何用 php 抓取微信文章正文
一、 页面使用ajax
具体的WdatePicker.js可以在网上找一个。
资料来自:http://www.cnblogs.com/xiaonannan/p/6836494.html
B. 如何利用爬虫爬微信公众号的内容
过程很繁琐,步骤如下:
1、写按键精灵脚本,在手机上自动点击公号文章列表页,也就是“查看历史消息”;
2、使用fiddler代理劫持手机端的访问,将网址转发到本地用php写的网页;
3、在php网页上将接收到的网址备份到数据库;
4、用python从数据库取出网址,然后进行正常的爬取。
如果只是想爬取文章内容,似乎并没有访问频率限制,但如果想抓取阅读数、点赞数,超过一定频率后,返回就会变为空值,我设定的时间间隔为10秒,可以正常抓取,这种频率下,一个小时只能抓取360条,已经没什么实际意义了。
微信公众号数据储存
1、腾讯不对你在本服务中相关数据的删除或储存失败负责。
2、腾讯有权根据实际情况自行决定单个用户在本服务中数据的最长储存期限,并在服务器上为其分配数据最大存储空间等。你可根据自己的需要自行备份本服务中的相关数据。
3、如果你停止使用本服务或服务被终止或取消,腾讯可以从服务器上永久地删除你的数据。服务停止、终止或取消后,腾讯没有义务向你返还任何数据。
C. python怎么抓取微信阅
抓取微信公众号的文章
一.思路分析
目前所知晓的能够抓取的方法有:
1、微信APP中微信公众号文章链接的直接抓取(http://mp.weixin.qq.com/s?__biz=MjM5MzU4ODk2MA==&mid=2735446906&idx=1&sn=&scene=0#rd)
2、通过微信合作方搜狗搜索引擎(http://weixin.sogou.com/),发送相应请求来间接抓取
第1种方法中,这种链接不太好获取,而且他的规律不是特别清晰。
因此本文采用的是方法2—-通过给 weixin.sogou.com 发送即时请求来实时解析抓取数据并保存到本地。
二.爬取过程
1、首先在搜狗的微信搜索页面测试一下,这样能够让我们的思路更加清晰
在搜索引擎上使用微信公众号英文名进行“搜公众号”操作(因为公众号英文名是公众号唯一的,而中文名可能会有重复,同时公众号名字一定要完全正确,不然可能搜到很多东西,这样我们可以减少数据的筛选工作,只要找到这个唯一英文名对应的那条数据即可),即发送请求到'http://weixin.sogou.com/weixin?type=1&query=%s&ie=utf8&_sug_=n&_sug_type_= ' % 'python',并从页面中解析出搜索结果公众号对应的主页跳转链接。
2.获取主页入口内容
使用request , urllib,urllib2,或者直接使用webdriver+phantomjs等都可以
这里使用的是request.get()的方法获取入口网页内容
[python]view plain
#爬虫伪装头部设置
self.headers={'User-Agent':'Mozilla/5.0(WindowsNT6.3;WOW64;rv:51.0)Gecko/20100101Firefox/51.0'}
#设置操作超时时长
self.timeout=5
#爬虫模拟在一个request.session中完成
self.s=requests.Session()
[python]view plain
#搜索入口地址,以公众为关键字搜索该公众号
defget_search_result_by_keywords(self):
self.log('搜索地址为:%s'%self.sogou_search_url)
returnself.s.get(self.sogou_search_url,headers=self.headers,timeout=self.timeout).content
3.获取公众号地址
从获取到的网页内容中,得到公众号主页地址, 这一步骤有很多方法, beautifulsoup、webdriver,直接使用正则,pyquery等都可以
这里使用的是pyquery的方法来查找公众号主页入口地址
[python]view plain
#获得公众号主页地址
defget_wx_url_by_sougou_search_html(self,sougou_search_html):
doc=pq(sougou_search_html)
#printdoc('p[class="tit"]')('a').attr('href')
#printdoc('div[class=img-box]')('a').attr('href')
#通过pyquery的方式处理网页内容,类似用beautifulsoup,但是pyquery和jQuery的方法类似,找到公众号主页地址
returndoc('div[class=txt-box]')('p[class=tit]')('a').attr('href')
4.获取公众号主页的文章列表
首先需要加载公众号主页,这里用的是phantomjs+webdriver, 因为这个主页的内容需要JS 渲染加载,采用之前的方法只能获得静态的网页内容
[python]view plain
#使用webdriver加载公众号主页内容,主要是js渲染的部分
defget_selenium_js_html(self,url):
browser=webdriver.PhantomJS()
browser.get(url)
time.sleep(3)
#执行js得到整个页面内容
html=browser.execute_script("returndocument.documentElement.outerHTML")
returnhtml
得到主页内容之后,获取文章列表,这个文章列表中有我们需要的内容
[python]view plain
#获取公众号文章内容
defparse_wx_articles_by_html(self,selenium_html):
doc=pq(selenium_html)
print'开始查找内容msg'
returndoc('div[class="weui_media_boxappmsg"]')
#有的公众号仅仅有10篇文章,有的可能多一点
#returndoc('div[class="weui_msg_card"]')#公众号只有10篇文章文章的
5.解析每一个文章列表,获取我们需要的信息
6.处理对应的内容
包括文章名字,地址,简介,发表时间等
7.保存文章内容
以html的格式保存到本地
同时将上一步骤的内容保存成excel 的格式
8.保存json数据
这样,每一步拆分完,爬取公众号的文章就不是特别难了。
三、源码
第一版源码如下:
[python]view plain
#!/usr/bin/python
#coding:utf-8
importsys
reload(sys)
sys.setdefaultencoding('utf-8')
fromurllibimportquote
frompyqueryimportPyQueryaspq
fromseleniumimportwebdriver
importrequests
importtime
importre
importjson
importos
classweixin_spider:
def__init__(self,kw):
'构造函数'
self.kw=kw
#搜狐微信搜索链接
#self.sogou_search_url='http://weixin.sogou.com/weixin?type=1&query=%s&ie=utf8&_sug_=n&_sug_type_='%quote(self.kw)
self.sogou_search_url='http://weixin.sogou.com/weixin?type=1&query=%s&ie=utf8&s_from=input&_sug_=n&_sug_type_='%quote(self.kw)
#爬虫伪装
self.headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0;WOW64;rv:47.0)Gecko/20100101FirePHP/0refox/47.0FirePHP/0.7.4.1'}
#操作超时时长
self.timeout=5
self.s=requests.Session()
defget_search_result_by_kw(self):
self.log('搜索地址为:%s'%self.sogou_search_url)
returnself.s.get(self.sogou_search_url,headers=self.headers,timeout=self.timeout).content
defget_wx_url_by_sougou_search_html(self,sougou_search_html):
'根据返回sougou_search_html,从中获取公众号主页链接'
doc=pq(sougou_search_html)
#printdoc('p[class="tit"]')('a').attr('href')
#printdoc('div[class=img-box]')('a').attr('href')
#通过pyquery的方式处理网页内容,类似用beautifulsoup,但是pyquery和jQuery的方法类似,找到公众号主页地址
returndoc('div[class=txt-box]')('p[class=tit]')('a').attr('href')
defget_selenium_js_html(self,wx_url):
'执行js渲染内容,并返回渲染后的html内容'
browser=webdriver.PhantomJS()
browser.get(wx_url)
time.sleep(3)
#执行js得到整个dom
html=browser.execute_script("returndocument.documentElement.outerHTML")
returnhtml
defparse_wx_articles_by_html(self,selenium_html):
'从selenium_html中解析出微信公众号文章'
doc=pq(selenium_html)
returndoc('div[class="weui_msg_card"]')
defswitch_arctiles_to_list(self,articles):
'把articles转换成数据字典'
articles_list=[]
i=1
ifarticles:
forarticleinarticles.items():
self.log(u'开始整合(%d/%d)'%(i,len(articles)))
articles_list.append(self.parse_one_article(article))
i+=1
#break
returnarticles_list
defparse_one_article(self,article):
'解析单篇文章'
article_dict={}
article=article('.weui_media_box[id]')
title=article('h4[class="weui_media_title"]').text()
self.log('标题是:%s'%title)
url='http://mp.weixin.qq.com'+article('h4[class="weui_media_title"]').attr('hrefs')
self.log('地址为:%s'%url)
summary=article('.weui_media_desc').text()
self.log('文章简述:%s'%summary)
date=article('.weui_media_extra_info').text()
self.log('发表时间为:%s'%date)
pic=self.parse_cover_pic(article)
content=self.parse_content_by_url(url).html()
contentfiletitle=self.kw+'/'+title+'_'+date+'.html'
self.save_content_file(contentfiletitle,content)
return{
'title':title,
'url':url,
'summary':summary,
'date':date,
'pic':pic,
'content':content
}
defparse_cover_pic(self,article):
'解析文章封面图片'
pic=article('.weui_media_hd').attr('style')
p=re.compile(r'background-image:url(.∗?)')
rs=p.findall(pic)
self.log('封面图片是:%s'%rs[0]iflen(rs)>0else'')
returnrs[0]iflen(rs)>0else''
defparse_content_by_url(self,url):
'获取文章详情内容'
page_html=self.get_selenium_js_html(url)
returnpq(page_html)('#js_content')
defsave_content_file(self,title,content):
'页面内容写入文件'
withopen(title,'w')asf:
f.write(content)
defsave_file(self,content):
'数据写入文件'
withopen(self.kw+'/'+self.kw+'.txt','w')asf:
f.write(content)
deflog(self,msg):
'自定义log函数'
printu'%s:%s'%(time.strftime('%Y-%m-%d%H:%M:%S'),msg)
defneed_verify(self,selenium_html):
'有时候对方会封锁ip,这里做一下判断,检测html中是否包含id=verify_change的标签,有的话,代表被重定向了,提醒过一阵子重试'
returnpq(selenium_html)('#verify_change').text()!=''
defcreate_dir(self):
'创建文件夹'
ifnotos.path.exists(self.kw):
os.makedirs(self.kw)
defrun(self):
'爬虫入口函数'
#Step0:创建公众号命名的文件夹
self.create_dir()
#Step1:GET请求到搜狗微信引擎,以微信公众号英文名称作为查询关键字
self.log(u'开始获取,微信公众号英文名为:%s'%self.kw)
self.log(u'开始调用sougou搜索引擎')
sougou_search_html=self.get_search_result_by_kw()
#Step2:从搜索结果页中解析出公众号主页链接
self.log(u'获取sougou_search_html成功,开始抓取公众号对应的主页wx_url')
wx_url=self.get_wx_url_by_sougou_search_html(sougou_search_html)
self.log(u'获取wx_url成功,%s'%wx_url)
#Step3:Selenium+PhantomJs获取js异步加载渲染后的html
self.log(u'开始调用selenium渲染html')
selenium_html=self.get_selenium_js_html(wx_url)
#Step4:检测目标网站是否进行了封锁
ifself.need_verify(selenium_html):
self.log(u'爬虫被目标网站封锁,请稍后再试')
else:
#Step5:使用PyQuery,从Step3获取的html中解析出公众号文章列表的数据
self.log(u'调用selenium渲染html完成,开始解析公众号文章')
articles=self.parse_wx_articles_by_html(selenium_html)
self.log(u'抓取到微信文章%d篇'%len(articles))
#Step6:把微信文章数据封装成字典的list
self.log(u'开始整合微信文章数据为字典')
articles_list=self.switch_arctiles_to_list(articles)
#Step7:把Step5的字典list转换为Json
self.log(u'整合完成,开始转换为json')
data_json=json.mps(articles_list)
#Step8:写文件
self.log(u'转换为json完成,开始保存json数据到文件')
self.save_file(data_json)
self.log(u'保存完成,程序结束')
#main
if__name__=='__main__':
gongzhonghao=raw_input(u'输入要爬取的公众号')
ifnotgongzhonghao:
gongzhonghao='python6359'
weixin_spider(gongzhonghao).run()
第二版代码:
对代码进行了一些优化和整改,主要:
1.增加了excel存贮
2.对获取文章内容规则进行修改
3.丰富了注释
本程序已知缺陷: 如果公众号的文章内容包括视视频,可能会报错。
[python]view plain
#!/usr/bin/python
#coding:utf-8
D. 使用php如何获取微信文章
可以尝试使用DOM操作库simple-html-dom.php,快速获取HTML结构的内容:<?phprequire dirname(__FILE__).'/simple_html_dom.php';$html = file_get_html('http://php.net/');$articles = array();foreach($html->find('article.newsentry') as $article) {$item['time'] = trim($article->find('time', 0)->plaintext);$item['title'] = trim($article->find('h2.newstitle', 0)->plaintext);$item['content'] = trim($article->find('div.newscontent', 0)->plaintext);$articles[] = $item;}print_r($articles);可以把抓取到的内容写入置于内存上的SQLite(/run/shm/php/crawler.db3),避免频繁的磁盘IO.
E. 如何抓取微信所有公众号最新文章
经常有朋友需要帮忙做公众号文章爬取,这次来做一个各种方法的汇总说明。目前爬取微信公众号的方法主要有3种:
通过爬取第三方的公众号文章聚合网站
通过微信公众平台引用文章接口
通过抓包程序,分析微信app访问公众号文章的接口
通过第三方的公众号文章聚合网站爬取
微信公众号文章一直没有提供一个对外的搜索功能,直到2013年微信投资搜狗之后,搜狗搜索接入微信公众号数据,从此使用搜狗搜索就可以浏览或查询到相关公众号以及文章。域名是: https://weixin.sogou.com/
可以直接搜索公众号或者文章的关键字,一些热门的公众号更新还是很及时的,几乎做到了和微信同步。
所以,爬一些热门公众号可以使用搜狗微信的接口来做,但是一些小众公众号是搜索不到的,而且搜狗的防爬机制更新的比较勤,获取数据的接口变化的比较快,经常两三个月就有调整,导致爬虫很容易挂,这里还是建议使用 selenium爬比较省心。另外搜狗对每个ip也有访问限制,访问太频ip会被封禁24小时,需要买个ip池来做应对。还有一些其他公众号文章聚合网站(比如传送门)也都存在更新不及时或者没有收录的问题,毕竟搜狗这个亲儿子都不行。
通过微信公众平台引用文章接口
这个接口比较隐蔽而且没法匿名访问,所有得有一个公众号,建议新注册一个公众号比较好,免得被封。下面开始具体步骤:首先登录自己的微信公众号,在进去的首页选择 新建群发,然后再点击 自建图文,在文章编辑工具栏中找到 超链接,如下图:
到这里就可以输入公众号的名字,回车之后微信就会返回相匹配的公众号列表,接着点击你想抓取的公众号,就会显示具体的文章列表了,已经是按时间倒序了,最新的文章就是第一条了。
微信的分页机制比较奇怪,每个公众号的每页显示的数据条数是不一样的,分页爬的时候要处理一下。通过chrome分析网络请求的数据,我们想要的数据已经基本拿到了,文章链接、封面、发布日期、副标题等,如
由于微信公众平台登录验证比较严格,输入密码之后还必须要手机扫码确认才能登录进去,所以最好还是使用 selenium做自动化比较好。具体微信接口的分析过程我就不列了,直接贴代码了:
import re
import time
import random
import traceback
import requests
from selenium import webdriver
class Spider(object):
'''
微信公众号文章爬虫
'''
def __init__(self):
# 微信公众号账号
self.account = '[email protected]'
# 微信公众号密码
self.pwd = 'lei4649861'
def create_driver(self):
'''
初始化 webdriver
'''
options = webdriver.ChromeOptions()
# 禁用gpu加速,防止出一些未知bug
options.add_argument('–disable-gpu')
# 这里我用 chromedriver 作为 webdriver
# 可以去 http://chromedriver.chromium.org/downloads 下载你的chrome对应版本
self.driver = webdriver.Chrome(executable_path='./chromedriver', chrome_options=options)
# 设置一个隐性等待 5s
self.driver.implicitly_wait(5)
def log(self, msg):
'''
格式化打印
'''
print('—— %s ——' % msg)
def login(self):
'''
登录拿 cookies
'''
try:
self.create_driver()
# 访问微信公众平台
self.driver.get('https://mp.weixin.qq.com/')
# 等待网页加载完毕
time.sleep(3)
# 输入账号
self.driver.find_element_by_xpath("./*//input[@name='account']").clear()
self.driver.find_element_by_xpath("./*//input[@name='account']").send_keys(self.account)
# 输入密码
self.driver.find_element_by_xpath("./*//input[@name='password']").clear()
self.driver.find_element_by_xpath("./*//input[@name='password']").send_keys(self.pwd)
# 点击登录
self.driver.find_elements_by_class_name('btn_login')[0].click()
self.log("请拿手机扫码二维码登录公众号")
# 等待手机扫描
time.sleep(10)
self.log("登录成功")
# 获取cookies 然后保存到变量上,后面要用
self.cookies = dict([[x['name'], x['value']] for x in self.driver.get_cookies()])
except Exception as e:
traceback.print_exc()
finally:
# 退出 chorme
self.driver.quit()
def get_article(self, query=''):
try:
url = 'https://mp.weixin.qq.com'
# 设置headers
headers = {
"HOST": "mp.weixin.qq.com",
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36"
}
# 登录之后的微信公众号首页url变化为:https://mp.weixin.qq.com/cgi-bin/home?t=home/index&lang=zh_CN&token=1849751598,
# 从这里获取token信息
response = requests.get(url=url, cookies=self.cookies)
token = re.findall(r'token=(d+)', str(response.url))[0]
time.sleep(2)
self.log('正在查询[ %s ]相关公众号' % query)
search_url = 'https://mp.weixin.qq.com/cgi-bin/searchbiz?'
# 搜索微信公众号接口需要传入的参数,
# 有三个变量:微信公众号token、随机数random、搜索的微信公众号名字
params = {
'action': 'search_biz',
'token': token,
'random': random.random(),
'query': query,
'lang': 'zh_CN',
'f': 'json',
'ajax': '1',
'begin': '0',
'count': '5'
}
# 打开搜索微信公众号接口地址,需要传入相关参数信息如:cookies、params、headers
response = requests.get(search_url, cookies=self.cookies, headers=headers, params=params)
time.sleep(2)
# 取搜索结果中的第一个公众号
lists = response.json().get('list')[0]
# 获取这个公众号的fakeid,后面爬取公众号文章需要此字段
fakeid = lists.get('fakeid')
nickname = lists.get('nickname')
# 微信公众号文章接口地址
search_url = 'https://mp.weixin.qq.com/cgi-bin/appmsg?'
# 搜索文章需要传入几个参数:登录的公众号token、要爬取文章的公众号fakeid、随机数random
params = {
'action': 'list_ex',
'token': token,
'random': random.random(),
'fakeid': fakeid,
'lang': 'zh_CN',
'f': 'json',
'ajax': '1',
'begin': '0', # 不同页,此参数变化,变化规则为每页加5
'count': '5',
'query': '',
'type': '9'
}
self.log('正在查询公众号[ %s ]相关文章' % nickname)
# 打开搜索的微信公众号文章列表页
response = requests.get(search_url, cookies=self.cookies, headers=headers, params=params)
time.sleep(2)
for per in response.json().get('app_msg_list', []):
print('title —> %s' % per.get('title'))
print('link —> %s' % per.get('link'))
# print('cover —> %s' % per.get('cover'))
except Exception as e:
traceback.print_exc()
if __name__ == '__main__':
spider = Spider()
spider.login()
spider.get_article('python')
代码只是作为学习使用,没有做分页查询之类。实测过接口存在访问频次限制,一天几百次还是没啥问题,太快或者太多次访问就会被封24小时。
F. php 抓取腾讯微信文章视频地址
获取视频ID
functioncut($from,$start,$end,$lt=false,$gt=false){$str=explode($start,$from);if(isset($str['1'])&&$str['1']!=''){$str=explode($end,$str['1']);$strs=$str['0'];}else{$strs='';}if($lt){$strs=$start.$strs;}if($gt){$strs.=$end;}return$strs;}
$vid=cut($contents,'vid=','&');//获取视频ID
<iframe height=300 width=100% src="http://v.qq.com/iframe/player.html?vid={$vid}" frameborder=0 allowfullscreen></iframe>//这个放到页面直接可以播放
可以参考下
G. phpcms如何采集搜狗微信文章
自己写一个抓取模块了,或者你要不想写,可以用八爪鱼采集器,这个软件内有现成的微信文章采集规则,直接就可以用
H. 如何用 php 抓取微信文章正文
因为微信文章地址https,所以用file_get_contents()报错,如果修改apache配置文件比较麻烦。所以用curl相关函数。$url="https://mp.weixin.qq.com/s?src=11×tamp=1512277201&ver=551&signature=dhsdR3JLEZK1a**DVf5–mRAtsM39aVmkn6YUui&new=1";$ch = curl_init(); curl_setopt($ch, CURLOPT_URL,$url); curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false); curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false); $result = curl_exec($ch); echo($result);
I. 如何用php CURL 抓取微信网页的内容
给你简单介绍几个吧一、file_get_contents函数$content = file_get_contents("URL");//URL就是你要获取的页面的地址二、利用curl扩展代码如下:function getCurl($url){$ch = curl_init();curl_setopt($ch, CURLOPT_URL,$url);curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);//不输出内容curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false);$result = curl_exec($ch);curl_close ($ch);return $result;} PS:需要安装PHP的curl扩展
J. php如何采集微信文章的同时获取其中图片的地址并下载本地化
|
给个简单的例子,仅仅是获取了远程图片哦
<?php$url='';这是你的微信网址$con=file_get_contents("$url");$pattern="/<[img|回IMG].*?src=['|"](.*?(?:[.gif|.jpg|.png]))['|"].*?[/]?>/";preg_match_all($pattern,$con,$match);for($i=0;$<count($match[1]);$i++){$pic=file_get_content($match[1][$i]);$name_arr=explode('/',$pic);$n=count($name_arr);file_put_content($name_arr[$n],$pic);}
没做测试,你测试一下答吧