1.分析美团美食网页的url参数构成
1)搜索要点
美团美食,地址:北京,搜索关键词:火锅
2)爬取的url
https://bj.meituan.com/s/%E7%81%AB%E9%94%85/
3)说明
url会有自动编码中文功能。所以火锅二字指的就是这一串我们不认识的代码%E7%81%AB%E9%94%85。
通过关键词城市的url构造,解析当前url中的bj=北京,/s/后面跟搜索关键词。
这样我们就可以了解到当前url的构造。
2.分析页面数据来源(F12开发者工具)
开启F12开发者工具,并且刷新当前页面:可以看到切换到第二页时候,我们的url没有变化,网站也没有自动进行刷新跳转操作。(web中ajax技术就是在保证页面不刷新,url不变化情况下进行数据加载的技术)
此时我们需要在开发者工具中,找到xhr里面对应当前数据的响应文件。
分析到这里可以得知:我们的数据是以json格式交互。分析第二页的json文件请求地址与第三页json文件的请求地址。
第二页:https://apimobile.meituan.com/group/v4/poi/pcsearch/1"htmlcode">
import requests import re def start(): for w in range(0, 1600, 32): #页码根据实际情况x32即可,我这里是设置50页为上限,为了避免设置页码过高或者数据过少情况,定义最大上限为1600-也就是50页,使用try-except来检测时候异常,异常跳过该页,一般作为无数据跳过该页处理 try: # 注意uuid后面参数空余将uuid后xxx替换为自己的uuid参数 url = 'https://apimobile.meituan.com/group/v4/poi/pcsearch/1","title":"(.*","address":"', response.text) addresses = re.findall(',"address":"(.*",', response.text) avgprices = re.findall(',"avgprice":(.*"avgscore":(.*"comments":(.*"text-align: center">本地文件:
4.总结
根据搜索词变化,城市变化,可以改变url中指定的参数来实现。同时也要记得变更headers中的指定参数,方法简单,多加练习即可熟悉ajax类型的数据抓取。
以上就是Python爬虫实例——爬取美团美食数据的详细内容,更多关于Python爬虫爬取美食数据的资料请关注其它相关文章!
P70系列延期,华为新旗舰将在下月发布
3月20日消息,近期博主@数码闲聊站 透露,原定三月份发布的华为新旗舰P70系列延期发布,预计4月份上市。
而博主@定焦数码 爆料,华为的P70系列在定位上已经超过了Mate60,成为了重要的旗舰系列之一。它肩负着重返影像领域顶尖的使命。那么这次P70会带来哪些令人惊艳的创新呢?
根据目前爆料的消息来看,华为P70系列将推出三个版本,其中P70和P70 Pro采用了三角形的摄像头模组设计,而P70 Art则采用了与上一代P60 Art相似的不规则形状设计。这样的外观是否好看见仁见智,但辨识度绝对拉满。
更新日志
- 战锤40K星际战士2动力拳使用教学|动力拳连招表
- 王菲.1999《天生不是情造》引进版[低速原抓WAV+CUE]
- 群星《抖烧第二季AQCD》[WAV+CUE]
- JenniferWarnes《猎人》美国头版[原抓WAV+CUE]
- 外网博主对比育碧和V社的运营服务:G胖太大气了
- 推主询问玩家是否会玩《黑神话》DLC 得到一片肯定声
- 百万粉丝女主播直播卖惨被抓 编造身世卖惨牟利
- 群星《音你而来 第6期》[FLAC/分轨][271.96MB]
- 群星《微暗之火 影视原声带》[FLAC/分轨][77.32MB]
- 群星《微暗之火 影视原声带》[FLAC/分轨][170.52MB]
- 韩宝仪.2014-潇洒经典金曲·南方金点系列2CD【南方】【WAV+CUE】
- 郑希怡.2005-Yumiko【英皇娱乐】【FLAC分轨】
- 窦靖童.2024-空中飞人【GreyWaters】【FLAC分轨】
- 战锤40K星际战士2战斗小刀使用教学|战斗小刀连招表
- 战锤40K星际战士2动力剑使用教学|动力剑连招表