<返回更多

Python-获取B站UP主的所有视频-七朵组合为例

2019-09-06    
加入收藏

前几天,我分享了一篇文章,里面讲的是用户GUI下载包含B站在内的视频的Python程序。今天我们以国内第一支主打中国风的女子组合--七朵组合为例,利用之前的分享的知识,下载UP主的所有B站视频。

Python-获取B站UP主的所有视频-七朵组合为例

一代七朵-咏春

先看下七朵组合的百度百科(这个时候已经更新为最新的五位成员了):

七朵组合,中国内地女子演唱组合,由喻筱博、颜灵兰、韦欢、吴圆圆、刘木子五位成员组成。2012年6月28日,推出组合首支单曲《咏春》,从而正式出道 [1] ;10月23日,演唱的歌曲《心慌慌》获得“鹏城歌飞扬”深圳原创音乐第三季度十佳金曲奖 [2] ;12月9日,凭借单曲《咏春》获得香港TVB8金曲榜年度最佳新人奖以及年度最佳组合奖提名 [3] 。2013年5月17日,发布中国风单曲《玉生烟》;11月13日,推出“欢”季恋歌单曲《宫商角徵羽》 [4] 。2014年2月14日,发布情人节单曲《蝴蝶恋》 [5] ;4月16日,获得音悦台V-Chart Awards颁奖典礼“最具人气潜力奖”的提名 [6] 。2017年,发布了中国风单曲《青蛇》。2018年1月21日,发布中国风单曲《将军令》 [7] ;10月22日,参加“古画会唱歌”音乐创新大赛,单曲《墨染梅霜》以第一名的成绩进入决赛圈 [8] 。2019年1月11日,发行中国风单曲《女侠》 [9] 。

Python-获取B站UP主的所有视频-七朵组合为例

回归七朵-青蛇

在我的印象里,第一次认识七朵组合,是在2014年安徽卫视的春节联欢晚会上,七朵组合在舞台上像7只美丽的百灵鸟,表演着她们的中国风歌曲《咏春》,她们美丽的身姿深深地吸引到了我,从那以后,她们出的每一首歌,我都听过,有喜欢的,也有不喜欢的。即使有不喜欢的,我依然要全力向大家推荐她们,因为她们太欠红了!

七朵不红,天理难容!

印象比较深刻的歌曲有很多:《咏春》、《落花情》、《扬州慢》、《玉生烟》、《孔明》、《青蛇》、《醉花荫》、《江南夜》等等。

最特别的,咏春的春节特别版,圆圆的两声yayiyayiyou,让人回味无穷;孔明中欢欢的最后那几句,孔明恐恐恐,也怕女儿梦,陪你喝两盅,再去对隆中,独守着空城,南阳夜也冷,寒月照三更,琵琶惹古筝,你独守着,准我为你折腰,也是点睛之笔。

最近还新出了一首《哪吒》,也是非常好听!!!赶紧去听吧!!!

好啦,回归正题:

思路:

(1)获取UP主所有视频的id,结合播放页面https://www.bilibili.com/video/av65732818,可以看出,id即为av后面的数字,即只要获取到id,即可得到所有的视频播放链接;

(2)利用you-get,一个一个下载;

缺点:不能多进程下载,下载进度缓慢。

开始解析:

1、打开七朵组合的投稿页面

Python-获取B站UP主的所有视频-七朵组合为例

 

按照之前分享过的方法,找到这些视频的链接在哪里!

2、鼠标右键(Chrome)--检查--F5--Network--XHR,可以看到这样一条信息

Python-获取B站UP主的所有视频-七朵组合为例

 

这里面包含着我们想要的视频的id信息!

有人问,为啥你这么快就找到了呢?你怎么找的呢?

其实基本的两种方法还是有的,但是像网易云音乐那种加密的除外!

(1)Ctrl+F,搜索原页面中包含的信息;

(2)看XHR项的大小,能达到kb级别的很有可能是你需要的东西;

然后我们开始点击下一页,可以发现是这样的

Python-获取B站UP主的所有视频-七朵组合为例

 

又出现了一条和上一页面类似的链接,比较发现,只有page的参数不一致,那就循环page就行啦!

好啦,分析到此结束!

代码如下:

# author:Jinbu Zhang

# 目的:爬取哔哩哔哩视频某位作者的所有视频

# 思路:1、获取该作者在B站发布的所有视频地址;2、调用you-get库下载到指定路径

import requests
import json
import you_get
import os
import time
import random
import sys
import winreg
headers = {"User-Agent":"Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWebKit/537.36 
(Khtml, like Gecko) Chrome/73.0.3683.103 Safari/537.36"}
def get_desktop():
 key = winreg.OpenKey(winreg.HKEY_CURRENT_USER,r'SoftwareMicrosoftWindowsCurrentVersionExplorerShell Folders')
 return winreg.QueryValueEx(key, "Desktop")[0]
save_path = get_desktop() + '\' + 'you_get'+'\'
if not os.path.exists(save_path):
 os.mkdir(save_path)
# 播放页视频下载
def download_mv_bilibili(mv_id):
 mv_id_download = 'https://www.bilibili.com/video/av'+str(mv_id)
 os.system("you-get -o %s %s"%(save_path,mv_id_download))
# 对得到的json数据进行解析(字典访问形式)
def explain_json(json_data):
 mv_datas = json_data['data']['vlist']
 mv_infors = []
 for mv_data in mv_datas:
 mv_title = mv_data['title']
 mv_author = mv_data['author']
 # 41842701
 mv_id = mv_data['aid']
 mv_length = mv_data['length']
 mv_description = mv_data['description']
 mv_cover = mv_data['pic']
 mv_play = mv_data['play']
 mv_comment = mv_data['comment']
 print('==' * 60)
 time.sleep(0.5)
 print('>>%s...'%mv_title)
 print('>>>https://www.bilibili.com/video/av%s' % mv_id)
 print('==' * 60)
 # 下载MV&视频
 # download_mv_bilibili(mv_id)
# 对URL进行访问,得到的数据进行解析
def get_html(access_url):
 response = requests.get(access_url,headers=headers)
 html = response.text
 json_data = json.loads(html)
 mv_infor = explain_json(json_data)
# 主函数拼凑URL
def main():
 base_url = 'https://space.bilibili.com/ajax/member/getSubmitVideos?mid=43636152&pagesize=30&tid=0&page={}&keyword=&order=pubdate'
 for k in range(1,4):
 time.sleep(2)
 access_url = base_url.format(k)
 html = get_html(access_url)
if __name__ == "__main__":
 main()

结果展示:

Python-获取B站UP主的所有视频-七朵组合为例

 

好啦,今天的python爬虫分析就到这里,有需要交流的可以私信或者加我的微信【其他文章中留过,大家记得关注我,以后会给大家分享更多!】

谢谢啦!

声明:本站部分内容来自互联网,如有版权侵犯或其他问题请与我们联系,我们将立即删除或处理。
▍相关推荐
更多资讯 >>>