python爬虫轻松搞定b站视频下载

(编辑：jimmy 日期: 2024/12/23 浏览：3 次 )

前言

在正常情况下（不使用其他工具或插件），Web端的bilibili似乎无法（彻底白嫖）下载视频，遂学习了如何利用Python爬虫下载b站视频（不包括会员视频），详情（手法）且看下文。

参考视频：https://www.bilibili.com/video/BV1Fy4y1D7XS
在分析b站网页源代码的过程中发现其视频和音频是分开的，下载后一个只有声音，一个只有画面，这显然不能满足我们的要求。解决方案是：利用 ffmpeg 这款强大的开源工具把下载后的音视频进行合并。故想要完美体验，先得下载安装并配置好 ffmpeg 。（到官网下载，解压后把文件夹内的bin 添加到环境变量）
Python中使用到的模块有：requests、re、json、subprocess、os

准备工作

视频的url比较显眼，容易获取。headers也好找，但还需要一重要信息。

通过浏览器（F12）查看分析目标网页，找到我们的下一目标，即视（音）频下载链接。

一番查找后，发现在head里的第四个script 标签内似乎有我们想要的东西。

可访问此链接，却出现403，即没有权限访问此站。

这又怎么回事？查看Request Headers 信息，发现没有referer这一项，于是尝试在数据包中加上referer信息看能否访问。（这里直接上bp了）

Forward后，出现文件下载页面。

下载后打开改文件，确为目标视频。

获取数据

通过requests库向目标站点发起请求，请求需包含header、referer等信息，以伪装成是浏览器发出请求。如果服务器能正常响应，会得到一个Response，便是所要获取的页面内容。

测试代码：

import requestsheaders = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36","referer": "https://message.bilibili.com/"}def send_request(url):    response = requests.get(url=url, headers=headers) #发送get请求，获得响应    return responsehtml_data = send_request("https://www.bilibili.com/video/BV1Qy4y147H1").textprint(html_data)

运行结果：

解析内容

得到的内容可能是HTML、json等格式，可以用页面解析库、正则表达式等进行解析。

title信息比较好找，就在head中。

利用正则表达式对其进行提取。

title = re.findall('<title data-vue-meta="true">(.*?)</title>',html_data)[0].replace("_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili",""

音视频下载链接在json数据中。

利用正则表达式和字典（列表）的“键”对其提取。

json_data = re.findall(r'<script>window.__playinfo__=(.*?)</script>',html_data)[0]    json_data = json.loads(json_data) #解码 JSON 数据，返回 Python 字段的数据类型。    audio_url = json_data["data"]["dash"]["audio"][0]["backupUrl"][0]    video_url = json_data["data"]["dash"]["video"][0]["backupUrl"][0]

python爬虫轻松搞定b站视频下载

前言

准备工作

获取数据

解析内容

保存数据

合并音视频

最终代码

打包成exe