ogslp / kuaishou-crawler Goto Github PK

View Code? Open in Web Editor NEW

180.0 12.0 65.0 12.64 MB

As you can see, a kuaishou crawler

License: MIT License

Python 100.00%

kuaishou-crawler kuaishou crawler

kuaishou-crawler's Introduction

kuaishou-crawler

As you can see, a crawler for kuaishou pictures and videos

Latest

Version 0.5.0 (2020-08-06)

View Change Log

现在已经提供exe版本一键执行查看 | 或者查看如何运行代码查看
Python 3.7.3
- requests
- json
- os
- ~~BeautifulSoup~~
- re
自v0.3.0版本开始，已用面向对象重构，核心代码在lib/crawler.py中，启动文件为crawl.py / ks.py
功能：根据用户ID来爬取快手用户的作品，包括视频和图片
1. 在preset文件(使用exe版本忽略此文件)中一行行填写用户id，若缺少文件会自动创建（目前版本已提供自动根据数字id获取真实eid）
  - 分享链接用浏览器打开，根据网址 https://live.kuaishou.com/profile/xxxx 获取id: xxxx~~
  - 或者手机里点开快手用户的头像，底下会告诉你快手号的
2. 使用时请自己用账号登录快手网站，并使用自己的cookie['headers']和didweb替换，不保证源代码中对应值可用
  - 关于cookie的did值，你在电脑浏览器中打开快手网站登录后随便打开一个用户的视频作品，然后再地址栏中找到这一项，咱们以giao哥的第一个视频为例
    - https://live.kuaishou.com/u/3x4tn6nm8gnh9xk/3xtd5zf5qbduphc?did=web_12345shiwoluandade
    - 你要保存下来的就是did后面的 web_12345shiwoluandade
3. 因为快手官网会根据cookie，识别你是否在线，爬取的时候要将网页登录并挂着
  - 实测快手网站的用户验证存在30-60分钟左右的有效时长，出现list index out of range时极可能是有效期已过，登录网站验证即可
  - 暂且不知道快手官方对过多请求的处理，目前碰到的有上述验证失效，也许也会有请求达到数量会中断请求，此时注释preset中已爬取的用户id，重新开始运行脚本即可
4. 爬取的视频~~暂时是带水印的(以后考虑获取无水印视频)~~ 是无水印的 感谢@tjftjftjf提供手机抓包链接和方法
5. 修复了无水印视频url的获取
注意事项：
- 不考虑提供列表可选的批量下载功能
- 有需要的合理功能可以issue反馈，看到后会考虑是否修改
- 如果需要自定义自己的需求，可以拿走代码自行修改，喜欢的话给个star给个follow
- 本代码仅供学习使用，不可违反法律爬取视频，以及私自盗用搬运视频，后果自负
- 本代码仅供学习使用，不可违反法律爬取视频，以及私自盗用搬运视频，后果自负
- 本代码仅供学习使用，不可违反法律爬取视频，以及私自盗用搬运视频，后果自负
- 重要的说三遍

Run

python3环境与命令行工具
进入项目目录 cd kuaishou-crawler
安装依赖 pip install -r requirements.txt
运行，有两个版本，crawl.py为运行版本，ks.py是用于构建exe的版本，当然也可以运行
- python crawl.py / python ks.py

Release

https://github.com/oGsLP/kuaishou-crawler/releases

下载打包好的exe一键运行(点击download下载即可)
- ks.exe
- ks.7z

Future

~~自动根据id获取eid~~ √
获取无水印视频 √
进一步丰富preset预设文件的可配置选项
~~优化代码和log~~ √
提供便捷的打包exe √

Again

本代码仅供学习使用，不可违反法律爬取视频，以及私自盗用搬运视频，后果自负

Else

爬虫源码免费开源，作者维护不易，喜欢的可以随意打赏一些>_<

kuaishou-crawler's People

Contributors

Stargazers

Watchers

kuaishou-crawler's Issues

一直显示list index out of range，重新设置cookies也没用

设置了did值，用了刚登陆的cookies，依然提示list index out of range，想不到方法解决了，有人和我一样吗？

亲测可用无水印，不过did是F12查到的，浏览器url没有did字段，方法如下：

网页打开要下载的快手用户的任意视频，F12 -> Application栏 -> Cookies项展开，可以看到did字段的值是 web_xxxxx，用户id去手机APP看

关于v0.5.0输入did和用户id之后闪退的问题

打开ks.exe之后，大概下载了60个视频，软件闪退，之后重新打开输入did和用户id，回车之后闪退无法下载，在确保软件完整的情况下，切换过did，尝试过管理员运行以及将ks.exe放在非c盘目录，结果均无效，以下是错误截图:https://s1.ax1x.com/2020/08/11/aXNBSe.png

建议web cookie did和 mobile cookie did分开

经过我多天的测试，web did跟mobile did很容易混淆写入代码里面，建议分开配置。

Traceback (most recent call last):
File "ks.py", line 28, in
File "ks.py", line 22, in crawl
File "lib\crawler.py", line 73, in crawl
File "lib\crawler.py", line 113, in __crawl_user
File "lib\crawler.py", line 167, in __crawl_work
AttributeError: 'NoneType' object has no attribute 'group'
[8828] Failed to execute script ks

用户cookie中的did值

作者你好我按你的方法获取了did值然后输入了用户的uid
但是出现闪退的情况
我觉得可能我获取错了
可以仔细的给我讲解一下
预先输入本用户cookie中的did值：该填什么吗？

运行.exe输入完主页id后闪退了

exe 版本会闪退

首先感谢作者。
但是使用过程中发现，下载到 150 多个视频的时候，会自动闪退

exe执行总是报错

报错如下，隔几天运行时，一开始可以正常下载，大概下载几十个之后就会报错，然后再次运行一直都是这个报错，需要隔几天后再次运行，如此反复。
Traceback (most recent call last):
File "ks.py", line 28, in
File "ks.py", line 22, in crawl
File "lib\crawler.py", line 73, in crawl
File "lib\crawler.py", line 113, in __crawl_user
File "lib\crawler.py", line 167, in __crawl_work
AttributeError: 'NoneType' object has no attribute 'group'
[19088] Failed to execute script ks

当快手号为纯数字的时候获取uid失败

爬取出错

抓取某一主题下的前一百位的用户信息，网页版有时候会跳出滑块验证码，请问有办法绕过吗？

问个可能和本项目不相干的问题，请多多指教，谢谢！

比如说我要抓取“手工”主题下的前一百位的用户信息
https://live.kuaishou.com/search/author?keyword=%E6%89%8B%E5%B7%A5&page=1
网页版有时候会跳出滑块验证码，请问有办法绕过吗？

图片只能下载，不能下载视频

首先，感谢您提供此软件。当前它只能下载图像。无法下载视频。你能为我解决吗？

运行报错：AttributeError: 'NoneType' object has no attribute 'group'

Traceback (most recent call last):
File "C:/mypythonfile/car_info/driving_attention_video/kuaishou-crawler/ks.py", line 28, in
crawl()
File "C:/mypythonfile/car_info/driving_attention_video/kuaishou-crawler/ks.py", line 22, in crawl
crawler.crawl()
File "C:\mypythonfile\car_info\driving_attention_video\kuaishou-crawler\lib\crawler.py", line 81, in crawl
self.__crawl_user(uid)
File "C:\mypythonfile\car_info\driving_attention_video\kuaishou-crawler\lib\crawler.py", line 122, in __crawl_user
self.__crawl_work(dir, works[j], j + 1)
File "C:\mypythonfile\car_info\driving_attention_video\kuaishou-crawler\lib\crawler.py", line 178, in __crawl_work
v_url = re.search(pattern, html).group(1)+".mp4"
AttributeError: 'NoneType' object has no attribute 'group'

第一次可以运行，但是下载了十几个视频之后就一直报错

运行报错AttributeError: 'NoneType' object has no attribute 'group'

开始爬取用户 xxx，保存在目录 data/xxx/
共有21个作品
Traceback (most recent call last):
File "D:/develop-py/workspace/kuaishou-crawler-master/crawl.py", line 23, in
crawl()
File "D:/develop-py/workspace/kuaishou-crawler-master/crawl.py", line 19, in crawl
crawler.crawl()
File "D:\develop-py\workspace\kuaishou-crawler-master\lib\crawler.py", line 73, in crawl
self.__crawl_user(uid)
File "D:\develop-py\workspace\kuaishou-crawler-master\lib\crawler.py", line 113, in __crawl_user
self.__crawl_work(dir, works[j], j + 1)
File "D:\develop-py\workspace\kuaishou-crawler-master\lib\crawler.py", line 167, in __crawl_work
v_url = re.search(pattern, html).group(1)+".mp4"
AttributeError: 'NoneType' object has no attribute 'group'

快手限制下载视频的数量

当爬取数量达到几十个视频之后，就会出现下面的报错，等了很久之后才能继续下载。而且尝试过使用其他ip来继续请求也没用

| kuaishou-crawler (v0.5.0 20-08-06)
| 本程序由oGsLP提供, www.github.com/oGsLP/kuaishou-crawler, 喜欢的话可以给个star >_<

准备开始爬取，共有1个用户...

{"data":{"privateFeeds":{"pcursor":"","list":[],"__typename":"PCProfileFeeds"}}}

[]
Traceback (most recent call last):
File "D:/python_project/test1/crawlers/main.py", line 26, in
main()
File "D:/python_project/test1/crawlers/main.py", line 20, in main
kuaishou.crawler_kuaishou.main()
File "D:\python_project\test1\crawlers\kuaishou\crawler_kuaishou.py", line 30, in main
crawl(param_did,data_dir)
File "D:\python_project\test1\crawlers\kuaishou\crawler_kuaishou.py", line 15, in crawl
crawler.crawl()
File "D:\python_project\test1\crawlers\kuaishou\lib\crawler.py", line 81, in crawl
self.__crawl_user(uid)
File "D:\python_project\test1\crawlers\kuaishou\lib\crawler.py", line 106, in __crawl_user
if works[0]['id'] is None:
IndexError: list index out of range

ConnectionError: HTTPConnectionPool(host='tx2.a.yximgs.com', port=80): Max retries exceeded with url: /ufile/atlas/ODgyMDg0MjAzXzE4NTU0ODA0ODE4XzE1NzExNDM1ODMxOTE=_0.jpg (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x0000019CDE5F1D60>: Failed to establish a new connection: [Errno 11001] getaddrinfo failed'))

自从v0.4.0版本之后无法下载视频

自从v0.4.0版本之后无法下载视频，全部都显示未找到视频，其他版本正常

软件很不错！

软件很不错！感觉很有趣！