Giter Club home page Giter Club logo

wks's Introduction

wks

百度文库爬虫 Baidu Wenku Spider

仅支持python3

郑重声明

请勿将该脚本用于下载付费文档或商业用途,否则后果自负! 本项目仅为方便查看在线文档和交流爬虫技术。

使用教程

目前该项目支持所有格式文档下载。

ppt仅能保存图片格式的pdf,建议下载后通过Acrobot等光学识别软件拷贝文字;

doc、pdf文件仅能保存为pdf,且可能看起来会有一些不同;

xls文件仅能保存为pdf,未来可能会支持保存为xls;

txt可保存为原始格式。

如果需要提取图片或查看原始数据,可以带参数-t保存临时文件。

原理为下载网页中显示的内容,故网页版无法查看的部分无法下载,且下载的并非原始文档,只能尽力还原格式。

安装wks

方法一:使用源码

下载源码并安装依赖

git clone https://github.com/BoyInTheSun/wks
cd wks
pip install -r requirements.txt
python main.py --help

方法二:使用可执行程序

请下载对应系统版本的可执行程序。

点击跳转

在windows系统中,选择你喜欢的地方,将wks.exe放到其中,按住shift右键,选择在此处打开powershell窗口,输入.\wks.exe --help查看帮助。

不要直接双击wks.exe!!!

获取cookies

这是必要的步骤。首先登陆百度文库,按F12打开开发者工具,找到网络栏,F5刷新,找到Request URL和地址栏相同的一项,复制Request HeadersCookie的值,形如kunlunFlag=1; PSTM=1638106870; __yjs_duid=1_9d69de0379cb51aa4b48e663f9e1e6591638110590672;...

下载

获取到cookies后,可以通过命令行传参或者传文件两种形式。

.\wks.exe https://wenku.baidu.com/view/abcd.html -c "kunlunFlag=1; PSTM=1638106870;..."

.\wks.exe https://wenku.baidu.com/view/abcd.html -C Cookies.txt

进阶用法

-h, --help

显示帮助信息并退出。

-c COOKIES, --cookies COOKIES

传入cookie格式字符串,使请求带cookie。

-C COOKIES_FILENAME, --cookies_filename COOKIES_FILENAME

传入cookie文件,使请求带cookie。优先级低于前者。

-t, --temp

将临时文件保存到文件夹。

-o OUTPUT, --output OUTPUT

指定文件名(后缀名自动生成)

-u USERAGENT, --useragent USERAGENT

指定请求时User-Agent。

-F FILENAME, --filename FILENAME

批量下载。传入文件名,文件中一行一个链接。

wks's People

Contributors

boyinthesun avatar

Watchers

James Cloos avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.