Giter Club home page Giter Club logo

py-scraping-analysis-book's Introduction

Python 網路爬蟲與資料分析入門實戰」範例程式碼

作者:林俊瑋、林修博;出版商:博碩文化

程式碼範例更新紀錄

目錄

  1. 環境設定與網頁爬蟲初探
  • 1-1 環境設定及套件安裝:Anaconda
  • 1-2 使用IDE:PyCharm
  • 1-3 使用Jupyter Notebook
  • 1-4 網頁文件解構與網頁爬蟲初探
  1. Beautiful Soup 講解與網頁解構
  • 2-1 不要重複造輪子:寫爬蟲之前
  • 2-2 Beautiful Soup 重要功能 (find(), find_all(), .text, .stripped_strings)
  • 2-3 網頁結構巡覽(parent, children, siblings)
  • 2-4 正規表示式 (Regular Expression)
  1. 網頁爬蟲範例實戰
  • 3-1 PTT 八卦板今日熱門文章
  • 3-2 Yahoo 奇摩電影本週新片
  • 3-3 兩大報當日焦點新聞
  • 3-4 Google 搜尋股價資訊
  • 3-5 Dcard 今日熱門文章
  1. 使用 API
  • 4-1 API 簡介
  • 4-2 PTT 八卦板眾來源分佈 (ipstack.com)
  • 4-3 IMDB API
  • 4-4 Google Maps APIs (Google Geocoding/Places API)
  • 4-5 Dcard API
  1. 資料儲存
  • 5-1 儲存圖片與多媒體檔案
  • 5-2 儲存資料到 CSV 檔
  • 5-3 儲存資料到資料庫 SQLite
  1. 不同編碼與類型的文件
  • 非 UTF-8 編碼的文件
  • XML 文件
  1. 進階爬蟲議題
  • 處理表單及登入頁 :台灣高鐵時刻查詢
  • 處理表單及登入頁 :Yelp 登入
  • 使用WebDriver:台銀法拍屋資訊查詢
  • 爬蟲程式經驗談:被封鎖的常見原因、常用 Header 欄位、網站隱藏欄位、使用代理伺服器
  1. 資料分析實戰
  • 台股每日盤後資訊爬蟲及策略回測(量化投資)
  • 電影評論情緒分析(中文自然語言處理與機器學習)
  • 商品特價 Gmail 通知:Costco 商品網頁

附表 本書範例目標網站列表

  • 附錄A 在 Mac 安裝Anaconda 開發環境
  • 附錄B Python 爬蟲框架Scrapy 入門教學

py-scraping-analysis-book's People

Contributors

behappycc avatar jwlin avatar

Stargazers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.