本项目目标是基于阿里云搭建全分布式系统,运行Hadoop3 + Spark2 + MongoDB + something else做一些好玩的事,目前正在构思与探索。这是笔者第一次上手大数据平台,因此秉持着“study with output”的精神,尝试把从下载软件到跑通代码的过程都记录下来,并且尽力“知其所以然”。所以本项目记录比较详细,适合新手阅读。
边学边记。
因配置环境只需要一篇文档,这里把配置环境的说明统一文件放到Documentations
文件夹下。
- Hadoop3全分布式 + Hadoop streaming环境搭建
- Spark全分布式安装
- Scala语法基础
- Scala + Spark基础
- Spark Streaming基础 + 实例 (Scala)
- Spark + SQL实例 (Scala + python3)
- Jupyter Notebook + Spark 配置
- MongoDB的本地安装 + PyMongo的基本操作
- MongoDB的全分布式安装
- Pig的全分布式安装
- 未完待续
这一部分数据集能够在公开渠道下载。
- kaggle - Amazon sales rank data for print and kindle books--3.66GB
- THUCNews数据集--2.04GB
- 全网新闻数据(SogouCA,2012)数据集--2.08GB
- 高频交易数据(tick_csv_daily)--7.16GB
这一部分数据集由笔者自行爬取获得。
- 使用Spark分析kaggle - Amazon sales数据
- Python+MongoDB————爬取与存储数据 未完待续
- 使用全分布式Pig分析数据 挖坑待填
- 全分布下Hadoop和MongoDB的使用 挖坑待填
- 未完待续