选择了2个数据集进行探索性分析与预处理,分别是来自盗版网站的电影数据集和美国阿尔茨海默病与健康老龄化数据集,代码分别在文件Movies Dataset from Pirated Sites.ipynb和Alzheimer Disease and Healthy Aging Data In US.ipynb中。
- 来自盗版网站的电影数据集 https://www.kaggle.com/datasets/amirmotefaker/movielens-10m-dataset-latest-version 这个数据集是从一个盗版网站收集的,该网站每月的访问量约为200万,包含了来自好莱坞、宝莱坞、动漫等所有行业的2万多部电影。
- 美国阿尔茨海默病与健康老龄化数据集 https://www.kaggle.com/datasets/ananthu19/alzheimer-disease-and-healthy-aging-data-in-us 该数据集包括一系列变量的信息,如人口统计特征、健康状况、医疗保健利用率和健康行为。该数据集的主要焦点是阿尔茨海默病和相关痴呆,包括患病率、发病率、风险因素和结果。数据可用于确定这些疾病的患病率和发病率的趋势和模式,以及探索可能有助于预防或减轻其影响的潜在风险因素和干预措施。