houshanren / big_data_architect_skills Goto Github PK

View Code? Open in Web Editor NEW

458.0 42.0 170.0 38.92 MB

一个大数据架构师应该掌握的技能

bigdata hadoop skills spark xuan-xing analytics

big_data_architect_skills's Introduction

---- 持续更新中
---- 关于软实力部分同步会更新场景落地
---- 直接访问ProcessOn脑图请点击
---- 高清大图
---- 脑图文件

技能图

大数据架构师该掌握的技能

主要分为两块硬能力与软实力
- 一.平台建设
- 二.数据搜集
- 三.数据价值
- 四.数据安全
- 五.质量保障
- 六.个人素质
- 七.技术能力
- 八.产品与运营思维
- 九.团队建设管理能力
- 十.人生开悟之路

硬能力

一：平台建设
- 1.行业平台
  - 1）大平台
    - 谷歌云
    - 亚马逊云
    - 阿里云
    - 腾讯云
    - 网易云
    - 华为云
  - 2）小平台
    - 国云
    - 国双
    - 青云
    - 勤思
  - 3）专业工具平台
    - 海致BDP
    - 永洪
    - 易观
  - 4）APP分析平台
    - mix panel
    - growing IO
    - 神策
    - 诸葛 IO
- 2.技术选型
  - 1）CDH
  - 2）HDP+HDF
  - 3）MAPR
  - 4）Transwarp
- 3.平台架构
  - 1）HDP Core(平台核心也是Hadoop core)
    - HDFS(存储)
    - MapReduce(批处理)
    - Yarn(基础资源调度)
      - 负责集群资源的统一管理和调度
      - 单节点资源管理和使用
      - 应用程序管理
      - 对任务运行环境的抽象
      - 支持运行长应用程序和短应用程序
      - 支持docker fpga
      - 期待更细粒度的资源控制
      - 对比Mesos
    - Oozie(任务调度编排)
      - 平台调度的基础保障
      - hadoop 各种任务的使用与调度
      - 对比 Azkaban Airflow
    - Slider(调度支持新版已经集成yarn)
  - 2）Enterpise Data Warehouse(企业数据仓库)
    - Pig(基础脚本服务)
      - 用类sql语言保证mr执行顺畅
      - pig latin 的执行环境
    - Hive(数据仓库存储)
      - 基础数据仓库(ods gdm dw app dim)
      - 基础ETL的运行实例
      - OLAP的数据存储(kylin)
      - 各种数据的hive外表用于查询
      - 对比impala
    - Druid(adhoc方案实时多维查询和分析)
      - 已处理数十亿事件和TB级数据
      - 实时查询分析高可用、高容错、高性能
      - 交互式聚合和快速探究大量数据
      - 为OLAP工作流的探索性分析而构建，支持各种过滤、聚合和查询
      - 对比 drill mdrill 等
    - Tez(简化增强hive)
    - Sqoop(数据导入导出工具)
  - 3）Data sclence(数据科学)
    - Spark(内存通用并行计算)
      - 推荐相关
      - 数据清洗
      - 特征抽取
      - 预测相关
      - 对比 flink storm
    - flink
    - Spark sql(结构化数据处理)
    - Spark streaming(spark流式处理)
    - Zeppelin(界面分析挖掘工具)
      - 基于R和python的单机界面使用工具(分析挖掘)
      - 基于spark kafka 的界面操作工具
      - 基于预测数据的使用与展现
      - 支持pandas numpy
      - 支持R
      - 支持hive hbase spark sparksql sparkstreaming
      - 支持keras matplotlib pysql
  - 4）Operational data store(操作KV存储)
    - Hbase(kv数据存储)
    - Phoenix(hbase 类sql查询)
  - 5）Securlty governance(安全治理)
    - Knox(鉴权工具)
      - 数据的权限鉴权通道
      - 平台跟外部的出入口
    - Ranger(权限管理工具)
      - 架构下各组件的权限管理
      - 记录操作日志到solr
    - Atlas(元数据溯源与数据治理工具)
      - 大数据平台下各种操作的元数据记录
      - 数据打标签(对于维度指标 ETL等)
      - 可查询hive storm spark sqoop oozie nifi 元数据，可自定义实现自己的需要查看和维护的工具
      - 数据流转流程的图像化展现
      - 元数据操作记录与各种信息查询
  - 6）Stream procressing(流式计算)
    - Storm(实时数据处理分析)
    - Kafka(分布式发布订阅消息系统)
    - Streaming Analytics Manager (流式数据处理界面工具)
      - 拖放可视化设计，开发，部署和管理流式数据分析应用程序
      - 进行事件关联，上下文衔接，复杂模式匹配，分析聚合以及创建警报/通知
    - MiNiFi(边缘数据处理)
      - 数据产生的源头收集和处理数据
      - 通过实现边缘设备智能(edge intelligence)来调整数据流的双向通信
      - 可以数据溯源(Data Provenance)
      - 可以集中管理和下发Agents
      - java agent
      - c++ agent
  - 7）Operations(平台运维工具)
    - Ambari(大数据平台管理工具)
    - Ambari Metrics(监控平台各类服务及主机的运行情况)
    - Ambari Infra
    - Zookeeper(基础分布式保证工具)
    - Solr(搜索应用操作日志存储)
  - 8）Data operation platform(数据操作平台)
    - NiFi(数据 ETL 数据流处理)
      - 日志清洗业务数据入库
      - 基础数据(mysql binlog业务库 )ETL
      - 部分外部数据
      - 自定义数据接入方式
      - 自定义数据流程处理
      - 数据输出出口
    - NiFi Registry(NiFi版本管理工具)
      - NIFI的版本记录回溯
      - NIFI Schema Registry 来统一文件定义(类配置中心)
      - 配合SwaggerAPI数据定义
    - Hue(大数据交互界面平台)
  - 9）Data visualization(数据可视化工具)
    - Superset(数据分析界面工具)
    - FineBI(BI界面分析工具)
      - 报表数据可视化
      - 部分OLAP分析
      - Fine Index
      - FIne Direct
      - 现场数据实时展示
    - (Cboard) 主用于数据导出
    - Metabase
      - 直接用来对接运营产品的数据交互工具
      - 支持问题模式,支持对数据进行标记
    - 对比 Saiku Tableau Qlikview
    - 自主研发
      - Echarts HighCharts
      - inMap
      - datav
  - 10）OnlineAnalytical processing(OLAP解决方案 adhoc)
    - Kylin(MOLAP方案)
      - 维度间交叉分析
      - 构建过程基于hive集群不需要单独搭建
      - 数据存储于hbase集群，主要消耗磁盘
    - HAWQ(SQL on Hadoop)
      - 符合ANSI SQL规范并且支持SQL 92、99、2003 OLAP
      - 包含关联子查询、窗口函数、汇总与数据库、广泛的标量函数与聚合函数的功能
      - TPC-DS针对具有各种操作要求和复杂性的查询定义了99个模板（例如，点对点、报告、迭代、OLAP、数据挖掘等）
      - HAWQ使用Apache Ambari作为管理和配置的基础
    - GreenPlum(MPP架构升级版PostgreSQL) 学习资料
      - 基于PostgreSQL
      - 采用两阶段提交和全局事务管理机制来保证集群上分布式事务的一致性
      - 建立在实例级别上的并行计算，可在一次SQL请求中利用到每个节点上的多个CPU CORE的计算能力
      - 解决大问题而设计的并行计算技术，而不是大量的小问题的高并发请求
    - PostgreSQL (单机ORDBMS) 学习资料
      - 天生就是为扩展而生的，可以在PG中用Python、C、Perl、TCL、PLSQL等来扩展
      - 强大 SQL 支持能力和非常丰富的统计函数和统计语法支持
      - hash join、merge join、nestloop join的支持方面做的较好
    - Presto(MPP-SQL交互式查询引擎)
      - 多数据源(Hive,Hbase,RDBMS)
      - 支持标准SQL 不支持UDF
      - 对表的连接以及 group by操作有比较严格的大小限制
      - 对集群结点的内存和CPU消耗较大
    - Elasticsearch
      - 横向可扩展，高可用分片机制
      - 单集群,索引缓存在内存中,单节点易造成内存溢出
      - 不支持复杂sql,无法实现关联统计分析
    - HashData(SQL on Cloud)
      - 托管于云平台，用户不再需要为基础设施投资，不再需要调优运维，仅为您使用的计算资源买单
      - 分布式架构，根据负载快速扩充计算能力，实现高性能计算，满足用户交互式查询的需求。
      - 云数据仓库,针对云平台订制设计。利用云计算的优势，实现数据仓库的高可用、快速恢复、弹性扩容
    - ClickHouse 学习资料
      - 实时数据更新
      - 关系型、支持SQL
      - 可以不依赖hadoop平台
      - 分布式并行计算，把单机性能压榨到极限
      - 列式存储数据库，数据压缩
  - 1. Graph database(图数据库) 对比图
    - Janus Graph(图数据库引擎)
      - 图的序列化, 图的数据模型和高效的查询
      - 依赖hadoop来做图的统计和批量图操作
      - 为数据存储,索引和客户端访问实现了粗粒度的模块接口
      - 模块架构能和和许多存储,索引,客户端技术集成. 可以简便的扩展新的功能
    - Dgraph(事务性的分布式图形数据库)
      - 解决企业在数据库增长超过单个服务器时面临的一些问题而构建
      - 可扩展的，分布式的，低延迟的图数据库
      - 超过 TB 的结构数据里，为用户提供足够低延迟的实时查询
    - Neo4j(NoSQL图数据库)
    - ArangoDB(NoSQL数据库)
      - 原生多模型数据库
      - 可以将逻辑功能加入V8的 js framework Foxx™中并可以完全访问所有功能
      - 可扩展性，JOINS, 复杂事务处理
- 4.资源申请
  - 1）基准测试
  - 2）资源预估(基于业务存量与增量)
  - 3）理解各组件的CPU IO 内存硬盘带宽的特性
  - 4）硬件知识(RAID 存储加速存储接口等 )
  - 5）瓶颈资源预判
  - 6）分阶段保障
- 5.日常维护
  - 1）bigdata devops
  - 2）权限授权
  - 3）瓶颈判断
  - 4）继续需求的二次开发
  - 5）组件版本关注与升级
  - 6）各种疑难杂症修复
  - 7）环境维护(正式测试)
- 6.技术调研
  - 1）机器学习
  - 2）IOT相关
  - 3）边缘计算
- 7.云平台化建设
二：数据获取
- 1.公司内结构化数据
  - 1）增量
  - 2）全量
  - 3）拉链
  - 4）binlog
  - 5）接口
  - 6）kafka需求对接
2.小程序
- 1）支付宝小程序
- 2）头条系小程序
- 3）微信小程序
3.公司内非结构化数据
- 1）日志
  - 接口
  - 内部埋点
    - 后端埋点方案
    - 无埋点方案
    - url规约系统
    - 用户级别
    - 页面级别
    - CMS块级别
    - 事件级别
  - 第三方埋点
    - GA
    - 百度
    - 友盟
    - 其他
  - 搜索
- 2）视频
- 3）图像
- 4）excel
- 5）文档
4.外部数据(非公司IT支撑)
- 1）爬虫平台开发利用推进
- 2）API对接
- 3）销售使用的外部工具数据取回
  - 启信宝
  - 企查查
  - 天眼查
  - 赤狐
  - 各种CRM
- 4）运营使用的外部工具数据取回
  - 广点通
  - 达摩盘
  - 知乎DSP
  - 今日头条系
  - 百度系
  - 微博营销工具
  - 个推
  - 腾讯信鸽
  - 各种统计平台
  - ......
5.外部数据
- 1）数据报告
  - 199IT(100+)
  - 艾瑞(100+)
  - IT橘子
  - 国家互联网中心
  - 恒大研究院
  - 亿欧智库
  - 易观数据
  - **通信研究院
  - 腾讯数据实验室
  - 阿里研究中心
- 2）商业合作
  - 数据交换
  - 专项购买
  - 流量互补
- 3）竞品数据
  - 分析竞品列表
    - 风险信息商业环境
    - 正负面情绪
    - 新闻动态频率
    - 讨论度
    - 热点主题
    - 关联商家
    - 关联人物
    - 关联品牌
  - 爬虫获取商家商品评论等业务数据
  - 从一些公开平台获取统计数据
- 4）行业数据
  - 大盘数据
  - 行业动态数据
- 5）统计数据
  - Similar web
  - 新榜
- 6）数据资讯
  - 智东西
  - 大数据导航
三：数据价值
- 1.数据清洗
  - 日志数据清洗(UDF SparkStreaming )
  - 业务数据清洗
  - 维度数据抽取
  - NLP语义化
  - 图片识别等
- 2.数据仓库
  - 1）分层
    - Operational Data Store(ODS) 原始操作数据
    - General Data Mart(GDM)清洗后通用数据
    - Data WareHouse (DW)数据集市
    - Dimension Data(DIM)维度数据
  - 2）规范
    - 权限规范
    - ETL规范
    - 调度规范
  - 3）ETL
  - 4）元数据(Atlas查看和标记)
    - 业务元数据
    - ETL元数据
    - 数据元数据
- 3.统计报表
  - 分类
  - 维度
  - 指标
  - 数据可视化
- 4.商业智能
  - 关键指标与转化
    - 博弈分析法(找到博弈方，找到博弈方的冲突与矛盾)
    - 企业价值评估法(找到利益保持或者增长的关键点或者业务流程量化KPI)
    - 行业参考(标准行业的指标体系)
    - 保证少而精结果导向可衡量一致性
  - 影响业务决策
  - 影响运营决策
  - 影响老板决策
- 5.数据报告
  - 抓重点业务或关键路径
  - 体系化叙述
  - 重点数据解释
  - 编写参考玩转keynote
- 6.业务赋能
  - 用户画像
  - 推荐
  - 广告
  - 数据预警
  - 数据预测
  - 数据查询
  - 对运营支持的数据工具
  - 对业务销售支持的数据工具
- 7.数据产品
  - 2B
    - 行业标准与数据共享
    - 垂直行业指数项目
    - B端客户数据价值展示
  - 2C
    - 结合产品规划
    - 推荐
    - 搜索
    - 风控
    - 舆情监测
    - 用户画像
    - 反作弊
- 8.场景探索
四：数据安全
- 1.企业数据分级
  - 普通
  - 敏感
  - 机密
  - 绝密
- 2.数据隐私保护
  - Personal Identifiable Information(PII级别)
  - 用户唯一标识(因公司而异)
  - 核心业务数据订单优惠券等(掩码)
- 3.平台权限控制
  - 数据导出权限控制
  - 账号跟踪与密钥更换
  - 数据使用申请
- 4.数据流程规范
  - 需求对接规范
  - 数据订正规范
  - 业务数据变更修正
五：质量保障
- 1.平台与资源保障
- 2.数据质量
- 3.统一口径
- 4.故障跟进

软实力

一：个人素质
- 1.体系化建设
  - 1）快速了解一个体系
    - 渠道
      - 专业图书
      - 技术官网
      - github
      - processon 里的推荐功能
      - 技术博客
      - 知乎
      - 体系报告网站(参考数据获取-外部数据-数据报告)
      - 各种行业平台网站
      - 谷歌百度
      - 找朋友聊加微信QQ群
    - 记录整理
      - 找个工具记录散漫的疯狂阅读与吸取
      - 最好用表格来划分横向维度和纵向维度
    - 消除杂音
      - 刨除过程中一些过时的资料或者概念
      - 尽量找原版的设计与理解
  - 2）快速形成自己的理解
    - 聚合
    - 分类
    - 排序
    - 深入
  - 3）系统计划
  - 4）修正策略
  - 5）投资视角看公司
    - 商业模式
      - 完整的产品、服务和信息流体系，不完全决定着盈利模式但是衡量盈利模式的基础
      - 简单易懂一句话说明白的模式就是好模式
      - 在产业上下游关系所处的位置
      - 定价权在哪里
      - 企业和客户关系的好坏
    - 盈利模式
      - 探求企业利润来源、生产过程以及产出，对企业经营要素进行价值识别和管理关注持续力
    - 团队
      - 关注公司的团队架构，工作任务如何进行分工、分组和协调合作。关注CXO
        
        专一性
        
        创新性
        
        管理者优势
    - 用户来源
      - 关注在特定的公司下他们是如何获客的，获客的效果与方法是否可以持续健康的保持优势
    - 现金流
      - 公司对于内部价值的挖掘和在商业上的资金变现能力
    - 成本结构
      - 成本结构
      - 决定因素
      - 成本产业优化
      - 变现能力
    - 路径依赖
      - 公司内部对主营业务的依赖性，对于新业务拓展的阻碍。在快速调整方向时能动性的高低
    - 烧钱速度
    - 竞争对手
      - 赛道内竞争对手的强弱与个数，竞争对手的资方背景。竞争对手对红海的竞争性与蓝海的开拓性
    - (赛道)行业特性
      - 垂直行业内的一些特殊关注点和可能发现的价值挖掘点，也是可能构建护城河的点
    - 价值流失
      - 价值守护的能力，包括资产数据用户，针对于流失的方法策略是否有意识和具体的动作
    - 护城河
      - 抵御竞争者的保护措施
        
        财务效率
        
        边际成本
        
        回报率
        
        品牌效应
    - 天花板
      - 公司所在的行业是否已经进入饱和状态，是否供过于求
        
        关注行业或者需求拐点
        
        关注小行业的大公司
        
        关注新旧势力平衡关系
        
        关注面对天花板公司采取的策略
- 2.业务破局
  - 1）了解业务
    - 老板高管经理
      - 投其所好
        
        多渠道的了解老板画像
        
        试探数据价值的关注度
      - 换位思考
        
        从他们的角度去考虑他们遇到的困难，不解和所做的决定
        
        不要被他们的思维固化(在其位谋其政)影响你对于数据价值的思考
      - 全面的体系重要的分级
        
        全面的体系化建设(基于对行业业务数据的宽泛认知)
        
        永远要记住摸清主线
        
        按照重要程度(看势)做事情的分级
      - 观察对方的底线(长期)
    - 技术产品运营
      - 技术体系初步印象
        
        前端(ios android pc tv) 涉及到埋点日志事情
        
        后端(微服务链路数据库) 涉及到业务数据入库和日志收集
      - 掌握全局(局部)数据库
        
        先全面后局部的感觉下数据库设计(如果有ER图提供最好)
        
        感觉下量级与增速
      - 深入了解产品的规划
        
        找到契合点不要越界
        
        数据价值为主外层的展现为辅
        
        产品方向的数据价值多数来自C端所以推荐广告用户画像等为主不同的行业考虑下特性应用(O2O IOT 新零售 AI的落地应用)
      - 拿出诚意才会得到配合
        
        站在开发者角度去尽量减轻他们的负担
        
        日志与埋点的配合
        
        业务数据入库配合
        
        底层运维支持配合
        
        技术层面的分享带给别人更多理解相关技术的机会
      - 是否需要数据产品经理
        
        涉及到产品规划和业务赋能的最好有数据产品对接
        
        关于数据报表分析的最好让数据分析人员进入对接一线
    - 销售业务财务
      - 良好的沟通从兴趣开始
      - 数据价值来源于解决B端面临问题
        
        是否能提供有价值的数据让业务跑得更快
        
        能否提供销售更直接的客户服务数据
        
        财务的事情佛系对待
      - 合适的机会跟他们一起开会，反复强调的内容里面就有重点和痛点
      - 多花时间研究他们的工作流程
        
        流程最能体现价值(优化提速转化效率)
        
        接触工作流程中可以更深刻的理解业务
      - 关键指标一定会有所提及(不懂找资料学习再沟通) 绕不过的钱
        
        记录关键指标自己先琢磨在找懂的人沟通
        
        遇到不分享的可以先想办法解决他的一些问题，无论大小，展现诚意。记住自己的目标
  - 2）分析痛点
    - 将痛点归类(部门角色数据源数据价值)
    - 归类后痛点间的关联关系找主线
    - 能解决的痛点才是痛点
    - 缩小范围解决头部需求反手解决次类需求
  - 3）专注行动
    - 象限法(重要紧急四象限)
      - 优先处理重要且紧急紧急不重要的
      - 阶段性的处理重要不紧急的(这种事情要记录在本本上)
    - 行动前的影响与价值预估
      - 可能对其他部门或人造成的工作加重减轻与正负面影响
      - 行动能得到的可能价值(对需求方相关人团队自己)
    - 可拆解的任务才能行动
      - 行动计划保证在一个可控范围内(人员时间资源 )
      - 任务的串并行尝试
      - 人员维度的安排
      - 时间维度的安排
    - 行动中的修正与反馈
      - 寻找一个反馈对象(最好是需求方)
      - 修正来源于对结果的不可控(保证损失最小)
    - 拿到结果一定要说话(不要当哑巴付出得到回报天经地义)
      - 打算说给谁听
      - 准备好PPT(参见玩转keynote)
      - 时间地点
- 3.数据解读
  - 考虑受众
    - 想要说给谁听是重中之重
    - 了解对方的工作特性用类比方式的去阐述数据
  - 实事求是轻易不下结论
    - 全局意识
    - 局部业务专研分析思维
    - 小心求证，在给出数据前多做检验
  - 会看数据
    - 维度-指标-特征-缺失-差值-聚合-分类-排序
    - 比率-中数-众数-方差-维度相关性
    - 多维度的去思考和验证
    - 寻找数据点(点) - 寻找主数据(线) - 串联数据的顺序关系(面)
- 4.工具利用
  - 1）时间管理工具
    - Omni Focus
    - Tyme2
  - 2）快速记录工具
    - 备忘录
    - Wiki
    - Macdown
  - 3）扩展思维工具
    - MindNode
    - Processon
  - 4）学习成长工具
- 5.清醒复盘
  - 1）复盘前的思考
  - 2）何时复盘
  - 3）避坑总结
- 6.玩转keynote
  - 1）确定主题与讲述思路
    - 解决痛点模式
    - 突出主题模式
    - 流程讲解模式
    - 技术分享模式
    - 融资招商模式
    - 数据报告模式
  - 2）讲述靠说不靠堆叠
    - 言简意赅
    - 归纳总结
  - 3）利用模板来快速制作和辅助思路
    - 参考模板
      - Layouts for Keynote(App Store有售)
      - PC6合集
    - 辅助思路
      - 当有些思路阻碍可以看看模板上被人是如何处理和展现的
      - 运用模板的特殊元素来装扮自己的文案
  - 4）基础色调选取与排版建议
    - 色调选择
      - 运用模板的特殊元素来装扮自己的文案
      - 多用过度色原则上整体别超过5个
      - 颜色可以用吸管从浅入深或由深入浅波动选择
      - 黑白灰为常用过度配色
      - 分清极暖色极冷色暖色冷色微暖微冷
      - 色彩的对比平衡混合多练习
    - 排版建议
      - 建议用“细黑”的字体，比如冬青黑体，华文雅黑，微软雅黑light等
      - 节奏感：尺寸大小，上下位移，旋转，间距，就是不能让文字之间稳当地排在一起
      - 巧用各种图形可以更形象化的让人理解
      - 大纲最好列在每页的面包屑上
    - 巧用动画
- 7.行业关注
二：团队管理
- 1.遇见对的人
- 2.人尽其才
  - 组团队
  - 差异化
  - 重培养
- 3.上通下达
- 4.拒绝沉溺(不要给鱼)
- 5.老司机别翻车
  - 容忍与控制
  - 不要触碰底线
  - 没有什么是烧烤不能解决的如果有那就两顿
三：技术能力
- 1.编程
- 2.算法
- 3.数据仓库
- 4.工程
四：人生之路
- 1.平衡之道
  - 1. 规划VS变动
  - 1. 领导VS下属
  - 1. 个人VS团队
  - 1. 资源VS价值
  - 1. 家庭VS工作
- 2.破除心魔
  - 1）以结果导向
    - 理论上个人感受会是结果导向的障碍
    - 结果是个大家相对一致的预期结果
  - 2）接受一家公司代表要融入一种文化
    - 是否喜欢是个很重要的分水岭
    - 无论什么企业文化都会以结果为导向
    - 综合评定自己的容忍度
  - 3）敲碎or划清边界
    - 阻碍目标的大多都是边界内自己要做或者推动的
  - 4）多维度的看待事情
    - 不要再不同纬度观点下讨论事情，这样容易产生无谓的争执
    - 当一种角度理解不了某些人或事的时候那就切换下角度
    - 对一个事情或者一个人的评判一定不要单纯的一个角度下结论
    - 同样的维度之间切换自如有助于你讨喜
  - 5）信任之路且行且珍惜
  - 6）道德沦陷还是底线失守
    - 改变自己，做自己认为恶心的事情是不是就是道德沦陷
    - 底线是一个恒久不变的还是一个根据自己的发展阶段家人事业朋友动态调整的
- 3.推荐书籍
  - 1）技术类(不包含理论与技术框架)
    - 《数学之美》
    - 《数据仓库工具箱：维度建模的完全指南》
    - 《美团机器学习实践》
    - 《数据挖掘与数据化运营实战思路、方法、技巧与应用》
  - 2）业务类
    - 《无印良品的改革》
    - 《增长黑客》
    - 《智联网》
    - 《浪潮之巅》
    - 《京东平台化数据运营》
  - 3）管理与心理学
    - 《原则》
    - 《乌合之众》
    - 《说谎》
    - 《卓有成效的管理者》
    - 《九型人格》
    - 《影响力》

big_data_architect_skills's People

Contributors

Stargazers

Watchers

Forkers

flandycheng inter12 rickyhuangwei gyp03 pixiaozheng geoffreypandan sgmqs liweidong32768 otie2011 sealter andytsing share020 ljwkevin cnlubo dreamsuifeng bboyeswing yishengxiaoyao fengfengsolucky bjgyl linwayne ideepthink wxpjimmy assmdx yanjung vickyi wangxing-bees360 starryocean qiankeqin lstarby jiening123 gung001 panhuida im-elvis imgaara rjbj yistar-traitor powerdg ichoukou vucciw fattygirl caobaohe qiuqiuxiaomaomi bigdata-ai aimeepeng tom2jack dark7wind binlijin anke522 rongqinglee barry404 reraaan bgstudy jackmeidy 9253761 mayishenxiang leonlxw midgithub rowen110 huangqiang76 lsyee10 tifancy li-zhang-yu ilibx didadoudou1 robindu325 jdsin xuxin1983 lushtree-cn-honeyzhao iamlibo liuwq168 skdfeitian blueroutecn lslone yewu123 yougoodigood zhtianyi winter7 hercwey fushengbin zhouk798 kevin-nicks sailor-wu liuhaodong666666 yzhok eddielau0402 adongxu zuiwengf brain1234 tandakun zwunix lewis2222 alenwon zvrr tankwuwei xiwu1994 beijingnewbie danfengzi wuwenxu yh0926 shiyi23

big_data_architect_skills's Issues

总结的非常详细，有点牛逼啊，很多方面能否细化一下

【招聘】大数据开发相关人才长期有效

关于我司：

招商拓扑银行，由招商银行和京东数科联合成立的新一代银行，致力于探索银行新形态；

工作地点

上海浦东新区

我们急需什么样的人才？

数据仓库工程师

职责描述：

提供快速、准确、灵活的数据仓库主题域、集市支持；
负责数据仓库相关数据管理规范制定及落地，如建模规范、质量规范等；
负责企业数据仓库的数据模型以及数仓应用产品的模型设计开发；
负责离线及实时方向数据体系的统一规划、设计及落地，为数据产品开发及算法开发提供更加高效的数据支持；
数据仓库ETL流程的优化及解决ETL相关技术问题；

任职要求：

全日制本科及以上学历，计算机、数学等相关专业优先
3年互联网/金融行业的数据仓库开发经验，有监管报表、财务集市等工作经验优先
熟悉数据仓库模型设计与ETL开发经验，掌握Kimball的维度建模设计方法，具备海量数据加工处理（ETL）相关经验
掌握Python, Scala,SQL等开发语言，精通SQL，有一定的SQL性能调优经验，熟悉hive sql的开发，熟悉基于Hadoop、HBase、Kylin、Hive、Impala、Flink等分布式计算平台的数据开发
掌握常见数据存储系统如HBase，HDFS，MySQL, Redis等, 了解大数据相关技术，如Hadoop、HBase、Kylin、Hive、Impala、Flink等

数据治理专家

职责描述：

参与数据治理规划，制定实施方案，并负责具体方案落地执行工作；
负责数据标准、数据质量、元数据等领域的实施、推动系统化建设，并监督执行落地情况；
负责数据出现的数据资产管理的问题进行分析并制定解决方案。

任职要求：

全日制本科及以上学历，经济、金融、计算机技术等相关专业优先；
3年数据治理或参与数据标准、数据质量、数据安全等数据管控的项目实施、咨询、设计经验；有金融、银行等大型数据仓库模型设计经验优先；
具有比较突出的组织、协调及沟通能力。

大数据研发工程师 (应用方向)

职责描述：

从事大数据应用系统的需求分析、架构设计、项目推进、技术研发，负责线上系统的维护和管理，保障系统稳定运行；
从事大数据应用系统的架构建设，结合业务项目，创新突破技术难点，提升研发运维效率，提升组织效能；
对所负责系统进行规划，并结合项目不断优化和升级，提高性能、稳定性、扩展性；
结合业务发展，与产品运营配合进行业务分析、项目预研，推进业务创新发展。

任职要求：

全日制大学本科及以上学历，计算机或相关专业，2年及以上工作经验；
具备扎实的Java基础，熟悉常用的设计模式；熟悉Java及Web的开发和应用；
熟悉Spring/MyBatis/Tomcat/Dubbo等常用Java开源框架，对其运行原理有较好的理解。
精通数据库设计（Mysql优先），优秀的SQL编写及调优能力，熟悉常见NoSQL存储，如Hbase，ES、redis等。
具有多线程、分布式、高并发、高负载、高可用性、系统调优等相关经验者优先；
熟悉敏捷开发流程，具有较强的管理协调能力和产品思维，善于沟通和应变，具有团队精神。

数据分析经理

职责描述：

为银行各类产品提供数据化运营支持。包括但不限于用户兴趣偏好预测、特征评分等
搭建用户经营体系，精细化制定运营策略
基于大数据平台，建立统计与机器学习的模型，设计A/B检验并分析结果，数据可视化。
善于跨部门合作，与各业务共同制定产品与运营策略、跟进模型的部署与成果反馈、跟踪/监控模型表现并进行迭代优化。

任职要求：

全日制本科及以上学历，统计学、数学计算机技术等相关专业优先
3年以上工作经验，对于数据挖掘/机器学习有深入的了解，包括但不限于线性回归、Logistic回归、XGboost,决策树、随机森林等。
熟练掌握编程语言与常见工具。包括但不限于R、Python、Hive SQL等。
对于未知领域有强烈的好奇心，敢于尝试新鲜事物，具备批判性思维。
有良好的沟通能力，善于合作、能够跨部门/团队跟合作团队达成一致目标拿到结果。

数据产品经理

职责描述：

负责业务报表、监控体系的建设和管理，独立完成需求调研、方案设计以及团队间协调资源推动项目落地。
根据实际业务分析需求，整体统筹数据指标体系建设，通过灵活可扩展的可视化数据看板进行专业级的数据分析。
负责用户标签体系与画像可视化分析，根据业务核心指标，可视化监控业务，分析业务潜在突破点，为业务带来增长。
对反馈的问题建议进行整理分析，及时提出并执行优化方案。

任职要求：

本科及以上学历，统计学、数学、计算机专业优先；
3年以上数据分析、数据体系搭建、数据产品等相关工作经验，有银行或金融业数据相关经验优先；
具备良好的数据敏感度、业务视野、调研分析能力及深度思考能力，能够敏锐捕获用户需求，提供相匹配的数据产品；
熟悉数据采集及集成、数据仓库、数据集市，有数据仓库、BI、数据挖掘等方面的工作经验者优先。
有良好的沟通能力，善于合作、能够跨部门/团队跟合作团队达成一致目标拿到结果。

大数据研发工程师 (平台方向)

职责描述：

负责搭建准确、高效、安全的数据基础平台。
负责大数据基础架构的的设计、开发与维护。
负责实时处理基础架构的的设计、开发与维护。
持续优化大数据技术架构，应对高并发访问，大数据存储，安全，备份，计算等问题。
负责新技术的调研和落地。

任职要求：

全日制本科或以上学历，985/211院校毕业，计算机等相关专业优先
2年以上相关经验，有大数据相关领域经验或者数据平台架构经验；
熟悉使用JAVA等后台开发语言与常用数据结构和算法；
熟悉Hadoop、Hive 、Spark、HBase、Flink、Kafka、Flume等框架技术，具备源码级解决问题或者集群优化改造能力者优先。
逻辑思维严密，具有良好的沟通，团队协作，计划和创新的能力。

其他技术类、职能类和金融业务类也有强烈需求！

收入与福利：

在正常的五险一金基础上，我们还会提供：

富有市场竞争力的薪酬
商业医疗保险
补充公积金
年度体检

还有更多福利还等你发掘😉

详细可以咨询微信lilin5263，邮箱[email protected]

Recommend Projects

React

A declarative, efficient, and flexible JavaScript library for building user interfaces.
Vue.js

🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
Typescript

TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
TensorFlow

An Open Source Machine Learning Framework for Everyone
Django

The Web framework for perfectionists with deadlines.
Laravel

A PHP framework for web artisans
D3

Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

javascript

JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
web

Some thing interesting about web. New door for the world.
server

A server is a program made to process requests and deliver data to clients.
Machine learning

Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Visualization

Some thing interesting about visualization, use data art
Game

Some thing interesting about game, make everyone happy.

Recommend Org

Facebook

We are working to build community through open source technology. NB: members must have two-factor auth.
Microsoft

Open source projects and samples from Microsoft.
Google

Google ❤️ Open Source for everyone.
Alibaba

Alibaba Open Source for everyone
D3

Data-Driven Documents codes.
Tencent

China tencent open source team.