进入大数据的真实世界
林海老师(1天)
课程背景
时移而势变,互联网带来了“大数据(BigData)”的爆发,企业和个人被卷入了新的数字化洪流。你的客户、你的员工已经被悄无声息的改变,工业时代的致胜秘籍和战略空间已经不再继续有效,大数据给我们带来了新的价值创造方式。
目前,市面上流行的大数据培训一部分侧重于实现算法和公式推导,适合编程人士学习,但过于晦涩,需要较高的学历基础,另外一部分侧重于创新理念和案例介绍,适合普及概念,但缺乏实战性,不利于深度的理解和把握,无法为我所用。
为了弥补这些不足,融业务和技术创新于一体,林海老师根据长时间的理论和实践经验,开发了本门课程,将会带给学员全新的知识体验,启发自己的大数据思维,获得大数据算法的框架和使用指引,可以在工作中灵活运用,帮助企业洞察问题、发现规律和改进方向,并能够运用所学知识,结合公司实际情况,再造自己的数字化业务。
主要话题
数据分析思维的“破”与“立”
世界认知的重构:数据分析的模型和算法
数据分析实战:从代码中观测世界的变化
创新:“始”于问题,庖丁解牛、“终”于解决
课程大纲
第一单元 思维转变:从报表统计思维进入数据分析思维
一、 入门:数据是对“事实”的观测
二、 转变:数据思维意味着什么
1、主动找数据变为被动推荐
2、抽样数据变为全集数据
3、要求精确变为欢迎复杂
4、事后分析变为实时监控
5、专家分析变为机器学习
6、由流程为核心变为以数据为核心
7、由客户分类变为个性化服务
8、由人与人连接变为人与机器连接
第二单元 认知重构:进入模型和算法统治的世界
一、数据分析三大核心模型
1、分类:真与假;好与坏;高、中、低。不会分类,就不会思考
2、预测:输入变量,求得结果。代表了掌握规律的能力,生活是可预知的
3、相关性:模糊、近似、有关,是一种简便的、粗略的全盘操控能力
二、五大初级算法
1、相关性分析:最入门、最常用、最刚需的分析方法
2、散点图分析:最被忽略的探索性分析方法
3、概览性分析:教科书上都不重视的全局总览的分析方法
4、回归分析:最容易理解的由x推导出y的方程式分析法
5、聚类分析:最粗暴的物以类聚人以群分的分析方法
三、六大中级算法
1、降维分析:数据太多,抓住主要数据的方法
2、决策树分析:最容易理解的决策分析
3、关联规则分析:貌似没有规模,却可以寻找一个规律
4、相似性分析:当前最热门的分析方法,如:人脸识别、指纹识别
5、可视化分析:河流图、风向图、热力图等各种别具一格的数据呈现方式
6、文本分析:从大量的文字中快速提取关键信息
四、两大大数据高级算法
1、神经网络算法:最牛逼的模拟大脑的算法,如埃尔法狗围棋
2、支持向量机算法:实用性和准确性较强的一个机器学习算法
第三单元 操作实战:从代码中观测到的“真实”世界
一、学会用数据分析创新性的解决问题
1、What:问题是什么
2、Judgement:能用数据分析解决吗
3、Prerequisite:具备数据基础吗
4、ModelSelect:选择哪个模型
5、Visualization:怎么呈现结果
6、Design:设计流程,形成文档
二、学会用代码去测试和逼近真相
1、数据获取(导入数据、爬取数据)
2、数据探索分析、概览分析
3、明确分析目的
4、选择x和y
5、对格式进行转换
6、选择模型(模型选择准则)
7、使用交叉验证规则,切分数据
8、用模型进行训练
9、分析模型预测结果
10、确定最优模型
11、使用和预测
12、报告和呈现