基础算法
常用软件包
- anaconda 一个包管理工具,自带科学计算工具全家桶
- numpy 科学计算包
- scikit-learn 机器学习工具包,大部分机器学习的算法都有实现
- XGBoost/LightGBM Gradient Boosting算法的工业级框架
常见术语
- Train Data 训练数据
- Test Data 测试数据
- Train Set 训练集
- Valid Set 验证集
- Cost Function 代价函数
- Learning Rate, Step, Epoch
- Early Stopping
- Overfitting, Underfitting 过拟合、欠拟合
- Regularization 正则化
- Ensemble learning(bagging, boosting) 集成学习
- Learning optimizer
两个路线
学术上
学习以下基础算法
- 线性回归
- 逻辑回归
- 决策树算法及衍生的GBDT算法和随机森林算法
- k-NN
- SVM
书籍:《机器学习实战》《机器学习—周志华》《凸优化》,从前往后数学性越来越浓。
公开课:Andrew ng《机器学习》教程
工程上
提升算法运行效率
逻辑回归向量化
GDBT并行化
随机森林并行化
可视化
方面观察训练结果、参数的收敛情况等信息,一般框架会集成。
参加Kaggle比赛
Kaggle是一个数据科学竞赛平台,企业或组织提供奖金来征集解决方案。Kaggle提供了一个介于“完美”与真实之间的过渡环境,问题的定义基本良好,非常适合用来实战练手。
推荐经典的手写数字识别问题,适合初学者实战
深度学习
常用工具
- tensorflow, tensorboard
- caffe
常见术语
- Activation Function 激活函数 Relu, tanh, sigmoid
- Full Connected 全连接
- Backpropagation 反向传播
- 正则化 L1, L2, Dropout
- 学习率算法
- CNN卷积神经网络
- RNN循环神经网络