机器学习road map

2017/10/15 posted in  机器学习

基础算法

常用软件包

  • anaconda 一个包管理工具,自带科学计算工具全家桶
  • numpy 科学计算包
  • scikit-learn 机器学习工具包,大部分机器学习的算法都有实现
  • XGBoost/LightGBM Gradient Boosting算法的工业级框架

常见术语

  • Train Data 训练数据
  • Test Data 测试数据
  • Train Set 训练集
  • Valid Set 验证集
  • Cost Function 代价函数
  • Learning Rate, Step, Epoch
  • Early Stopping
  • Overfitting, Underfitting 过拟合、欠拟合
  • Regularization 正则化
  • Ensemble learning(bagging, boosting) 集成学习
  • Learning optimizer

两个路线

学术上

学习以下基础算法

  • 线性回归
  • 逻辑回归
  • 决策树算法及衍生的GBDT算法和随机森林算法
  • k-NN
  • SVM

书籍:《机器学习实战》《机器学习—周志华》《凸优化》,从前往后数学性越来越浓。
公开课:Andrew ng《机器学习》教程

工程上

提升算法运行效率

逻辑回归向量化
GDBT并行化
随机森林并行化

可视化

方面观察训练结果、参数的收敛情况等信息,一般框架会集成。

参加Kaggle比赛

Kaggle是一个数据科学竞赛平台,企业或组织提供奖金来征集解决方案。Kaggle提供了一个介于“完美”与真实之间的过渡环境,问题的定义基本良好,非常适合用来实战练手。
推荐经典的手写数字识别问题,适合初学者实战

深度学习

常用工具

  • tensorflow, tensorboard
  • caffe

常见术语

  • Activation Function 激活函数 Relu, tanh, sigmoid
  • Full Connected 全连接
  • Backpropagation 反向传播
  • 正则化 L1, L2, Dropout
  • 学习率算法
  • CNN卷积神经网络
  • RNN循环神经网络

学习资料

《深度学习》

台大李宏毅教授视频