Category Archives: ML&DL

机器学习及大数据相关面试的职责和面试问题

六月 5, 2017BigData, Interview, ML&DL大数据, 机器学习, 面试dotte

· 机器学习、大数据相关岗位的职责

· 面试问题

· 答题思路

· 准备建议

· 总结

各个企业对这类岗位的命名可能有所不同，比如推荐算法/数据挖掘/自然语言处理/机器学习算法工程师，或简称算法工程师，还有的称为搜索/推荐算法工程师，甚至有的并入后台工程师的范畴，视岗位具体要求而定。

机器学习、大数据相关岗位的职责

根据业务的不同，岗位职责大概分为：

1、平台搭建类

· 数据计算平台搭建，基础算法实现，当然，要求支持大样本量、高维度数据，所以可能还需要底层开发、并行计算、分布式计算等方面的知识；

2、算法研究类

· 文本挖掘，如领域知识图谱构建、垃圾短信过滤等；

· 推荐，广告推荐、APP 推荐、题目推荐、新闻推荐等；

· 排序，搜索结果排序、广告排序等；

· 其它，· 广告投放效果分析；· 互联网信用评价；· 图像识别、理解。

3、数据挖掘类

· 商业智能，如统计报表；

· 用户体验分析，预测流失用户。

以下首先介绍面试中遇到的一些真实问题，然后谈一谈答题和面试准备上的建议。

面试问题

1、你在研究/项目/实习经历中主要用过哪些机器学习/数据挖掘的算法？

2、你熟悉的机器学习/数据挖掘算法主要有哪些？

3、你用过哪些机器学习/数据挖掘工具或框架？

4、基础知识· 无监督和有监督算法的区别？· SVM 的推导，特性？多分类怎么处理？· LR 的推导，特性？· 决策树的特性？· SVM、LR、决策树的对比？· GBDT 和决策森林的区别？· 如何判断函数凸或非凸？· 解释对偶的概念。· 如何进行特征选择？· 为什么会产生过拟合，有哪些方法可以预防或克服过拟合？· 介绍卷积神经网络，和 DBN 有什么区别？· 采用 EM 算法求解的模型有哪些，为什么不用牛顿法或梯度下降法？· 用 EM 算法推导解释 Kmeans。· 用过哪些聚类算法，解释密度聚类算法。· 聚类算法中的距离度量有哪些？· 如何进行实体识别？· 解释贝叶斯公式和朴素贝叶斯分类。· 写一个 Hadoop 版本的 wordcount· ……

5、开放问题

· 给你公司内部群组的聊天记录，怎样区分出主管和员工？

· 如何评估网站内容的真实性（针对代刷、作弊类）？

· 深度学习在推荐系统上可能有怎样的发挥？

· 路段平均车速反映了路况，在道路上布控采集车辆速度，如何对路况做出合理估计？采集数据中的异常值如何处理？

· 如何根据语料计算两个词词义的相似度？

· 在百度贴吧里发布 APP 广告，问推荐策略？

· 如何判断自己实现的 LR、Kmeans 算法是否正确？

· 100亿数字，怎么统计前100大的？

· ……

答题思路

1、用过什么算法？

· 最好是在项目/实习的大数据场景里用过，比如推荐里用过 CF、LR，分类里用过 SVM、GBDT；

· 一般用法是什么，是不是自己实现的，有什么比较知名的实现，使用过程中踩过哪些坑；

· 优缺点分析。

2、熟悉的算法有哪些？

· 基础算法要多说，其它算法要挑熟悉程度高的说，不光列举算法，也适当说说应用场合；

· 面试官和你的研究方向可能不匹配，不过在基础算法上你们还是有很多共同语言的，你说得太高大上可能效果并不好，一方面面试官还是要问基础的，另一方面一旦面试官突发奇想让你给他讲解高大上的内容，而你只是泛泛的了解，那就傻叉了。

3、用过哪些框架/算法包？

· 主流的分布式框架如 Hadoop，Spark，Graphlab，Parameter Server 等择一或多使用了解；

· 通用算法包，如 mahout，scikit，weka 等；

· 专用算法包，如 opencv，theano，torch7，ICTCLAS 等。

4、基础知识

· 个人感觉高频话题是 SVM、LR、决策树（决策森林）和聚类算法，要重点准备；

· 算法要从以下几个方面来掌握产生背景，适用场合（数据规模，特征维度，是否有 Online 算法，离散/连续特征处理等角度）；原理推导（最大间隔，软间隔，对偶）；求解方法（随机梯度下降、拟牛顿法等优化算法）；优缺点，相关改进；和其他基本方法的对比；

· 不能停留在能看懂的程度，还要对知识进行结构化整理，比如撰写自己的 cheet sheet，我觉得面试是在有限时间内向面试官输出自己知识的过程，如果仅仅是在面试现场才开始调动知识、组织表达，总还是不如系统的梳理准备；从面试官的角度多问自己一些问题，通过查找资料总结出全面的解答，比如如何预防或克服过拟合。

5、开放问题

· 由于问题具有综合性和开放性，所以不仅仅考察对算法的了解，还需要足够的实战经验作基础；

· 先不要考虑完善性或可实现性，调动你的一切知识储备和经验储备去设计，有多少说多少，想到什么说什么，方案都是在你和面试官讨论的过程里逐步完善的，不过面试官有两种风格：引导你思考考虑不周之处 or 指责你没有考虑到某些情况，遇到后者的话还请注意灵活调整答题策略;

· 和同学朋友开展讨论，可以从上一节列出的问题开始。

准备建议

1、基础算法复习两条线

· 材料阅读 包括经典教材（比如 PRML，模式分类）、网上系列博客，系统梳理基础算法知识；

· 面试反馈 面试过程中会让你发现自己的薄弱环节和知识盲区，把这些问题记录下来，在下一次面试前搞懂搞透。

2、除算法知识，还应适当掌握一些系统架构方面的知识，可以从网上分享的阿里、京东、新浪微博等的架构介绍 PPT 入手，也可以从 Hadoop、Spark 等的设计实现切入。

3、如果真的是以就业为导向就要在平时注意实战经验的积累，在科研项目、实习、比赛（Kaggle，Netflix，天猫大数据竞赛等）中摸清算法特性、熟悉相关工具与模块的使用。

总结

如今，好多机器学习、数据挖掘的知识都逐渐成为常识，要想在竞争中脱颖而出，就必须做到· 保持学习热情，关心热点；· 深入学习，会用，也要理解；· 在实战中历练总结；· 积极参加学术界、业界的讲座分享，向牛人学习，与他人讨论。最后，希望自己的求职季经验总结能给大家带来有益的启发。

想对推荐算法、用户画像有进一步的了解的可以移步我的知乎live
《推荐算法那点事》:知乎 Live – 全新的实时问答
《推荐算法那点事（二）：细节》:知乎 Live – 全新的实时问答

附:其它可能的题目-算法/架构/ETL等

MapReduce解决缺值问题？
集群规模有限，但之前的那个文件足够大，如何解决？（不能调整集群的规模）
Spark的三种部署方式？
如果Spark用的和Mapreduce的计算资源同是yarn，发现资源不够用了话，在Spark中的哪里进行配置，使之资源分配合理？
LVS的配置相关命令？
Hadoop的各角色的职能？
Hadoop的checkpoint的作用？
HBase的双主如何配置？
HBase即便拥有双主的高可靠配置，存在hdfs上的数据丢失怎么办？
HBase模糊查询，是什么？如何做到？
Hadoop的高可靠性，如何保证？
如何保证HBase的稳定性以及高可靠性？从部署、容灾、以及网络方面说说你的看法？
你觉得Spark和Hadoop的区别是什么,请简要说一说？
你觉得Python和Java在使用起来，有什么区别？
给你两张表，表A和表B，其中表A有3条数据，表B有5条数据，问：表A left join 表B后有几条？
LVS和HAProxy相比，它的缺点是什么？
Sqoop用起来感觉怎样？
ZooKeeper的角色以及相应的Zookepper工作原理？
HBase的Insert与Update的区别？
数组与链表的区别是什么？
Scala函数式编程的特点？
今日头条的个性化推荐是如何实现的？
spark工作原理
spark运行原理
Spark Streaming
Storm的ack是干嘛的
kalfka干嘛的
job提交到yarn上的工作流程
10x+5y+z = n，x+y+z的最小值
ArryList、LinkedList、vector的区别
hashMap HashTable的区别
垃圾回收机制
JVM的工作原理
Hbase的垃圾回收工具
for循环LinkedList
遍历HashMap的并且把某一个值删除
线程进程
Java中Runnable和Thread的区别Callable
Callable与Future的介绍
sleep wait区别
hadoop源码使用了什么JAVA技术
hadoop的通讯接口RPC协议
java的数据类型
mapreduce中的Text类型 LongWriteable 能不能用String 或者用long类型代替
JAVA如何实现序列化
反序列化是什么？
序列化是将（内存中的）结构化的数据数据，序列化成2进制
mapreduce常用的接口
mapreduce的工作流程
MR优化方式
什么样的情况下不能用mapreduce
HDFS的架构
hdfs改那几个文件分别改什么内容内容代表什么意思（3次）
core是全局的 site是局部的
hdfs优化
mapreduce怎么实现join连接
yarn的ha搭建
zookeeper的工作原理和应用场景
如何解决mapreduce的数据倾斜
mapreduce怎么实现把移动数据到移动计算的
hive 增加数据有几种方式
怎么给hive的表里面增加一个字段
增加的字段里面数据占不占内存
给字段增加值怎么增加
1g的小文件，1g的一个文件，为什么小文件占的空间更大
hive建表，什么情况下见内部表
impala 依赖
怎么解决hive数据倾斜问题
hbase rowkey的设计原则
唯一简明有意义
hbase的应用场景
你们平时PV有多少，数据量有多少
Hive是重点
hadoop工程师
zookeeper在hbase中作用
ZK中存的两张最重要的表
shall 数组的分隔符是什么
linux的copy

End.

转载请注明来自36大数据（36dsj.com)：36大数据 » 机器学习及大数据相关面试的职责和面试问题

机器学习工程师必知的十大算法

四月 20, 2017ML&DL机器学习, 深度学习, 算法dotte

毫无疑问，机器学习/人工智能的子领域在过去几年越来越受欢迎。目前大数据在科技行业已经炙手可热，而基于大量数据来进行预测或者得出建议的机器学习无疑是非常强大的。一些最常见的机器学习例子，比如Netflix的算法可以根据你以前看过的电影来进行电影推荐，而Amazon的算法则可以根据你以前买过的书来推荐书籍。

所以如果你想了解更多有关机器学习的内容，那么你该如何入门？对于我来说，我的入门课程是我在哥本哈根出国留学时参加的人工智能课。当时我的讲师是丹麦技术大学（Technical University of Denmark）的应用数学和计算机科学的全职教授，他的研究方向是逻辑与人工智能，侧重于使用逻辑学来对人性化的规划、推理和解决问题进行建模。这个课程包括对理论/核心概念的讨论和自己动手解决问题。我们使用的教材是AI经典之一：Peter Norvig的Artificial Intelligence—A Modern Approach（中文译本：《人工智能：一种现代的方法》），这本书主要讲了智能体、搜索解决问题、对抗搜索、概率论、多智能体系统、社会AI和AI的哲学/伦理/未来等等。在课程结束时，我们三个人的团队实现了一个简单的编程项目，也就是基于搜索的智能体解决虚拟环境中的运输任务问题。

在那门课程上我已经学到了很多知识，并决定继续学习相关的课题。在过去的几个星期里，我在旧金山参加了多次相关的技术讲座，涉及到深度学习、神经网络和数据结构，并且参加了一个有很多该领域的知名专家学者参加的机器学习会议。最重要的是，我在6月初参加了Udacity上的Intro to Machine Learning（机器学习入门）在线课程，前几天才完成。在这篇文章中，我想分享一下我从课程中学到的一些最常用的机器学习算法。

微信Android模块化架构重构实践

蘑菇街分布式消息中间件Corgi的架构演进

Serverless架构：一条SQL到一个服务有多远？

对抗复杂性，架构设计中可借鉴复用这些手段

阿里：风控场景的模型平台架构设计

监督学习

1.决策树（Decision Trees）

决策树是一个决策支持工具，它使用树形图或者决策模型以及可能性序列，包括偶然事件的结果、资源成本和效用。下图是其基本原理：

从业务决策的角度来看，决策树是人们必须了解的最少的是/否问题，这样才能评估大多数时候做出正确决策的概率。作为一种方法，它允许你以结构化和系统化的方式来解决问题，从而得出合乎逻辑的结论。

2.朴素贝叶斯分类(Naive Bayesian classification)

朴素贝叶斯分类器是一类简单的概率分类器，它基于贝叶斯定理和特征间的强大的（朴素的）独立假设。图中是贝叶斯公式，其中P（A|B）是后验概率，P（B|A）是似然，P（A）是类先验概率，P（B）是预测先验概率。

一些应用例子:

判断垃圾邮件
对新闻的类别进行分类，比如科技、政治、运动
判断文本表达的感情是积极的还是消极的
人脸识别

3.最小二乘法（Ordinary Least Squares Regression）

如果你懂统计学的话，你可能以前听说过线性回归。最小二乘法是一种计算线性回归的方法。你可以将线性回归看做通过一组点来拟合一条直线。实现这个有很多种方法，“最小二乘法”就像这样：你可以画一条直线，然后对于每一个数据点，计算每个点到直线的垂直距离，然后把它们加起来，那么最后得到的拟合直线就是距离和尽可能小的直线。

线性指的是你用来拟合数据的模型，而最小二乘法指的是你最小化的误差度量。

4.逻辑回归(Logistic Regression)

逻辑回归是一个强大的统计学方法，它可以用一个或多个解释变量来表示一个二项式结果。它通过使用逻辑函数来估计概率，从而衡量类别依赖变量和一个或多个独立变量之间的关系，后者服从累计逻辑分布。

总的来说，逻辑回归可以用于以下几个真实应用场景：

信用评分
计算营销活动的成功率
预测某个产品的收入
特定的某一天是否会发生地震

5.支持向量机（Support Vector Machine，SVM）

SVM是二进制分类算法。给定N维坐标下两种类型的点，SVM生成（N-1）维的超平面来将这些点分成两组。假设你在平面上有两种类型的可以线性分离的点，SVM将找到一条直线，将这些点分成两种类型，并且这条直线尽可能远离所有这些点。

从规模上看，使用SVM（经过适当的修改）解决的一些最大的问题包括显示广告、人类剪切位点识别（human splice site recognition）、基于图像的性别检测，大规模图像分类……

6.集成方法（Ensemble methods）

集成方法是学习算法，它通过构建一组分类器，然后通过它们的预测结果进行加权投票来对新的数据点进行分类。原始的集成方法是贝叶斯平均，但是最近的算法包括纠错输出编码、Bagging和Boosting。

那么集成方法如何工作？并且为什么它们要优于单个模型？

它们平均了单个模型的偏差：如果你将民主党的民意调查和共和党的民意调查在一起平均化，那么你将得到一个均衡的结果，不偏向任何一方。
它们减少了方差：一组模型的总体意见比其中任何一个模型的单一意见更加统一。在金融领域，这就是所谓的多元化，有许多股票的组合比一个单独的股票的不确定性更少，这也为什么你的模型在数据多的情况下会更好的原因。
它们不太可能过拟合：如果你有单个的模型没有过拟合，那么把这些模型的预测简单结合起来（平均、加权平均、逻辑回归），那么最后得到的模型也不会过拟合。

无监督学习

7.聚类算法（Clustering Algorithms）

聚类是将一系列对象分组的任务，目标是使相同组（集群）中的对象之间比其他组的对象更相似。

每一种聚类算法都不相同，下面是一些例子：

基于质心的算法
基于连接的算法
基于密度的算法
概率
降维
神经网络/深度学习

8.主成分分析（Principal Component Analysis，PCA）

PCA是一个统计学过程，它通过使用正交变换将一组可能存在相关性的变量的观测值转换为一组线性不相关的变量的值，转换后的变量就是所谓的主分量。

PCA的一些应用包括压缩、简化数据便于学习、可视化等。请注意，领域知识在选择是否继续使用PCA时非常重要。数据嘈杂的情况（PCA的所有成分具有很高的方差）并不适用。

9.奇异值分解（Singular Value Decomposition，SVD）

在线性代数中，SVD是复杂矩阵的因式分解。对于给定的m * n矩阵M，存在分解使得M=UΣV，其中U和V是酉矩阵，Σ是对角矩阵。

实际上，PCA是SVD的一个简单应用。在计算机视觉中，第一个人脸识别算法使用PCA和SVD来将面部表示为“特征面”的线性组合，进行降维，然后通过简单的方法将面部匹配到身份，虽然现代方法更复杂，但很多方面仍然依赖于类似的技术。

10.独立成分分析（Independent Component Analysis，ICA）

ICA是一种统计技术，主要用于揭示随机变量、测量值或信号集中的隐藏因素。ICA对观测到的多变量数据定义了一个生成模型，这通常是作为样本的一个大的数据库。在模型中，假设数据变量由一些未知的潜在变量线性混合，混合方式也是未知的。潜在变量被假定为非高斯分布并且相互独立，它们被称为观测数据的独立分量。

ICA与PCA有关，但是当这些经典方法完全失效时，它是一种更强大的技术，能够找出源的潜在因素。其应用包括数字图像、文档数据库、经济指标和心理测量。

现在运用你对这些算法的理解去创造机器学习应用，为世界各地的人们带来更好的体验吧。

查看英文原文：The 10 Algorithms Machine Learning Engineers Need to Know

from：http://www.infoq.com/cn/articles/10-algorithms-machine-learning-engineers-need-to-know

机器学习算法 Python&R 速查表

十二月 27, 2016ML&DL, Python, RMachine Learning, python, Rdotte

原文出处: Cheatsheet – Python & R codes for common Machine Learning Algorithms
在拿破仑•希尔的名著《思考与致富》中讲述了达比的故事：达比经过几年的时间快要挖掘到了金矿，却在离它三英尺的地方离开了！

现在,我不知道这个故事是否真实。但是,我肯定在我的周围有一些跟达比一样的人，这些人认为，不管遇到什么问题, 机器学习的目的就是执行以及使用2 – 3组算法。他们不去尝试更好的算法和技术，因为他们觉得太困难或耗费时间。

像达比一样,他们无疑是在到达最后一步的时候突然消失了!最后,他们放弃机器学习,说计算量非常大、非常困难或者认为自己的模型已经到达优化的临界点——真的是这样吗?

下面这些速查表能让这些“达比”成为机器学习的支持者。这是10个最常用的机器学习算法，这些算法使用了Python和R代码。考虑到机器学习在构建模型中的应用，这些速查表可以很好作为编码指南帮助你学好这些机器学习算法。Good Luck!

PDF版本

from:http://colobu.com/2015/11/05/full-cheatsheet-machine-learning-algorithms

python机器学习深度学习总结

十一月 25, 2016BigData, ML&DL, PythonBigdata, DeepLearning, Machine Learning, pythondotte

1、Python环境搭建（Windows）

开发工具：PyCharm Community Edition（free）

Python环境：WinPython 3.5.2.3Qt5
–此环境集成了机器学习和深度学习用到的主要包：
numpy,scipy,matplotlib,pandas,scikit-learn,theano,keras

IPython notebook :

2、示例代码：

scikit-learn sample

keras sample

3、数据集Datasets

GeoHey公共数据

4、kaggle平台

Kaggle是一个数据建模和数据分析竞赛平台。企业和研究者可在其上发布数据，统计学者和数据挖掘专家可在其上进行竞赛以产生最好的模型。这一众包模式依赖于这一事实，即有众多策略可以用于解决几乎所有预测建模的问题，而研究者不可能在一开始就了解什么方法对于特定问题是最为有效的。Kaggle的目标则是试图通过众包的形式来解决这一难题，进而使数据科学成为一场运动。(wiki)

5、常见问题处理

Approaching (Almost) Any Machine Learning Problem

Open dataset

十一月 14, 2016BigData, ML&DLdatasetdotte

Open dataset:
■ 1.http://archive.ics.uci.edu/ml/
—The best-known source of datasets for
machine learning is the University of California at Irvine. We used fewer
than 10 data sets in this book, but there are more than 200 datasets in this repository.
Many of these datasets are used to compare the performance of algorithms
so that researchers can have an objective comparison of performance.
■ 2.http://aws.amazon.com/publicdatasets/
—If you’re a big data cowboy, then
this is the link for you. Amazon has some really big datasets, including the
U.S. census data, the annotated human genome data, a 150 GB log of Wikipedia’s
page traffic, and a 500 GB database of Wikipedia’s link data.
■ 3.http://www.data.gov
—Data.gov is a website launched in 2009 to increase the
public’s access to government datasets. The site was intended to make all
government data public as long as the data was not private or restricted for
security reasons. In 2010, the site had over 250,000 datasets. It’s uncertain
how long the site will remain active. In 2011, the federal government
reduced funding for the Electronic Government Fund, which pays for
Data.gov. The datasets range from products recalled to a list of failed banks.
■4. http://www.data.gov/opendatasites
—Data.gov has a list of U.S. states, cities,
and countries that hold similar open data sites.
■5. http://www.infochimps.com/
—Infochimps is a company that aims to give
everyone access to every dataset in the world. Currently, they have more
than 14,000 datasets available to download. Unlike other listed sites, some
of the datasets on Infochimps are for sale. You can sell your own datasets
here as well.

refer:《Machine Learning in Action.pdf》

Dotte博客

大数据、云计算、架构、语言的本质、计算的未来