All posts by dotte

是否存在”可证明”的对于世界的解释？

九月 15, 2017Life科学方法, 证伪, 证明dotte

在对世界进行解释时，科学用的是归纳法，不可证明但是可证伪。宗教，神话等则是既不可证明也不可证伪的。是否存在“可证明”的，对于世界的解释呢？

一般来说，仅根据经验事实就可以确认某个判断为真，这就叫做“证实”（verify），具有这种特征的判断就叫做可证实（verifiability）的。归纳法需要对大量经验事实进行概括才能确认一个判断为真，因此它本质上是在进行证实。与可证实相对的概念是可证伪（falsifiability），也就是我们不能仅根据经验事实确认这个判断为真，但是我们可以确认它的逻辑演绎的后件为假——于是根据否定后件推理，这个判断就为假，这个过程叫证伪。而严格来说，证明（包括逻辑学中的和数学中的）都是指演绎证明，也就是给定公设和公理，然后逻辑演绎得到一个定理，这个叫证明。因此，我们可以说一切只能由归纳法来确认其为真的判断都无法得到证明——因为证明是演绎方法，归纳法则只能导致证实。

另外，关于证实、证伪和证明，我们要注意以下一些问题：
首先，不论是证实还是证伪，它们都只涉及到根据经验事实才能确认其真假的判断。而证明是否涉及经验事实则要看其公设或公理是否需要根据经验事实才能确认其真假。比如由牛顿定律出发的一系列推演和计算都是证明，但牛顿定律本身需要得到证实，因此牛顿力学体系本质上是需要证实的；而由逻辑、数学公理出发的一系列推演在大多数人看来则只需要进行证明，因为大多（即使不是全部）逻辑和数学公理自身不需要经验事实支持即可以为真（但当代有很多自然主义者反对这一点，他们认为所有逻辑和数学公理都是归纳得来的）。如果承认证实+证伪与证明在是否涉及经验这一问题上不同，则我们要注意，尽管证伪和证明都运用了逻辑演绎方法，可是这两者的本质还是完全不同的，比如反证法就不能被视为一种证伪。

其次，证实和证伪方法的适用程度需要根据判断的逻辑特征才能决定。通常的说法就是“全称判断无法证实，存在判断无法证伪”。具体地讲，我们常见的判断在逻辑构造上可以分为以下几种：

1，单称判断，比如某人A于某个时间t处在某个地点p，或者某几个人A、B、C、D于某些时间t1、t2、t3处在某些地点p1、p2、p3等等。这种是关于单一对象的单一状态，或者有限个确定的对象处于一些有限的确定状态的阐述，那么对于这个阐述来说，我们要想知道它是真的话其实很简单，只要在相同环境、相同状态下找到这些人就可以了。而且这些人处在这个环境状态显然是一个经验事实（因为我们可以用感官等感知到），因此它可以得到证实。而且它也可以得到证伪，比如这些人既然有这种状态，那他们肯定不可能瞬间移动到十万八千里外，于是如果在同一时间在另外一个遥远的地方发现这些人，那么也就证伪了这个判断。

2，全称判断，典型的形式是“任意（所有的）的x都是满足F的”（ $\forall xFx$ ）（比如所有天鹅都是白的）。由于全称判断涉及到取值范围内所有的x，而且取值范围一般都是无穷尽的甚至不确定的，因此我们难以穷尽地获知所有关于x是否满足F的经验事实，它就难以证实。比如“所有天鹅都是白的”，这句话涉及到古往今来乃至未来的任何地方（甚至可能在外星也有可能有天鹅这种生物）所出现的任何一只天鹅，那么我们不管有多强的归纳能力，都不可能知道这么多的天鹅的颜色是否都是白色。

3，存在判断，典型的形式是“存在（有）x，x满足F”（ $\exists xFx$ ）（比如存在黑洞，地球上至少有十只白天鹅等等）。存在判断只要求取值范围内只要有一个或者有限个对象满足F就可以了，一旦找到这样的经验事实就可以证实该判断；但是要证伪该判断就要穷尽取值范围内所有对象，确认它们的经验事实都不满足该判断，因此难以证伪。从这个角度来说，对存在判断的证伪等价于对其否定的某全称判断的证实（逻辑上即有 $\neg (\exists x Fx)\leftrightarrow \forall x(\neg Fx)$ ）；同理，对存在判断的证实等价于对其否定的某全称判断的证伪。

科学里面这三种判断都会出现，比如
单称判断：“某时某刻海王星会出现于天区中的某个位置”；
全称判断：常见的科学理论都是全称判断；
存在判断：“存在黑洞”、“存在磁单极子”、“存在Higgs粒子”等等。

因此，对于科学而言，准确的说法是“科学理论不可证实但可以证伪”。

总之，我们可以说：
（1）我们可以基于逻辑和数学证明很多判断（至于这些证明需要的公理公设要不要依赖于证实和证伪则另外讨论）。
（2）我们可以证实很多关于世界的经验性判断，包括各种经验性单称判断和存在判断。
（3）我们可以证伪很多关于世界的经验性判断，这主要就是以科学理论为代表的经验性全称判断。

需要注意的是，所谓“宗教神话不能被证实或证伪”，就相当于已经承诺宗教神话判断所说的内容的真假依赖于经验事实（因此它才需要被证实或证伪），可是这一点很可能不会得到宗教界人士的同意。

对应于题主提到的“是否存在可证实的解释”这个问题。可以说，能够成为一种解释的未必是全称判断，也有一些是对单一事件的单一原因进行解释，这时的解释就可以是单称命题。如果只考虑全称判断式的解释的话，全称判断的来源有很多种：哲学、数学、逻辑、科学、宗教……根据上述总结，则数学和逻辑判断只需要得到证明而不需要证实（除非承认关于数学和逻辑的自然主义）；科学中的全称判断只可能被证伪而不能得到证实；宗教、神话中的判断（无论全不全称）不适合于谈论其证明、证实、证伪等方面的特性，除非以逻辑的、哲学和科学等的方式来谈论它。

作者：oldgoat
链接：https://www.zhihu.com/question/23289984/answer/24131288
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

耶鲁教授: 通识教育和思辩培养是中国孩子最缺的两门课

九月 15, 2017Life思辨, 教育, 科学方法, 通识教育dotte

这么多从国内培养出来的杰出高材生，他们在专业上这么突出，但思维方式那么僵化、偏执，社会交往能力又那么差，除了自己狭窄的专业就不知道怎么跟人打交道、怎么表达自己。

任何一个在耶鲁读完四年大学的毕业生，如果他从耶鲁毕业时，变成物理、电脑、化学或者是任何领域的专家，我们会觉得那是一种失败，因为我们不希望四年大学教育是培养专家，让他们在某一领域里面投入那么深，而忽视掉在其它更广泛的做人、做公民、做有思辨能力的人的机会。

美国从幼儿园就开始人文、通识教育。在小学四年级的时候，老师就会花一年时间讲科学方法是什么，具体到科学的思辨、证明或证伪过程。正因为这种思辨能力的培养，让学生毕业以后，特别是大学毕业以后，不只是简单地听领导的话的机器，这些是非常重要的自然的开端。

作者：陈志武，著名经济学家，美国耶鲁大学金融学教授。本文来源：南方网。原载于《中国改革》杂志2009年8月号。

………………………………….

一、大多数中国人在美国只能做些技术活

我不是研究教育的专家，但是，这些年看到国内的教育，特别是我自己从小在中国受教育，然后又去了美国，自然有许多观察和体会。到目前为止，我这一辈子没有离开过学校。

1968年在湖南茶陵县开始上小学，1979年读完高中在长沙上大学，1986年去美国读研究生，1990年毕业以后至今一直在美国的大学教书。我有两个女儿，一个15岁，一个13岁，她们在美国出生、长大，这些年看着她们在美国上学。

同时，也因为我跟国内的一些大学一直有不少交流，所以基本能看到国内同行和教育界学者、业者每天的运作目标。这些经历和观察让我确实感触比较多，特别是这些年看到这么多从国内培养出来的杰出高材生，他们在专业上这么突出，但思维方式那么僵化、偏执，社会交往能力又那么差，除了自己狭窄的专业就不知道怎么跟人打交道、怎么表达自己，让我非常痛心。

由于国内教育体系以及教育理念的僵化，绝大多数中国人再好也只能做些技术活，难以在美国社会或其他非华人社会出人头地，这些都很悲哀。原来没有全球化时不知道这些，但现在中国人也走出去了，跟其他文化、教育背景的人一在一起，就知道彼此的竞争优势与劣势了。这些问题的根子都出在教育上，包括正式的学校教育、家教和社会文化教育。

我们说，中国社会现在处于转型时期，尤其是经济领域面临很大的挑战。现在提得比较多的是要把中国建设成为创新型国家，这一点大家都讲。但想想中国为什么建设不了创新型国家？为什么这么艰难？光靠在街上挂很多横幅、标语，在核心报纸上发表一些社论，就能把这个国家建设成创新型国家？

中国经济面临的挑战不少。比如，讲到中国的公司品牌，不管是广东，还是其它省份，都很难建立品牌。所以，难以通过品牌赚更多钱，而只能制造一些玩具或者说制造一些衣服、鞋、甚至一些机器和电脑，只能是卖苦力。

为什么难以建立品牌、难以实现产业结构转型？原因当然包括法治制度、产权保护以及国有制的问题，但也与中国教育体系的教学方式和教学内容关系非常紧密。

耶鲁教授: 通识教育和思辩培养是中国孩子最缺的两门课

（图片来源于网络）

二、本科毕业就成了专家，是一种失败

中国经济今天以制造业为主体，这当然就需要有很多的工程院院士，大学要培养很多的工程师。相比之下，美国的服务业占GDP的85%以上，所以美国的教育体系侧重点就不同，是侧重通识教育，培养通才。

在中国和日本变为世界工厂之前，几乎所有的美国州立大学和一些工程学院都非常侧重技能型的工程系科，像中国的大学一样侧重理工训练。但是，我发现过去的四五十年，特别是三四十年，随着制造业向日本、韩国和中国转移，美国大学的教育内容经历了一个全面的转型，转向通识教育。

所以，在耶鲁大学，我们对本科生的培养理念是：任何一个在耶鲁读完四年大学的毕业生，如果他从耶鲁毕业时，变成物理、电脑、化学或者是任何领域的专家，我们会觉得那是一种失败，因为我们不希望四年大学教育是培养专家，让他们在某一领域里面投入那么深，而忽视掉在其它更广泛的做人、做公民、做有思辨能力的人的机会。

我们不主张他们在某个工程领域、科学领域、社会科学领域在大学时期就成为专家。如果有学生在大学四年时真的成了专家，我们不以为那是一种成功，反而会是一种失败。

当然这也跟耶鲁这些年出了那么多总统有关系，以至于我们的历史系教授就想，既然以前出了这么多总统，说不定今天在校的哪个学生以后也会成为总统，怎么办？于是我们就开一门大课，叫做“大策略”，由两个研究世界史最出色的教授轮流讲，这是持续一年长的课程，是一种非常综合型的训练，讲到孙子兵法、管子经济、古希腊策略等等。

中国的教育则侧重硬技术，由此产生的人才结构使中国即使想要从制造业往服务业转移，也难。产业结构也受到教育内容约束。在中国，从幼儿园到小学、大学、再到研究生，一直都强调死记硬背为考试，强调看得见摸得着的硬技能，特别是科学和工程几乎为我们每个中国家长、每个老师认同，这些教育手段、教育内容使中国差不多也只能从事制造业。

为了向创新、向品牌经济转型，就必须侧重思辨能力的培养，而不是只为考试；就必须也重视综合人文社会科学的训练，而不是只看重硬技术、只偏重工程思维。离开市场营销、离开人性的研究，就难以建立品牌价值。

三、美国从幼儿园就开始人文、通识教育

为了支持以服务业为主的创新型社会，美国的学校是如何办的呢？

我有两个女儿，老大现在读高二，老二在读初二。她们的经历大概是这样：

首先，从幼儿园一直到小学四年级前，没有家庭作业，下午放学就放学了，周末就是周末，不用担心学习。老师如果布置作业给学生，很多家长会抱怨，说“你怎么给我的女儿、儿子这么多作业，那他们还过不过日子了？他们一生的幸福是我们更关心的，你不要让他们回家后每分钟都花到作业上，最后他们变成了人还是变成了机器？”

所以，学校与家长谈判的结果，往往是这样一个结局：美国的幼儿园、小学四年级以前都不会布置作业。有没有考试呢？初一之前没有考试。而这一点中国的老师和家长可能觉得奇怪，没有考试学什么东西？你放心好了，美国学生学的东西很有意思，比如，从小学一年级到四年级，他们的课程安排往往比较广泛。

甚至在幼儿园的时候，我女儿她们每年都会有科学、一般人文社会、语言方面的内容，一共有三四门课程（注：这我们介绍过：国外孩子从小就开始上 “社会研究”课，他们到底在学些什么？）。每门课程完全由老师决定用什么教材，教什么内容。

比如，在人文社会课程方面，可能是今年重点了解一下亚洲不同的国家，以前的历史是什么样子等等；明年了解非洲、拉美等等。从幼儿园到小学，讲的深度会慢慢地上升，但差不多每年或者每两年会绕着五大洲兜一圈，这是一种非常广泛的了解。

你想一想，如果这些小孩以后出去做服务业、做市场营销、做外贸，如果他们对其他的国家一点都不了解，怎么能行？而有了这些从小学到的知识，今后到哪里去“全球化”，都不会有问题。当然，沿着这种方式去培养，很容易让我们说：“他们怎么能够做工程师、做专家呢？”但这也没关系，美国本身不需要这么多工程师，因为制造业已经由中国和亚洲其他国家胜任了。

因此，一个国家的产业结构决定其教育知识的结构，反过来，教育知识结构又会决定其经济的产业结构。

四、美国思辨能力的训练也始于幼儿园

思辨能力的训练在美国是自幼儿园开始就重视的强项。

这具体表现在两方面：

其一是课堂表述和辩论，自托儿所开始，老师就给小孩很多表述的机会，让他们针对某个问题各抒己见，发表自己的看法、谈谈自己的经历，或者跟别人辩论。

另一方面，就是科学方法这项最基本的训练，多数校区要求所有学生在小学四、五年级时都能掌握科学方法的实质，这不仅为学生今后的学习、研究打好基础，而且为他们今后作为公民、作为选民做好思辨方法论准备.

我们别小看科学方法训练的重要性，因为即使到现在，我经常碰到国内的博士研究生，甚至是所谓的科学家，从他们做研究、思考问题、写论文的方法上，很难看出他们真的理解科学方法的本质和基本做法。

这是什么意思呢？

在我女儿她们四年级的时候，老师就会花一年时间讲科学方法是什么，具体到科学的思辨、证明或证伪过程。

她们就学到，科学方法的第一步是提出问题和假设，第二步是根据提出的问题去找数据，第三步是做分析、检验假设的真伪，第四步是根据分析检验的结果做出解释，如果结论是证伪了当初的假设，那么，为什么错了？如果是验证了当初的假设，又是为什么？第五步就是写报告或者文章。——这个过程讲起来抽象，但是，老师会花一年的时间给实例，让学生自己去做实验。(注：这方面我们也有过介绍：这些小孩比别人早10年懂得了什么叫科学思考方法，因为他们在用Science Board )

这种动手不是为考试，而是最好的学习，让人学会思辨，培养头脑，避免自己被别人愚弄。这种动手所达到的训练是多方面的，尤其是靠自己思考、靠自己找问题，这非常出色。

实际上，如果按照我女儿她们在小学四年级就学到的科学方法标准去判断，国内经济学以及其它社会科学类学报上发表的许多论文，都没法及格，因为许多论文只停留在假设的层面上，然后就把没有经过数据实证的假设当成真理性结论。这些都跟我们没有从幼儿园、从小学开始强化科学方法的教育训练有关，跟没有把科学方法应用到关于生活现象的假设中去的习惯有关。

耶鲁教授: 通识教育和思辩培养是中国孩子最缺的两门课

（图片来源于网络）

在小学没有考试，学生还做什么呢？

我女儿她们每个学期为每门课要做几个所谓的“项目”，这些项目通常包括几方面的内容，一个是针对自己的兴趣选好一个想研究了解的题目或说课题。第二是要找资料、收集数据，进行研究。第三是整理资料，写一份作业报告。第四是给全班同学做5到15分钟的讲解。这种项目训练差不多从托儿所就开始。

我觉得这一点很有意思，刚才讲到品牌跟市场营销很有关系，因为品牌、市场营销都跟表述技能有关。（关于项目化学习，我们也做过介绍：为什么国外孩子能把学习和解决实际问题结合得比较好？因为他们在做 Project Based Learning )

关于研究性项目，我的大女儿在五年级时，对北京的气候感兴趣，她在社会课上对其做了一项研究，把北京一年12个月中每月降雨量、温度的历史数据收集起来，然后计算历史上每个月的降雨量的最高、最低与平均值，计算每个月温度的最高、最低与平均值，然后再分析这些跟北京的其他天文、地理情况的关系，写好报告以及讲解文稿，她在全班同学前讲她的这些分析结果。我觉得这样的课程项目研究与讲解是非常好的一种训练。

实际上，她在小学做的研究与写作跟我当教授做的事情，性质差不多，我做研究上网要找资料，而她也是为每个题目上网找资料、做研究，她写文章的训练也已经很多。

这就是美国教育厉害的地方，你看一个小孩，在研究思考上已经这么成熟，以至于到现在，我跟我女儿说，她很快可以做我的研究助理了。但在国内，一些本来很聪明的人即使到读博士研究生时期，还不一定具备这些研究素养、研究能力，有些研究生连做个研究助理可能还不合格。

五、有思辨能力，方有经济转型

正因为这种思辨能力的培养，现在我跟女儿讨论问题时，她们一听到任何话，很自然地就会去怀疑、审视，然后就看能否找到证据来证明这个话逻辑上或者事实上、数据上站得住脚。这种习惯看起来简单，但是对于培养独立的思辨能力，让学生毕业以后，特别是大学毕业以后，不只是简单地听领导的话的机器，这些是非常重要的自然的开端。

当然，思辨对于美国教育体系培养出来的人是很自然的，有时候我也想，美国这个社会真的蛮有意思，不管是聪明的、还是笨的人，不管是有能力的、还是没有能力的人，每个人都觉得自己很厉害，每个人都觉得自己是个人物，对什么事都会有一番高论。

正因为这样，美国100个人里，随便挑80个，那80个人都可以把他的思想、想法和他要卖的东西表达得很清楚，能够给你足够多的说服力。这也是为什么市场营销这门学问是在美国出现、发生和发展的。

美国教育体系给每个人都提供了那么多自我表述的机会，等他们长大后，特别是念完MBA以后，在他们介绍产品和自己的研究与想法时，至少不会站在一班人面前就发抖，没办法说出话来。

中国经济转型需要教育的转型，需要培养兴趣丰富、人格完整、头脑健全的通识人才、思辨型人才。如果不能做到这一点，中国恐怕只能继续是给世界提供劳动力的工厂。

from:http://www.ygjj.com/D419844.html

如何打造一个日均PV千万级别的大型系统？

九月 15, 2017架构架构dotte

作者介绍

周金桥，具有丰富的系统规划、设计、开发、运维及团队组织管理工作经验，熟悉.Net、J2EE技术架构及应用。微软2008-2012五届最有价值专家(MVP)，2009年单独著有《ASP.NET夜话》一书，2010年与人合著《程序员的成长之路》。至今活跃在多个技术社区。

本文我选定的方向是如何开发一个大型系统，在这里我对大型系统的定义为日均PV在千万级以上，而京东和淘宝这类则属于巨型系统了。因此在本篇中讲述的都是基于一些开源免费的技术实现，至于通过F5硬件加速、DNS来实现负载均衡、CDN加速等需要花钱购买的技术或者服务则不再本篇介绍范围之类。

一、从两个系统说起

1、某移动互联网公司服务器端架构图

上图是某移动互联网公司的服务器端架构图，它支撑了国内外数百万客户端的访问请求，有如下特点：

多层级集群，从Web服务器层、NoSQL层级数据库层都实现了集群，这样使得每一层的响应时间大大缩短，从而能够在单位时间内响应更多请求；
NoSQL应用（Memcached)，在NoSQL领域Memcached和Redis都有大量的用户群，在这个架构里使用的是Memcached。
数据库读写分离，当前大多数数据库服务器支持主从机制或订阅发布机制，这样一来就为读写分离创造了条件，减少了数据库竞争死锁出发条件，使响应时间大为缩短（非数据库集群情况下还可以考虑分库机制）。
负载均衡，Nginx实现Web服务器的负载均衡，Memcached自带负载均衡实现。

2、某公司生产管理系统架构图

系统架构

上图是为某公司的一个分散型系统做的架构设计，这家公司拥有多个跨市、跨省的生产片区，在各片区都有自己的生态车间，各片区与总公司之间通过数据链路连接。这个系统的特点是所有的流水线上的产品都贴有唯一的条码，在生产线的某个操作位操作之前都会扫描贴在产品上的条码，系统会根据条码做一些检查工作，如：产品条码是否应被使用过（比如之前应发货给客户过）、产品是否完成了本道工序之前的全部必须完成工序，如果满足条件则记录当前操作工序名称、操作人、操作时间和操作结果等。

一件产品从上线到完成有数十道工序，而每月下线的产品有少则数十万、多则数百万，一个月下来的数据量也是不小的。特别是在跨厂区网络不稳定的情况下如何保证对生产的影响最小。

本系统架构特点：

所有业务逻辑集中在服务器端，并以Service形式提供，这样便于业务逻辑调整客户端能及时得到最新更新；
部署Service的服务器采用集群部署，Nginx实现调度；
NoSQL采用了Redis，与Memcached相比，Redis支持的数据类型更多，同时Redis带有持久化功能，可以将每个条码对应的产品的最终信息存储在Redis当中，这样一般的查询工作（如条码是否被使用、产品当前状态）都可以在Redis中查询而不是数据库查询，这样大大减轻了数据库压力；
数据库采用了主从机制，实现了读写分离，也是为了提高响应速度；
使用了消息队列MQ和ETL，将一些可以异步处理的动作存放在MQ中，然后由ETL来执行（比如订单完成后以邮件形式通知相关人员）；
实现了系统监控，通过Zabbix来对服务器、应用及网络关键设备实行7×24小时监控，重大异常及时邮件通知IT支持人员。

由于总部其它地方生产规模较小，所以生产分布未采用复杂架构，不过因为从客户处退回的不良产品都会在总部生产车间进行返修处理，因此总部生产系统需要保存分部生产车间数据，因此分部生产车间数据会同时写进分部生产数据库和分部MQ服务器，然后由总部ETL服务器读取写入到总部系统中。在分部与总部网络中断的情况下分部系统仍可独立工作，直到网络恢复。

二、系统质量保证

1、单元测试

单元测试是指对软件中的最小可测试单元进行检查和验证。通常而言，一个单元测试是用于判断某个特定条件（或者场景）下某个特定函数的行为，常见的开发语言都有对应的单元测试框架，常见的单元测试工具：Junit/Nunit/xUnit.Net/Microsoft.VisualStudio.TestTool

关于单元测试的重要性和如何编写单元测试用例，在本篇就不详述了，网上有大量相关的文章。总之，越大型的系统、越重要的系统，单元测试的重要性越大。

针对一些需要外部依赖的单元测试，比如需要Web容器等，可以使用mock测试，Java测试人员可以使用EasyMock这个测试框架，其网址是http://easymock.org/。

2、代码质量管理平台

对于多人参与的团队项目，虽然大多数情况下会有编码规范拉指导大家如何编写团队风格一致的编码，但不能保证团队中每个成员、尤其是后期加入的团队成员仍能按照编码规范来编写代码，因此需要有一个平台来保证，在这里推荐SonarQube。

SonarQube是一个开源平台，用于管理源代码的质量。Sonar不只是一个质量数据报告工具，更是代码质量管理平台。支持的语言包括：Java、PHP、C#、C、Cobol、PL/SQL、Flex 等。

主要特点：

代码覆盖：通过单元测试，将会显示哪行代码被选中
改善编码规则
搜寻编码规则：按照名字，插件，激活级别和类别进行查询
项目搜寻：按照项目的名字进行查询
对比数据：比较同一张表中的任何测量的趋势

当然除了代码质量管理平台外，还有借助源代码管理系统，并且在每次提交代码前进行代码审核，这样每次代码的异动都可以追溯出来。我管理和经历过的一些重要系统中采用过这样的做法：除了管理所有程序代码之外，还将系统中数据库中的表、视图、函数及存储过程的创建都使用源代码版本管理工具管控起来，而且粒度很小，每个对象的创建都是一个SQL文件。这种方式虽然操作起来有些琐碎，但对于代码的变迁追溯非常方便。

三、系统性能保证

1、缓存

所谓缓存就是将一些频繁使用、但改动相对不平凡的数据保存在内存中，每次更新这些数据的时候同时持久化到数据库或文件系统，并同步更新到缓存中，查询的时候尽可能利用缓存。

缓存的实现方法：自定义实现或利用NoSQL。

自定义实现

自定义实现可利用SDK中提供的类，如Dictionary等。

优点：可以局部提高查询效率；
缺点：不能跨应用、跨服务器，仅限于单个应用；没有较好缓存生命周期管理策略。

NoSQL

Memcached

优点：可以跨应用、跨服务器，有灵活的生命周期管理策略；支持高并发；支持分布式。
缺点：不支持持久化，仅在内存存储，重启后数据丢失，需要“热加载”；仅支持Key/Value。

Redis

优点：可以跨应用、跨服务器，有灵活的生命周期管理策略；支持高并发；支持集群；支持持久化；支持Key/Value、List、Set、Hash数据结构；

以上几种方法都存在一个特点：需要通过Key去寻找对应的Value、List、Set或Hash。

除了Memcached和Redis之外，还出现了一些NoSQL数据库和支持NoSQL的数据库，前者如MongoDB，后者如PostgreSQL（>V9.4），下面是一个MongoDB与PostgreSQL的NoSQL特性的对比：

Redis

文档型NoSQL数据库的特点：

不定义表结构

即使不定义表结构，也可以像定义了表结构一样使用，还省去了变更表结构的麻烦。

可以使用复杂的查询条件

跟键值存储不同的是，面向文档的数据库可以通过复杂的查询条件来获取数据，虽然不具备事务处理和Join这些关系型数据库所具有的处理能力，但初次以外的其他处理基本上都能实现。

NoSQL主要是提高效率，关系数据库可以保证数据安全；各有使用场景，一般的企业管理系统，没多少并发量没必要使用NoSQL，互联网项目或要求并发的NoSQL使用比较多，但是最终重要的数据还是要保存到关系数据库。这也是为什么很多公司会同时使用NoSQL和关系型数据库的原因。

2、异步

所谓异步就是调用一个方法后并不等该方法执行完毕后再继续执行后续的操作，而是调用完毕后马上等待用户的其它指令。打印机管理程序就是一个异步的例子，某个人可能有几个数百页的文档需要打印，可以在打开一个文档之后点击打印，然后继续打开另一个文档继续点打印。尽管打印数百页文档需要较长时间，但后续的打印请求会在打印管理程序中排队，等第一个文档打印完成后再继续第二个文档的打印。

异步有两个层面：编程语言层面的异步和通过消息队列等机制实现的异步。

语法层面异步：像Java/C#等大多数语言都支持异步处理。

消息队列实现异步

用消息队列实现异步只是消息队列的一个基本功能之一，消息队列还具有如下功能：

解耦
灵活性 & 峰值处理能力
可恢复性
送达保证
排序保证
缓冲
理解数据流
异步通信

注：消息队列成为在进程或应用之间进行通信的最好形式。消息队列队列是创建强大的分布式应用的关键。

常用消息队列有如下，可根据系统特点和运维支持团队的掌握程度选择：

MSMQ
ActiveMQ
RabbitMQ
ZeroMQ
Kafka
MetaMQ
RocketMQ

3、负载均衡

负载均衡是根据某种负载策略把请求分发到集群中的每一台服务器上，让整个服务器群来处理网站的请求。

常见负载均衡方案

Windows负载均衡：NLB
Linux负载均衡：LVS
Web负载均衡：Nginx
硬件级负载均衡：F5

前面几种都是免费的解决方案，F5作为一种硬件及解决方案在一般企业很少用到。我目前知道的仅有一家世界级饮料公司使用了F5作为负载均衡解决方案，因为这个方案据说相当昂贵。

4、读写分离

读写分离为了确保数据库产品的稳定性，很多数据库拥有双机热备功能。

也就是，第一台数据库服务器，是对外提供增删改业务的生产服务器；第二台数据库服务器，主要进行读的操作。

原理：让主数据库（master）处理事务性增、改、删操作（INSERT、UPDATE、DELETE），而从数据库（slave）处理SELECT查询操作。

一般情况下我们是在代码中进行处理，但目前也有不少商业中间件形式的读写分离中间件，能自动将读写数据库操作调度到不同数据库上。

数据库

在大型系统中，有时候主、从数据库都是一个集群，这样可以保证响应速度更快，同时集群中单台服务器故障也不影响整个系统对外的响应。

四、系统安全性保证

1、XSS攻击

防范XSS攻击

XSS攻击类似于SQL注入攻击，攻击之前，我们先找到一个存在XSS漏洞的网站，XSS漏洞分为两种，一种是DOM Based XSS漏洞，另一种是Stored XSS漏洞。理论上，所有可输入的地方没有对输入数据进行处理的话，都会存在XSS漏洞，漏洞的危害取决于攻击代码的威力，攻击代码也不局限于script。

DOM Based XSS

DOM Based XSS是一种基于网页DOM结构的攻击，该攻击特点是中招的人是少数人。

Stored XSS

Stored XSS是存储式XSS漏洞，由于其攻击代码已经存储到服务器上或者数据库中，所以受害者是很多人。假如有两个页面，一个负责提交内容，一个负责将提交的内容（论坛发帖、读帖就是这种形式的典型）：

提交内容：
页面内容：<%=request.getParameter(“content”)%>

这样用户在a站提交的东西，在显示的时候如果不加以处理就会打开b站页面将相关敏感内容显示出来。

针对XSS攻击的防范办法：

Html encode
特殊字符过滤：<,>

2、SQL注入

SQL Injection

所谓SQL注入式攻击，就是攻击者把SQL命令插入到Web表单的输入域或页面请求的查询字符串，欺骗服务器执行恶意的SQL命令。在某些表单中，用户输入的内容直接用来构造（或者影响）动态SQL命令，或作为存储过程的输入参数，这类表单特别容易受到SQL注入式攻击。

例如我们在登录一个系统时，在软件底层按照如下方式查询数据：

登录SQL语句：

SELECT COUNT(*) FROM Login WHERE UserName=’admin’ AND Password=’123456‘
SELECT COUNT(*) FROM Login
WHERE UserName=’admin’–
Password=’123′

SQL

针对SQL注入防范办法：

数据输入验证
特殊字符过滤：特殊字符过滤
参数化SQL语句（包括存储过程）
不使用sa级别账户作为连接账户或限制连接IP

3、CSRF攻击

CSRF（Cross-site request forgery）跨站请求伪造，也被称为“One Click Attack”或者Session Riding，通常缩写为CSRF或者XSRF，是一种对网站的恶意利用。尽管听起来像跨站脚本（XSS），但它与XSS非常不同，并且攻击方式几乎相左。XSS利用站点内的信任用户，而CSRF则通过伪装来自受信任用户的请求来利用受信任的网站。与XSS攻击相比，CSRF攻击往往不大流行（因此对其进行防范的资源也相当稀少）和难以防范，所以被认为比XSS更具危险性。

其核心策略是利用了浏览器Cookie或者服务器Session策略，盗取用户身份。
针对CSRF攻击防范办法：

表单Token
验证码
Referer检查
关键操作身份确认

4、其它攻击

Error Code:即错误代码回显，许多Web服务器为调试方便默认显示详尽错误信息，如错误发生的上下文、服务器及应用信息等，容易被恶意利用。

系统或者框架漏洞：如IIS6.0以下版本存在“JPG漏洞”；Apache Struts2服务在开启动态方法调用任意方法漏洞（CVE-2016-3081）；OpenSSL的heartbeat漏洞（CVE-2014-0160）；Apache解析漏洞；Nginx（

上传文件时对MIME进行检查，必要情况下对上传文件更名

及时关注安全网站及产品官方网站，发现漏洞及时打补丁

对Web Server运用的用户角色权限进行限制

使用漏洞扫描工具模拟攻击

下面是一些我见过的被攻击后的系统截图，如下图是CCTV音乐频道被攻击的截图：

还有本人2008年前后搭建PHPWind运行的画面：

PHPWind

上图中是本人2006年前后搭建的一个论坛，有人利用系统漏洞注册了很多用户名为空的用户（其实是身份遗失）,，然后又利用这些账户在论坛中大量发布广告、色情等违法违纪的帖子，因为使用了一些不可见字符进行注册的，在后台无法管理，最后只好在数据库中操作管理了。

五、开发相关的经验教训

1、应用日志记录

以前团队运维着一个老系统，系统中没有日志功能，而系统的操作人员的计算机水平又较低，每次打电话都是说系统不能用或者是一些根本无法快速定位原因的描述，每次接到求助后需要花费大量时间来分析定位原因，后来将系统中增加了日志功能，并且在网络状态连通情况下可自动将错误日志以邮件形式发送到负责同事组成的用户组，自此以后处理这类问题的响应时间大大缩短了，双方都很满意。

现在已经有很多开源日志库，比如.NET的Log4Net，Java的Log4j，可以很轻松地配置启用日志功能。利用日志组件可以将信息记录到文件或数据库，便于发现问题时根据上下文环境发现问题，这一点在调试多线程时尤其重要。

日志级别：FATAL（致命错误）、ERROR（一般错误）、WARN（警告）、INFO（一般信息）、DEBUG（调试信息）。

注意：在调试环境中时日志级别尽量低（warn/info)，在生产环境中日志级别尽量高(error)，且对日志文件大小一定要进行控制。不然也会产生问题。

案例：某国内有名的管业集团公司的一个系统的重要模块发生问题，启用了日志功能以便通过日志组件快速将问题定位并修复。在发布到生产环境时，运行一段时间之后发现程序运行效率相当低下，多位开发人员对模块代码进行性能分析未发现问题，大家发现同样的数据量和操作在生产环境和开发环境效率差巨大，无意中发现生产服务器上日志文件已超过5G！事后发现是由于疏忽未调高日志级别且未对日志进行控制，调整日志模式为按日记录，问题解除。

参考：《log4net使用详解》 http://blog.csdn.net/zhoufoxcn/article/details/222053

2、历史记录追踪

代码管控

尽可能使用代码管控工具对源代码进行管控，如SVN/TFS/Git，如果有可能不但管控程序代码，还要管控数据库相关的SQL文件（包括初始化脚本及存储过程和使用ORM框架中的Mapping文件），做到系统的一切变动皆有记录。

代码审核

任何人提交代码都必须本人本地编译、调试无误后，再有人review后方可提交，且针对bug修复的提交需注明所修复的bug信息。

Bug记录

通过Bug记录系统记录整个bug的生命周期，包括发现、修复、关闭。TFS本身支持bug记录，开源系统中禅道也是一个不错的Bug记录工具。

六、总结

本篇主要是就系统从开发到最终部署运维过程中常用的技术、框架和方法做了一个总结，当然以上经验总结来源于本人从业以来所经历的项目中的经验和教训，可能还有更好更完美的方案，在此权当抛砖引玉

from:http://www.yunweipai.com/archives/22697.html

algorithm

九月 13, 2017算法algorithm, 算法dotte

stackoverflow algorithm

Sorting 1 million 8-digit numbers in 1 MB of RAM

Write a program to find 100 largest numbers out of an array of 1 billion numbers

Why is quicksort better than mergesort?

Best way to reverse a string

What is a plain English explanation of “Big O” notation?

面试10大算法汇总＋常见题目解答

面试常见十大类算法汇总

大数据量的算法面试题

Bloom filter：大数据快速排除算法

海量数据处理常见面试题

十道海量数据处理面试题与十个方法大总结

教你如何迅速秒杀99%的海量数据处理面试题

十五道海量数据处理面试题与Bit-map详解

Here is a website on good algorithms and technical interviews.

Website: IDeserve

What algorithms and data structures should any software engineer know?

What are some good blogs about algorithms and technical interviews?

谷歌大神Jeff Dean：大规模深度学习最新进展

九月 13, 2017ML&DLDeepLearningdotte

在AlphaGo与李世石比赛期间，谷歌天才工程师Jeff Dean在Google Campus汉城校区做了一次关于智能计算机系统的大规模深度学习（Large-Scale Deep Learning for Intelligent Computer Systems）的演讲。本文是对他这次演讲的总结。完整演讲视频（如下）:

如果你无法理解信息里包含的内容，那么就会很难将其组织起来。

自从AlphaGo与李世石的比赛——这是约翰·亨利对战蒸汽锤的现代版本——吸引了全世界，再次滋生了对「人工智能毁灭世界」的恐惧感，似乎此时一睹Jeff的演讲是绝佳时刻。如果你认为AlphaGo现在很好，就等待它的beta版本吧。

Jeff当然提到了谷歌的著名语录：组织这个世界的信息，使信息唾手可得并变得有用。

过去，我们可能会将「组织」和收集、清除、存储、索引、报告和搜索数据联系起来。所有这些都是谷歌早期精通的业务。而这些任务完成后，谷歌已经开始进行下一项挑战了。

现在，组织意味着理解。

此次演讲的一些重点：

真正的神经网络由几亿个参数组成。谷歌现在所拥有的技能在于如何建造并快速训练这些大型模型来处理大量数据集，并用它们去解决实际问题，之后快速将这些模型部署到不同平台上的大量产品中（手机、传感器、云等等）。

神经网络在90年代没有得到快速发展是由于缺乏足够的计算能力和大型的数据集。你能看到谷歌对算法的天然热爱是如何与他们的大量基础设施结合到一起的，也能看到不断扩大的数据集如何为谷歌的人工智能创造了完美的推动。

谷歌和其他公司的一个关键区别就在于，当他们在2011年启动谷歌大脑计划时，他们并没有将他们的研究独立成该公司一个单独的研究部门，成为象牙塔一般的存在。而是项目团队和其他团队紧密合作，比如安卓、Gmail 和photo等部门，以确实改进它们的特性，解决困难的问题。这对每一家公司来说都是非常珍贵的一刻。通过和你的人一起工作将研究进行实际应用。

这一想法十分强大：他们知道他们能够获取完整的子系统，有些可能是机器学习到的，用更加通用的端对端的机器学习块进行替换。通常当你有很多复杂的子系统时，总会有很多复杂的代码将这些系统拼接起来。如果能够用数据和非常简单的算法将这一切进行替换的话就再好不过了。

机器学习很快将会变得更好。引用Jeff的话说：机器学习领域的发展非常快。一篇论文发布出来，一周内全球众多研究团体会下载这篇论文，阅读、解析论文，验证论文的内容，然后把自己对论文的延展发布到arXiv.org上。这与计算机学的其他领域不同，他们首先需要提交文件，而后六个月会议讨论决定是否接收，再过三个月会议上才会有结果。这就耗费了一年时间。电子论文能把这个时间压缩到一周是非常惊人的。

技术能够非常神奇的结合起来。谷歌翻译团队写了一个APP，能够使用计算机视觉在取景器上识别文本。在翻译完文本后，可以把翻译后的内容自动添加到图片上。另外一个例子是写图片字幕。把图片识别和一序列一序列的神经网络结合起来。可以想象，这些模块化的内容在未来将何等紧密的结合起来。

有强大功能的模型要小到足以在智能手机上运行。科技想要想取代智力必须走到这一步。它不能依靠网络连接外部的「云大脑」。既然TensorFlow模型能够在手机上运行，那这一点是有可能实现的。

如果你还没有思考深度神经网络如何解决数据理解问题，那你就要开始思考了。这条起始线从现在开始，但它的实现是非常明了的，我们看到了很多难题在深度学习网络面前都迎刃而解。

Jeff 发表的讲话都非常的棒，这次毫不例外。内容非常直接有趣，有深度，还非常容易理解。如果你想了解深度学习或了解Googel打算做什么，这些内容就值得一看了。

理解意味着什么？

当一个人看到街道景象时，他能轻而易举地挑选出图片上的文本，了解到有的商店卖纪念品，有家店价格特别低等信息。但直到现在，计算机依然不能从图片中提取出这些信息。

如果计算机想要从图片中了解现实世界，它需要能够从中挑选出有趣的信息点，阅读文本并理解它。

在未来，小型移动设备将主宰着计算机交互。这些设备都需要不同类型的界面。需要真的能够理解并生成对话。

我们在搜索引擎中输入：[汽车零部件]。旧的谷歌版本会因为关键词匹配给你第一条结果，但更好的结果其实是第二个结果。真正的理解是这个问题深层次的意义是什么，并非字眼的表面意义。这才是构建好的搜索与语言理解产品所需要的。

谷歌深度神经网络小历史

谷歌大脑计划于2011年启动，聚焦于真正推动神经网络科学能达到的最先进的技术。

神经网络已经存在很多年了，出现于19世纪60年代至70年代之间，在80年代晚期和90年代早期红极一时，然后逐渐暗淡。主要因为两个问题：1）缺乏必备的计算能力去训练大量的模型，这意味着神经网络不能应用于包含大量有趣的数据集的大型问题。2）缺乏大量的有趣的数据集。

谷歌开始只有几个产品团队工作。随着这些团队发布一些很好的、能解决以前不能解决的问题的产品。名声渐起，很快，更多的团队加入其中帮助解决问题。

谷歌需要利用深度学习技术的产品/领域：安卓，Apps，药物发现，谷歌邮箱，图像理解，地图，自然语言，图片，机器人，语音翻译，等等。

深度学习能应用于如此完全不同的项目的原因是他们涉及相同的基石，这些基石可用于不同的领域：语音、文本、搜索查询、图像、视频、标签、实体(一种特定的软件模块）、文字、音频特性。你可以输入一种类型的信息，决定你想要输出信息类型，收集训练数据集指示出你想要计算的功能。然后，你可以放手不管了。

这些模型十分奏效，因为你输入的是非常原始的数据。你不必给出数据大量的有趣特点，模型的力量足以让它自动地通过观察许多许多例子决定数据集的有趣之处。

你可以学习常见的表征，这种学习很可能是跨领域的。例如，一辆『汽车』可以指图像中与真实相同的汽车。

他们已经学到他们可以聚集一大堆的子系统，其中一些可能是由机器学习的，然后用更通用的端对端的机器学习块代替它。通常当你有很多复杂的子系统时，往往有大量复杂的代码将这些子系统缝结在一起。如果你能用数据和简单的算法代替所有复杂代码，那就太好了。

什么是单个深度神经网络？

神经网络从数据中学习真正复杂的函数。从一端输入内容转换成另一端的输出内容。

这一函数不像计算x2，而是真正复杂的函数。当你输入原始像素，比如一只猫是，输出结果就会是事物的类别。

深度学习中的「深度」是指神经网络的层的数量。

对于深度，一个好的属性是系统是由简单的可训练的数学函数的集合构成的。

深度神经网络与大量机器学习方式是兼容的。

例如，你输入猫的图片，输出的是一张人为标注为猫的图像，这叫作监督式学习。你可以给系统列举大量的监督式样例，并且将学习结合一个函数，这个函数与在监督式例子所描述的是相似的。

你也可以进行非监督式训练，你只得到图像而不知道图像里面的什么。然后系统可以依靠在众多图片中出现的模式学会挑选。所以，即使不知道图像叫作什么，它也可以在所有这些有猫的图形辨别出共同的事物来。

这也和更多像强化学习这样的外来技术是兼容的。强化学习是非常重要的技术，它正在被AlphaGo使用。

什么是深度学习？

神经网络模型可以说是基于我们所认识的大脑运作的方式，它并不是对神经元真正工作的详细模拟，而是一个简单抽象的神经元版本。

一个神经元能够接收许多输入信息，真实的神经元会将不同的优势（strengths）与不同的输入相联系。人工智能网络试着学习为所有那些边缘，亦即与这些不同输入关联的优势进行加权。

真实的神经元吸收一些输入与优势的组合，并决定是否发出一个脉冲。人工神经元不仅仅会发出脉冲，还会发出一个实数值。这些神经元计算的函数是输入的加权求和乘以非线性函数的权重。

现今通常所用的非线性函数是ReLU(max(0,x))。在上世纪九十年代，大部分非线性函数都是更加平滑 (https://www.quora.com/What-is-special-about-rectifier-neural-units-used-in-NN-learning)的 sigmoid或tanh函数。当神经元不放电的时候会取真正的零值，而不是非常接近零的数值的优秀特性，从而帮助优化系统。

例如，如果神经元有着三个输入X1，X2，X3，分别有着0.21,0.3,0.7的权重，那么计算函数将为：y = max(0, -.0.21*x1 + 0.3*x2 + 0.7*x3)。

在识别图片里是一只猫还是一只狗的过程中，图像会经过多层级处理，基于它们的输入神经元可以决定是否发射脉冲。

最底层的神经元只处理一小部分像素，更高层的神经元则会处理下层神经元的输出并决定是否发射脉冲。

模型会如此向上直至最后一层处理完毕，举个例子，这是一只猫。在这种情况下它错了，这是一只狗（尽管我也认为那是一只猫，那是一只在篮子里的狗吗？）。

输出错误的信号会反馈回系统中，接着其余模型会做出调整以让它在下一次处理图片时更有可能给出正确的答案。

调整整个模型所有的边缘权重以增大获得正确结果的可能性，这就是神经网络的目标。人们在所有的样本都如此处理，这样在大部分的样本中都会得到正确的输出。

学习算法非常简单。循环计算步骤如下：

随机选择一个训练样本「（输入，标签）」。例如，一张猫的图片，以及预期输出「猫」。

用「输入」运行神经网络，并观察它的结果。

调整边缘权重，让输出更接近与标签」。

该如何调整边缘权重以让输出接近标签呢？

反向传播法：这里是一篇针对此的推荐文章：Calculus on Computational Graphs: Backpropagation (http://colah.github.io/posts/2015-08-Backprop/)。

当神经网顶层选择的是猫而不是狗的时候，通过微积分链式法则来调整权重参数使得网络可以做更准确的预测。

你需要和权重的箭头保持同一方向，让它更有可能认为这是一只狗。不要跳一大步，因为这可是一个复杂坎坷的表面。小步前进会让结果在下一次更有可能变成狗。通过大量迭代以及对样本的观察，结果就越有可能变成狗。

通过链式法则你可以理解底层的参数变化会如何影响输出。这意味着神经网络网络的变化如同涟漪般波及至输入，调整整个模型，并增大它说出狗的可能性。

真的神经网络由数以亿计参数组成，因此你正在一个亿维空间内做调整，并试着理解那是怎样影响网络输出结果的。

神经网络的很多优秀特性

神经网络可以运用到多个不同领域，用来解决不同的问题：

文本：英语和其他语言包含数万亿的单词。现有很多对应的文字资料，包含句与句对应的一种源语言文字与其翻译版的另一种语言文字。

视觉数据：数十亿的图像和视频。

声音：每天会产生几万小时的音频数据；

用户行为：不同的应用程序都在产生数据，无论你在搜索引擎敲下的字符还是在邮箱里标记的垃圾邮件，这些用户行为里可以不断被学习，并用来给你「定制」智能系统。

知识图谱：数十亿打标签的RDF triple数据。

你给的数据越多，其反馈的结果越好，你也会让这个模型更大。

如果你投入更多的数据却不去扩大你的模型，会进入一个模型能力的饱和状态，此时，模型学习到的只是关于你的数据集最显而易见的事实。

通过增加模型的规模，模型不仅可以记住一些明显的特征，还会记住一些只是偶然在数据集中出现的细微特征。

打造更大的模型需要更多数据和更强大的计算能力。谷歌一直在做的就是如何规模化计算量并投入到这些问题的解决中，从而训练更大的模型。

深度学习给谷歌带来哪些影响？

语音识别

语音识别团队第一个和谷歌大脑团队合作部署神经网络。在谷歌大脑团队帮助下，部署上线了一个新的、基于神经网络的语音模型，不再使用之前的隐马尔科夫模型。

声学模型的问题是从150毫秒的语音里预测其中10毫秒的声音是什么。类似与「ba」还是「ka」。接着你有了这些预测的完整序列，然后将它们和语言模型对接起来，以理解用户在说什么。

这个模型将识别错误率降低了30%，意义非常重大。此后语音团队继续在构建更加复杂的模型，并结合更好的神经网络降低错误率。现在你在手机上说话，语音识别已经比三到五年前好太多了。

Image 挑战赛

大约六年前， ImageNet的数据库公开，大约有100万图像数据，这个巨大的图像数据库对于推进计算机视觉的发展意义重大。

图像被分为1000个不同种类，每个种类大约1000张照片；

大约有1000张不同的豹子照片、1000张不同的汽车、滑板车照片等等；

其中有个复杂的因素：并非所有的标签都是正确的；

比赛的目标是概括出照片的新的类型。对于一张新照片，你能判断出来上面是猎豹还是樱桃吗？

在神经网络运用到比赛之前，这项比赛的错误率为26℅。2014年，谷歌赢得比赛时的错误率为6.66%。2015年的时候，获胜团队的错误率降低到3.46%。

这是一个巨大而且有深度的模型。每个盒子都布满了完整层级的神经元，它们正在进行卷积运算，关于这方面的详细情况，可以查看这篇论文《Going Deeper with Convolutions》

一个名叫 Andrej Karpathy 的人也参与了比赛，他的错误率是5.1%，他后来还写了篇文章《What I learned from competing against a ConvNet on ImageNet.》

神经网络模型擅长什么？

神经网络模型非常擅长识别精细程度的差别。比如，计算机擅长辨别人类不善于分辨的犬种。人类可能看到一朵花就只知道那是一朵花，计算机可以分辨那是一朵「芙蓉」或是一朵「大丽花」。

神经网络模型擅长归纳。比如不同种类的饭菜，尽管看起来不一样，但都会被标记为「饭菜」。

当计算机出错时，错误的原因是合理的。比如一只蛞蝓看起来很像一条蛇。

谷歌照片搜索

检查照片的像素并理解图像中的内容，这是个很强大的能力。

Google Photos 团队在没有标记它们的情况下部署了这一能力。你可以在没有标记图片的情况下搜索到雕像、尤达、图画、水等图片。

街景影像

在街景影像中，你希望可以阅读到所有的文本。这是更为精细更为具体的视觉任务。

首先需要能够找到图像中的文本。模型基本上都是被训练用来预测像素热图的：哪些像素包含文本，哪些不包含。训练数据是绘制于文本像素周围的多边形。

因为训练数据包含不同的字符集，它可以找到多种不同语言的文本。它可以识别大字体和小字体，离镜头近的和离得很远的文字，以及不同颜色的文本。

这是一个训练相对简单的模型。这是一个试图预测每个像素是否包含文本的传统的网络。

谷歌搜索排名的RankBrain

RankBrain于2015年推出，是谷歌第三重要的搜索排名因素。了解更多：谷歌将其利润丰厚的网络搜索交给人工智能机器。

搜索排名是不同的，因为你想要能够理解该模型，你想理解为什么它会做出特定的决策。

这是搜索排名团队犹豫在搜索排名中使用神经网络的一个原因。当系统出错时，他们希望了解什么会这样。

调试工具已被制造出来，而且模型也能被充分地理解，以克服这种异议。

一般来说你不想手动调整参数。你尝试理解为什么模型会做出那样的预测并搞清楚是否与训练数据相关，是与问题不匹配吗？你可能在一个分布式数据上进行训练，然后将其应用于另一个。通过搜索查询的分布，模型每天都能获得一点改变。因为事件在改变，模型也一直在改变。你必须了解你的分布是否是稳定的，比如在语音识别中，人们的声音并不会发生太大改变。查询和文档内容经常在改变，所以你必须确保你的模型是新鲜的。更一般地，我们需要打造更好的用于理解这些神经网络内部状况的工具，搞清楚是什么得出了预测。

序列至序列（Sequence-to-Sequence）映射模型

世界上许多问题都可归入到一个序列映射到另一个序列的框架中。谷歌的Sutskever、Vinyals 和 Le 在这个主题上写了一篇开关性的论文：使用神经网络的序列到序列学习 (http://papers.nips.cc/paper/5346-sequence-to-sequence-learning-with-neural-networks.pdf)。

特别地，他们研究了语言翻译，将英语翻译成法语中的问题。翻译事实上只是将英语句子序列映射到法语句子序列。

神经网络非常擅长学习非常复杂的功能，所以这个模型学习了映射英语句子到法语句子的功能。

一种语言的一个句子通过EOS（end of sentence）信号一次输入一个词。当模型看到EOS 开始产出其它语言对应的句子时，模型就得到了训练。训练数据是具有同样含义的不同语言中的配对句子。它只是试图该函数建模。

模型会在每一步发出你的词汇中所有词条输入的概率分布。在推理而不是训练时间，你需要做一点搜索。如果你必须最大化每个词的概率，你并不一定会得到最可能的句子。直到找到最大可能的句子，联合概率的搜索才完成。

该系统是现在公共翻译服务中最先进的。其它翻译系统是一堆手写的代码或这个翻译问题的子块的机器学习模型，而非完全的端到端学习系统。

人们对这一模型的兴趣在暴增，因为很多问题都可被映射到序列到序列的方法。

智能回复（Smart Reply）

Smart Reply是序列到序列在产品中的一个应用案例。在手机上，你希望快速回复邮件，而打字又让人痛苦。

和 Gmail 团队合作，他们开发了一个能预测一条信息可能的回复的系统。

第一步是训练一个小模型以预测一条信息是否是可以快速回复的信息。如果是，就会激活一个更大的计算上更昂贵的模型；该模型将该信息作为一个序列，并尝试预测回复的单词序列。

比如，对于一封询问感恩节邀请的电子邮件，可预测到的回复有三个：把我们算上；我们会去；抱歉我们去不了。

Inbox 应用中惊人数量的回复都是通过 Smart Reply 生成的。

图片说明

生成一张图片说明时，你会试着让机器尽可能写出类似人类基于图片会做出的说明。

采用已经开发出来的图片模型，以及已经研发出来的Sequence-to-Sequence模型，把它们插在一起。图片模型被用作输入。

它被训练用来生成说明。训练数据集拥有五种不同的人给出的五种不同说明的图片。10万到20万的图片需要写70万句的说明。

一张婴儿怀抱泰迪熊的图片，电脑这么写的：一个抱着填充玩具动物孩子的特写；一个婴儿在泰迪熊旁边睡着了。

还没有达到人类理解水平，但机器出错时，结果可能会有趣。

综合视觉+翻译

技术能够综合起来。翻译团队编写了使用了在取景器中识别文本的计算机视觉APP。翻译文本，然后给图片叠加翻译文本(让人印象非常深刻，约37；29）。

模型足够小，整个计算都在设备上运行。

迭代（turnaround)时间和对研究的影响

在一天内完成单个CPU花费6周才能完成的训练

谷歌真的关心能够快速迭代研究。它的想法是快速的训练模型。理解什么运行良好，什么运行欠佳，找出下一组要运行的实验。

一个模型应该在在几分钟几小时内就能可训练，而不是几天甚至几个礼拜。让每个做这类研究的人更加富有生产力。

如何快速训练模型？

模型的并行性

一个神经网络有许多内在的并行性。

所有不同的个体神经元几乎都是彼此独立的，当你计算它们时，特别是，加入你有Local Receptive Fields，这是一个神经元从其下方少量神经元那里接受输入的地方。

能够跨越不同GPU卡上的不同机器对工作进行划分，只有跨越边界的数据才需要交流。

数据的并行性

当你对模型的参数集进行优化时，不应该在中央服务的一台机器上进行，这样你就有不同的模型副本，通过它们之间的合作来进行参数优化。

在训练中理解不同的随机数据片段。每一个副本都会获得模型中当前的参数集，通过对相当规模数据的理解来判断出梯度，找出需要对参数所作的调整，并且将调整值发回至中央参数集服务器。参数服务器会对参数进行调整。不断重复这个过程。

这会在多个副本之间完成。有时他们会使用500台机器来生成500个模型副本，以便迅速实现参数的优化和处理数据。

这个过程可以异步进行，每个数据分任务在各自独自的循环运算中，获取参数，计算梯度并将它们传回，不会受到其他彼此的控制和同步。结果是，按照50-100的副本规模进行练习，对许多模型来说是可行的。

Q&A

如果不是诸如谷歌这样的大公司，无法获取海量数据集，你会怎么做？从一个运行良好的模型开始，用公共数据集进行训练。公共数据集普遍可以获取。然后用更加适合你问题的数据进行训练。当你从一个类似并且公开可获取的数据组开始时，针对你的特殊问题，可能只需要1,000或者10,000标签实例。ImageNet就是这种处理可行的好例子。

身为一个工程师，你所犯过的最大错误是什么？没有在BigTable里放入分布式事务处理能力。如果你想要更新多条数据，你不得不运作你自己的事务处理流程。没有放入事务处理能力是因为会增加系统设计的复杂度。回想起来，很对团队想要有那种能力，他们各自独立（在上层）去添加这个能力，也获得了不同程度成功。我们应该在核心系统实现事务处理能力。它在内部应用场景也会很有用。Spanner系统增加了事务处理搞定了这个问题。

英文链接：Jeff Dean on Large-Scale Deep Learning at Google

Dotte博客

大数据、云计算、架构、语言的本质、计算的未来

All posts by dotte

是否存在”可证明”的对于世界的解释？

耶鲁教授: 通识教育和思辩培养是中国孩子最缺的两门课

如何打造一个日均PV千万级别的大型系统？

一、从两个系统说起

1、某移动互联网公司服务器端架构图

2、某公司生产管理系统架构图

二、系统质量保证

1、单元测试

2、代码质量管理平台

三、系统性能保证

1、缓存

2、异步

3、负载均衡

4、读写分离

四、系统安全性保证

1、XSS攻击

2、SQL注入

3、CSRF攻击

4、其它攻击

五、开发相关的经验教训

1、应用日志记录

2、历史记录追踪

六、总结

algorithm

谷歌大神Jeff Dean：大规模深度学习最新进展