NEWS

新闻资讯

360搜索技术论坛:SRE解密如何高效稳定的服务?

2017-09-19 17:46:41     浏览:


每年双十一或者遇到大型电商活动日,国内电商网站的技术团队就压力山大。过去几年间,一些大型网站相继出现了意外事故。比如,某电商网站在购物节高峰时段无法支付,某个上亿用户的APP突然停摆,甚至还有网站因为被黑导致用户账户信息外泄。网站一旦宕机,业务往往中断,不但使用体验下降,还造成了巨大的经济损失。
互联网企业为了保证网站服务的高稳定性和可用性,往往会组建SRE团队。SRE(Site Reliability Engineer)源自于Google,代表了一个全新的运维理念和其伴随的崭新的工程领域。团队的精华在于研发软件系统,将运维自动化以代替传统模型中的人工操作。
SRE工程师不只是维护各种线上服务的稳定性,还要负责保证各项服务的性能,对于应用程序的设计实现方式,依赖库,运行时的资源消耗都有严格制约,同时SRE强调的是对问题和故障的自动处理,而非人工干预。同时,SRE非常注重开发和运维职能的结合,极大地加快了业务应用迭代周期,提升了IT对业务的支撑能力。
 
360搜索SRE团队,是360搜索部门中运行和管理几万台服务器和各个业务线高效稳定发展的运维开发队伍。团队的成员对于技术的追求和探索从未止步,致力于将运维自动化代替传统运维的人工操作,同时保证所有服务的高稳定性和高可用性。
作为国内第二大搜索引擎,360搜索SRE团队也经常面临各种问题与挑战,例如:大型互联网应用部署规模从几千台到几万台不一,随着软件系统复杂度提升也呈现越来庞大的趋势,如何通过少数人力管理好庞大负责的应用环境?如何在环境极度复杂的情况下确保业务的质量?如何在确保质量的情况下优化迭代速度?360搜索SRE在解决这些问题时,积累了丰富的实战经验。
为了与行内人士一起分享这些问题解决方法,也希望能给所有从事运维开发行业的人员提供一个交流平台。360搜索SRE团队在9月23日,本周六下午在360北京总部举行SRE坛。本次技术论坛邀请到两位来自360搜索资深SRE工程师卢佳瑜和于畅,以及来自小米公司的运维工程师韩德田先生,与大家一起分享运维中的经验和心得。
据了解,本次SRE技术论坛,是2017年360搜索举办的第七次技术论坛。前六期主题覆盖“大数据存储”和“前端技术”“测试技术”“智能算法”多个热门领域,360公司数十名技术专家,以及国内一线互联网公司的十余名资深专家参与分享,上万人通过现场和直播的方式观看了分享会。
本次活动详情如下:
活动时间:2017年9月23日 13:30 ~ 2017年9月23日 18:00
活动地点:(北京朝阳)北京朝阳区酒仙桥路6号院(电子城•国际电子总部)2号楼 B座报告厅。
报名方法:进入“活动行”网站或“活动行”app报名
报名网址:
http://www.huodongxing.com/event/9404891491300  
时间安排:
 
提示:现场抽奖活动将有360智能硬件, 技术图书等送出!
 
讲师介绍:
一 360讲师:卢佳瑜
主题:《360搜索HTTPS实践》
个人介绍:2015年加入360搜索,负责技术平台相关开发,经历了360搜索技术平台从无到有的建设过程。
分享内容介绍:
大量的平台需求让人不胜其烦,多个平台各自为站让人难以维护,最终往往将人拖入无尽的烦恼中。360搜索通过微服务的架构,抽象化,统一化的思想,将大量平台归纳到一个平台-thor中,构建了能产生平台的平台。从而降低了80%以上的维护难度和人力成本。
 
二 外部讲师:韩德田
主题:《LVS集群之运营商混合部署实战》
 
个人介绍:小米运维工程师,负责小米基础服务的运行维护,在LVS集群维护,改进以及优化方面具有丰富的经验。
分享内容介绍:
单机房多运营商致使LVS集群分散,使得集群规模变化以及维护管理成本变高。高可用,高性能,易于管理维护以及扩展是我们追求的目标。本次分享将基于单机房多运营商给大家分享LVS集群探索实践之路,希望能给大家一些帮助和启发。
 
三 360讲师:于畅
 
主题:《SRE在360搜索的实践》
个人介绍:360搜索SRE开发工程师,主要负责360搜索SRE方面工作,推动提升应用稳定性与可靠性,推动SRE在360搜索落地。
分享内容介绍:
SRE团队主要负责360搜索后端的应用保障工作,推进应用通过前端埋点,暴露metric等方式接入Prometheus。本次分享将向大家介绍SRE在360搜索的落地过程,同时分享Prometheus在360搜索的应用与实践。