位于西南部地區的某線纜生産制造龍頭企業,正基于深信服超融合承載其Oracle RAC數據庫。目前,用戶處于業務擴展期,但IT部門當前的運維人力緊張、預算有限,且缺乏專業的數據庫管理員,難以應對龐大業務體系下的運維難題。在這樣的困境下,用戶開始尋找能夠有效適配的解決方案。
用戶本地數據中心概覽及業務挑戰
該生産制造企業目前已基于深信服超融合平台構建其核心數據中心設施環境,總計部署超過400核CPU、6TB內存資源,並運行120+台虛擬機,承載用戶關鍵業務系統,包括OA、財務、生産管理、ERP以及數據庫等核心應用,爲用戶的日常運營和生産活動提供了穩定可靠的技術支撐。
然而,隨著用戶的業務不斷擴展,IT部門原有的人力資源及能力都不足以支撐快速增長的需求,尤其在面臨數據庫卡慢、卡死的相關問題時,因缺乏專業DBA,很難進行有效處理,具體問題如下:
主動監控手段不足,經常被動響應:核心數據庫由于缺乏有效的監控手段,經常在收到業務部門的問題反饋及投訴之後才開始介入到問題的排查階段,問題處置滯後,對業務部門影響較大。
缺乏專業DBA,數據庫問題排查異常困難:針對業務部門頻繁反饋的ERP業務系統卡慢、卡死等問題,IT部門對數據庫性能的分析能力比較欠缺,軟件廠商和系統運維工程師都難以定位問題根因。
在用戶龐大的IT規模和有限的資源條件下,深信服基于一朵雲爲用戶規劃智能運維服務方案,將傳統線下運維工作進行在線化、智能化轉型,助力用戶以更簡便、高效的路徑實現7*24h在線監測值守和主動式運維服務,提升運維效率,保障業務穩定運行。
關鍵事件:智能運維實踐
下面,我們通過對一次數據庫診斷場景的關鍵事件詳解,呈現智能運維服務的價值。
用戶數據庫遇到性能問題,主動試用智能運維與訂閱數據庫線上專家服務,並接入Oracle數據庫。
2024-11-1516:33:09:用户反馈运行在HCI上的Oracle RAC数据库相关的业务系统卡慢,几乎无法使用。
2024-11-1516:45:27:通過試用智能運維服務,將Oracle數據庫接入至雲端智能大腦,並聯系深信服DBA專家接入分析Oracle數據庫卡慢問題。
深信服DBA專家通過智能運維中的數據庫智能診斷功能,先獲取到用戶業務卡慢時刻附近的AWR報告。
通過超融合平台,登錄到用戶的Oracle主機上進行檢查。
經過檢查,發現系統大量使用Swap,說明系統內存不足。(cached占用代表數據庫使用到了操作系統對文件系統的緩存,可能會因緩存文件導致內存過度消耗。)
通過查看從雲端智能大腦上導出的AWR報告,通過分析得知SGA的緩存命中率低(約爲67%),而TP環境中不應低于90%。
除此之外,還發現PGA的內存消耗達到配置的上限,導致內存分配等待。
故障原因
Swap是磁盘上一块存储空间。当系统内存使用超过一定值的时候,操作系统就会启动内核进程kswapd,kswapd将部分内存数据置换到Swap(swap out),从而释放一部分内存出来,当进程需要读取被置换到Swap的页的时候,内核再将数据从Swap读到内存(swap in)。
由于Swap in和Swap out是内核层自动执行的,所以进程不知道自己的内存是否被置换到Swap上了。swap让进程可以使用超过物理内存大小的内存空间。但是由于Swap是磁盘上的一块空间,所以其读写性能和内存差了1000~10000倍。
當內核開始使用Swap,會大大降低系統的響應速度,表現到業務層面爲卡慢,甚至操作失敗。
當系統使用了Swap時,若存在頻繁換入換出即會導致kswapd進程活躍、CPU使用率上升、大量磁盤IO請求,進而導致業務系統整體卡慢,無響應。
處置建議
在定位到故障原因之後,我們爲用戶提供以下處置方案:
扩大虚拟机内存,建议扩容到220GB以上(SGA160G + PGA20G + OS预留和缓存32GB)。
建議配置使用大頁內存(HugeTabe),避免會話較多時/內存頁過多,導致頁表(TablePage)占用過多內存。
建议将数据库的文件系统IO调整为setall(避免经系统缓存IO,导致OS Cache大量消耗内存)、SGA调整为160G、PGA调整为20G。
2024-11-1523:45:27~2024-11-1624:00:經過調整後,用戶數據庫性能大幅提升。
用戶價值
問題精准定位
基于智能運維全棧監控體系和數據庫線上服務,接入並監控Oracle數據庫核心性能指標,充分利用平台提供的數據庫診斷功能,方便核心數據庫問題現象定位。
疑難問題閉環
依托于智能運維服務提供的DBA專家服務,快速協助用戶排查數據庫層面的性能問題,獲取資深DBA的處置建議,指導數據庫問題端到端處置閉環,縮短MTTR(平均故障修複時間)50%以上,運維效率提升60%以上。
全棧豐富的監控能力,7*24小時持續的守護
智能運維服務通過硬件、平台軟件、操作系統、數據庫、應用的全棧信息,進行關聯分析,根因溯源,深入分析問題本質、溯源前因後果等多維度揪出根本原因,同時配備專屬服務經理進行7*24h值守與主動響應,幫助用戶提前規避潛在風險。
基于一朵云,深信服围绕用户在业务扩展时遇到的运维难题,提供智能運維服務,通过线上线下结合,让用户突破传统运维工作的困境,在简化工作的同时获得更好的运维效果,大幅降低运维成本,可满足用户在各个业务发展阶段的运维需求,保障业务稳定运行,提升业务连续性。
(推廣)