場景描述
![]()
圖片系AI生成
在線服務資源使用量隨著終端用戶的使用習慣呈現(xiàn)出穩(wěn)定的潮汐現(xiàn)象,夜間CPU利用率極低,導致集群均值CPU利用率較低;業(yè)務保有大量的獨占資源池,資源池割裂產生大量的資源碎片,拉低CPU利用率;業(yè)務為了穩(wěn)定性考慮,會過量囤積資源,進一步拉低CPU利用率。
解決方案

點擊報名參與創(chuàng)新場景50的評選
在阿里云的協(xié)助下,小紅書混部技術經(jīng)歷了四個階段演進:閑置資源再利用、整機騰挪分時復用、常態(tài)混部、統(tǒng)一調度。
一,通過技術手段將集群中的閑置資源收集起來,分配給轉碼類業(yè)務場景使用;
二,通過彈性能力(HPA),在凌晨業(yè)務低峰期按比例對在線業(yè)務縮容,騰挪空出整機,并將轉碼、訓練等離線pod在該時段運行起來,起到利用率“填谷”的效果;
三,平臺持續(xù)推進業(yè)務大規(guī)模合池,將業(yè)務由獨占池遷至平臺托管的公共混部池,通過合池、資源超賣等技術手段,CPU分配率得到有效提升,同時通過建設更為細粒度的資源管理與調度能力來實現(xiàn)均值利用率提升的目標;
四,混合云架構的統(tǒng)一調度來管理異構計算資源,并支持各類業(yè)務形態(tài)的工作負載調度能力。
成效
通過大規(guī)模容器混部的持續(xù)推進,小紅書在資源成本效能上有顯著改善。
在CPU利用率方面,在線混部集群天均CPU利用率提升至45%以上,部分集群天均CPU利用率可穩(wěn)定提升至55%。在線集群CPU利用率提升8%-15%不等,部分存儲集群利用率提升可達20%以上。在資源成本方面,為小紅書各類離線場景提供數(shù)百萬核時的低成本算力。混部集群CPU分配率提升至125%以上,相較于獨占資源池,資源碎片率明顯下降。
「關于創(chuàng)新場景50」
場景不是案例,它更加精準、也更加抽象。數(shù)字化就是創(chuàng)新場景的不斷疊加和迭代。
在此背景下,鈦媒體重磅推出「創(chuàng)新場景50」評選,每年遴選并解讀50個全行業(yè)與業(yè)務深度融合的創(chuàng)新性場景及其解決方案,并在鈦媒體年度ITValue Summit 數(shù)字價值年會上隆重頒獎、深度交流。
目前場景正在征集中,更精準的解讀、更廣泛的曝光、更強大的品牌勢能,歡迎你提出問題,更歡迎你留下解決的方法和工具。點擊這里投遞更多場景信息

點擊進入2024 ITValue Summit數(shù)字價值年會,了解更多信息。

快報
根據(jù)《網(wǎng)絡安全法》實名制要求,請綁定手機號后發(fā)表評論