您所在的位置: 首頁 >
新聞資訊 >
技術前沿 >
基于行為分析的內(nèi)網(wǎng)數(shù)據(jù)防泄露場景研究與技術實現(xiàn)
摘? 要:通過對內(nèi)網(wǎng)數(shù)據(jù)泄露場景的研究,基于行為分析技術發(fā)現(xiàn)內(nèi)網(wǎng)數(shù)據(jù)泄露的風險。從內(nèi)網(wǎng)數(shù)據(jù)的生命周期出發(fā),結合內(nèi)網(wǎng)數(shù)據(jù)泄露的途徑,梳理出 45 個數(shù)據(jù)泄露的場景。采用基于分析規(guī)則的流式實時分析和基于 AI 檢測的離線行為建模分析兩種方法對場景進行檢測。目前已將這些研究成果成功應用于數(shù)據(jù)防泄露監(jiān)測平臺,取得了令人滿意的效果,為解決內(nèi)網(wǎng)數(shù)據(jù)防泄露問題提供了一種新的研究思路和實踐方法。
內(nèi)容目錄:
1 研究現(xiàn)狀
2 內(nèi)部網(wǎng)絡特點分析
3 泄露場景梳理
3.1 數(shù)據(jù)生成
3.2 數(shù)據(jù)存儲
3.3 數(shù)據(jù)訪問
3.4 數(shù)據(jù)流轉
3.5 數(shù)據(jù)外發(fā)
3.6 數(shù)據(jù)備份
3.7 數(shù)據(jù)銷毀
4 技術實現(xiàn)
4.1 基于分析規(guī)則的流式實時分析
4.2 基于 AI 檢測的離線行為建模分析
5 結? 語
IBM 安 全 團 隊 于 2023 年 7 月 發(fā) 布 的 Cost ofData Breach Report 顯示,2023 年全球數(shù)據(jù)泄露的平均成本達到 445 萬美元,創(chuàng)該報告有史以來最高紀錄,也較過去 3 年均值增長了 15%。同月,著名咨詢機構 Verizon 發(fā)布了《2023 年數(shù)據(jù)泄露報告》,該報告對 2022 年一年發(fā)生的 16 312 起安全事件和5 199 起數(shù)據(jù)泄露事件進行了分析。報告顯示,人是數(shù)據(jù)泄露事件的關鍵因素,安全事件涉及人為因素的占比為 74%,包括人為錯誤、濫用職權、使用被盜憑證,以及社會工程學攻擊,而人在安全事件中始終扮演著非常重要的角色 。在所有這些泄密事件中,內(nèi)部威脅(即來自公司內(nèi)部員工的威脅)在數(shù)據(jù)泄露事件中占據(jù)了較大的比例。
近年來,內(nèi)網(wǎng)數(shù)據(jù)泄露案例層出不窮 ,例如2018 年 7 月,某市保密局在工作中發(fā)現(xiàn),該市科技局辦公室副主任孫某使用的非涉密計算機中存儲、處理涉密文件資料,共收集了包括 1 份機密級、7 份秘密級在內(nèi)的 1 100 多份發(fā)改領域文件資料,孫某使用移動硬盤將部分數(shù)據(jù)導出至其在科技局的辦公電腦,直至案發(fā);2021 年 5 月,某單位收到上級下發(fā)的秘密級工作方案,要求逐級參照制定,該單位業(yè)務部門負責人王某安排工作人員趙某負責起草方案,趙某“依葫蘆畫瓢”擬好初稿,便草草提交到單位內(nèi)網(wǎng)的非涉密電子公文系統(tǒng),王某審閱文稿時,未發(fā)現(xiàn)定密疏漏,該單位的下屬單位均據(jù)此方案制文,通過該系統(tǒng)層層轉發(fā),造成泄密。
本文對企事業(yè)單位內(nèi)部網(wǎng)絡數(shù)據(jù)防泄露問題展開了深入的研究。從內(nèi)網(wǎng)數(shù)據(jù)生命周期的角度梳理出數(shù)據(jù)泄露的場景,并提出了基于分析規(guī)則的流式實時分析和基于 AI 檢測的離線行為建模分析兩種技術實現(xiàn)方法。
1、研究現(xiàn)狀
隨著數(shù)據(jù)泄露問題日益嚴重,已經(jīng)有許多研究和實踐工作致力于開發(fā)數(shù)據(jù)防泄露解決方案。目前,數(shù)據(jù)防泄露的技術路線主要包括數(shù)據(jù)加密技術、權限管控技術和基于內(nèi)容深度識別的通道防護技術,然而這些方法存在一些問題 。
數(shù)據(jù)加密技術是過去十年國內(nèi)數(shù)據(jù)泄露防護的重要技術之一,它涵蓋了磁盤加密、文件加密和透明文檔加解密等技術路線。加密技術可以從數(shù)據(jù)泄露的源頭保護數(shù)據(jù),在數(shù)據(jù)離開企業(yè)內(nèi)部后仍能起到防止數(shù)據(jù)泄露的作用。然而,加密技術的密鑰管理非常復雜,一旦密鑰丟失或加密后的數(shù)據(jù)損壞,將導致原始數(shù)據(jù)無法恢復。
權限管控技術通過設置特定的安全策略,在敏感數(shù)據(jù)文件生成、存儲和傳輸時實現(xiàn)自動化保護。它還通過條件訪問控制策略防止敏感數(shù)據(jù)非法復制、泄露和擴散等操作。權限管理策略與業(yè)務流程有密切關聯(lián),對用戶現(xiàn)有的業(yè)務流程可能產(chǎn)生影響。
基于內(nèi)容深度識別的通道防護技術以深度內(nèi)容識別為核心,根據(jù)敏感數(shù)據(jù)內(nèi)容策略定義,監(jiān)控數(shù)據(jù)的外傳通道,并對敏感數(shù)據(jù)的外泄進行審計或控制。然而,在一些內(nèi)網(wǎng)環(huán)境中,由于政策法規(guī)要求及商業(yè)利益保護等原因,通常不允許外部程序直接提取文件的內(nèi)容信息,因此該技術在某些內(nèi)網(wǎng)中的應用受到限制。
使用以上技術的傳統(tǒng)數(shù)據(jù)防泄露產(chǎn)品主要側重于靜態(tài)的數(shù)據(jù)保護,往往忽視了用戶行為導致的數(shù)據(jù)泄露場景,無法對內(nèi)網(wǎng)用戶的行為進行全面監(jiān)測和分析,也無法有效識別和防止用戶通過合法但有潛在風險的行為泄露數(shù)據(jù),內(nèi)網(wǎng)數(shù)據(jù)泄露的挑戰(zhàn)亟待解決。因此,需要一種新的數(shù)據(jù)防泄露機制來應對當前和未來的數(shù)據(jù)安全風險。
本文提出的基于行為分析的內(nèi)網(wǎng)數(shù)據(jù)防泄露方法彌補了傳統(tǒng)方法的不足,具有很大的優(yōu)勢和潛力。該方法能夠關注用戶的行為特征和動態(tài)變化,充分考慮用戶在內(nèi)網(wǎng)中可能導致數(shù)據(jù)泄露的行為場景。通過檢測場景,分析和識別數(shù)據(jù)泄露風險,能有效監(jiān)測內(nèi)網(wǎng)數(shù)據(jù)泄露事件。
2、內(nèi)部網(wǎng)絡特點分析
內(nèi)部網(wǎng)絡(簡稱內(nèi)網(wǎng))是采用 Internet 技術,在政府機構、企事業(yè)單位內(nèi)部建立的專用網(wǎng)絡。它是日常辦公和科研生產(chǎn)的重要網(wǎng)絡,用于組織內(nèi)部的數(shù)據(jù)交流和共享。內(nèi)網(wǎng)數(shù)據(jù)通常包含組織的核心機密、財務報表、技術設計等高價值信息。這些數(shù)據(jù)一旦泄露會對組織甚至國家造成巨大損失,因此內(nèi)部網(wǎng)絡往往與國際互聯(lián)網(wǎng)進行物理隔離或高強度邏輯隔離。
當前,大多數(shù)內(nèi)部網(wǎng)絡嚴格遵循等級保護的要求,實施了較為完善的防護措施 [7],但內(nèi)網(wǎng)數(shù)據(jù)泄露風險仍然存在,數(shù)據(jù)泄露事件時有發(fā)生。這些防護措施能夠為數(shù)據(jù)泄露場景的研究提供條件,例如:依據(jù)組織內(nèi)部情況或者相關法律法規(guī)對數(shù)據(jù)進行分類分級,控制數(shù)據(jù)的外發(fā)途徑,限定數(shù)據(jù)內(nèi)部的流轉方式,建立安全審計機制等。對數(shù)據(jù)進行分類分級可以更準確地確定數(shù)據(jù)泄露的風險區(qū)域,挖掘基于分級數(shù)據(jù)的泄露場景;控制數(shù)據(jù)的外發(fā)途徑,以及限定數(shù)據(jù)內(nèi)部的流轉方式,使得數(shù)據(jù)只能通過有限的、可控的途徑外發(fā)或在網(wǎng)絡內(nèi)部流轉,可以較為清晰地梳理出在數(shù)據(jù)外發(fā)和流轉過程中潛在的泄露場景;建立安全審計機制,可以記錄用戶的操作日志、數(shù)據(jù)傳輸日志、網(wǎng)絡訪問日志等,這些日志可以被收集和分析,為數(shù)據(jù)泄露場景的分析提供基礎數(shù)據(jù)源。
因此,基于內(nèi)網(wǎng)的以上特點,可以依據(jù)內(nèi)網(wǎng)數(shù)據(jù)分類分級情況、數(shù)據(jù)外發(fā)途徑、數(shù)據(jù)流動方式、用戶操作行為等梳理數(shù)據(jù)泄露場景。
3、泄露場景梳理
內(nèi)網(wǎng)數(shù)據(jù)泄露的途徑多種多樣,其中包括數(shù)據(jù)分級分類不準確導致被錯誤分發(fā),弱密碼或暴力破解工具獲取登錄憑證訪問敏感數(shù)據(jù),內(nèi)部人員利用其內(nèi)部訪問權限故意竊取數(shù)據(jù)等,這些方式都與人的因素密不可分。
從內(nèi)網(wǎng)數(shù)據(jù)生成、數(shù)據(jù)存儲、數(shù)據(jù)訪問、數(shù)據(jù)流轉、數(shù)據(jù)外發(fā)、數(shù)據(jù)備份、數(shù)據(jù)銷毀 7 個階段的生命周期出發(fā),結合內(nèi)網(wǎng)數(shù)據(jù)泄露的途徑,可以全面了解數(shù)據(jù)在整個生命周期中可能面臨的風險,梳理出如下數(shù)據(jù)泄露的場景,如圖 1 所示。
圖 1 數(shù)據(jù)泄露場景列表
以下場景中提及了兩種數(shù)據(jù)泄露的對象,分別為敏感信息和商密文件。敏感信息指的是那些可能對個人、組織或業(yè)務造成損害或泄露的信息。這些信息可能包含個人身份信息、專利、客戶數(shù)據(jù)、財務數(shù)據(jù)等。商密文件在本文中特指采用了密級標識技術,通過標識來表示保密等級的文件,例如核心商密等級、普通商密等級、非密等級。通過文件的密級標識可以進行適當?shù)脑L問控制和保護措施。敏感信息包含了商密文件,但不僅限于商密文件。
3.1 數(shù)據(jù)生成
數(shù)據(jù)生成階段指的是數(shù)據(jù)的初始產(chǎn)生過程,包括用戶各種形式的數(shù)據(jù)輸入、記錄、生成等活動。在這個階段,數(shù)據(jù)可能因人為錯誤導致敏感信息被錯誤地記錄或公開。
場景舉例說明:商密文件預定的密級標識不正確,如將核心商密錯誤地標注為普通商密文件。這種情況會錯誤地設置該文件的訪問權限,導致非授權人員可以獲取到該文件的內(nèi)容,引發(fā)數(shù)據(jù)泄露。通過結合文件創(chuàng)建操作日志、定密輔助系統(tǒng)日志進行關聯(lián)分析可檢測該場景。
針對該階段梳理出的場景包括商密文件預定的密級標識不正確、敏感信息分級分類不正確。
3.2 數(shù)據(jù)存儲
數(shù)據(jù)存儲階段指的是用戶將數(shù)據(jù)保存在各種存儲設備或存儲介質中,以便后續(xù)使用和訪問。在這個階段,內(nèi)網(wǎng)中未設置存儲設備的訪問控制策略或者訪問控制策略失效都會導致數(shù)據(jù)泄露。
場景舉例說明:重要商密文件存儲在非授權計算機的存儲設備上,例如核心商密文件存儲在未授權存儲該保密等級的非密計算機存儲設備上。由于非授權計算機沒有適當?shù)脑L問控制機制和物理安全措施,可能會導致非授權人員可以輕易訪問或者設備被攻擊而引發(fā)數(shù)據(jù)泄露。通過文件監(jiān)控審計日志結合資產(chǎn)臺賬中該資產(chǎn)的保密等級信息,可檢測該場景。
針對該階段梳理出的場景包括:重要商密文件存儲在非授權計算機的存儲設備上,存儲有敏感信息的存儲設備或介質丟失。
3.3 數(shù)據(jù)訪問
數(shù)據(jù)訪問階段指的是獲取和查看存儲在內(nèi)網(wǎng)中的數(shù)據(jù)的行為,包括本地文件訪問、應用系統(tǒng)訪問、數(shù)據(jù)庫訪問。
3.3.1 本地文件訪問
如果用戶在本地訪問文件時,權限分配不當或者用戶訪問時通過截屏等方式故意泄密等情況都有可能發(fā)生數(shù)據(jù)泄露。
場景舉例說明:用戶訪問不符合自身保密等級的商密文件。這種情況存在內(nèi)部濫用數(shù)據(jù)的風險,也可能成為攻擊者的目標,攻擊者通過社交工程、惡意軟件或其他方式獲取用戶的登錄憑證,導致數(shù)據(jù)泄露。通過文件監(jiān)控審計日志結合用戶臺賬中用戶的保密等級信息可檢測該場景。
針對數(shù)據(jù)訪問階段中本地文件訪問梳理出的場景包括:用戶訪問不符合自身保密等級的商密文件,用戶訪問知悉范圍以外的敏感信息,用戶查看敏感信息時使用手機拍照或錄像,偏離個人基線的敏感信息訪問,偏離群體基線的敏感信息訪問,用戶違規(guī)篡改 / 破壞商密文件密級標識,用戶違規(guī)篡改 /破壞商密文件內(nèi)容,違反訪問策略的敏感信息訪問,用戶查看敏感信息時截屏。
3.3.2 應用系統(tǒng)訪問
用戶對應用系統(tǒng)的惡意使用和非授權使用可能會導致數(shù)據(jù)泄露。
場景舉例說明:偏離個人基線的敏感信息下載。當用戶或員工的下載行為偏離其個人的正常行為模式時,如突發(fā)大規(guī)模地下載敏感文件,超出了其日常工作或需求的范圍,這可能意味著用戶正在進行大量數(shù)據(jù)的拷貝、備份或轉移,增加了數(shù)據(jù)泄露的風險。通過創(chuàng)建個人下載敏感文件的基線,比對當前下載行為是否偏離基線的方式可檢測該場景。
針對數(shù)據(jù)訪問階段中應用系統(tǒng)訪問梳理出的場景包括:用戶超授權范圍訪問重要應用系統(tǒng)、偏離個人基線的敏感信息下載(頻次 / 數(shù)量)、偏離群體基線的敏感信息下載(頻次 / 數(shù)量)、非法設備接入網(wǎng)絡之后下載敏感信息、重要應用系統(tǒng)編程接口(Application Programming Interface,API)訪問異常(時段 / 次數(shù))。
3.3.3 數(shù)據(jù)庫訪問
數(shù)據(jù)庫的訪問控制策略不完善或已失效可能導致數(shù)據(jù)庫的敏感信息泄露。
場景舉例說明:普通用戶直接訪問重要應用系統(tǒng)數(shù)據(jù)庫。重要應用系統(tǒng)往往會有嚴格的訪問控制機制,普通用戶通常不具備直接訪問數(shù)據(jù)庫的權限。但如果用戶通過一些技術手段,如利用漏洞或采用非授權的賬戶登錄,繞過訪問控制,直接訪問數(shù)據(jù)庫,就有可能導致數(shù)據(jù)泄露。利用數(shù)據(jù)庫操作審計日志,結合用戶臺賬信息關聯(lián)分析可檢測該場景。
針對數(shù)據(jù)訪問階段中數(shù)據(jù)庫訪問梳理出的場景包括:重要應用系統(tǒng)數(shù)據(jù)庫訪問控制違規(guī),重要應用系統(tǒng)數(shù)據(jù)庫訪問偏離基線(周期、時序、動作、時長、頻次),普通用戶直接訪問重要應用系統(tǒng)數(shù)據(jù)庫。
3.4 數(shù)據(jù)流轉
數(shù)據(jù)流轉階段指的是數(shù)據(jù)在內(nèi)部網(wǎng)絡進行傳輸和流動的過程。相比外網(wǎng),內(nèi)網(wǎng)中的數(shù)據(jù)流轉手段和方式較少,限制更嚴格,通過專用的內(nèi)部流轉程序和系統(tǒng)完成,例如基于身份認證的郵件系統(tǒng)、電子公文交換系統(tǒng)。這類系統(tǒng)雖然有權限和訪問控制策略,但有時也會出現(xiàn)由于人為疏忽未建立合適的訪問控制策略或者訪問控制策略失效的情況。
場景舉例說明:商密文件向非授權人員流轉,指的是標識了保密等級的商密文件向不符合該密級訪問權限的人員流轉,可能由人為失誤、權限管理不當或惡意行為引發(fā),導致信息泄露。通過郵件收發(fā)日志、文件傳輸日志,結合人員臺賬信息,設置匹配規(guī)則可檢測該場景。
針對該階段梳理出的場景包括:商密文件向非授權網(wǎng)絡流轉,商密文件向非授權安全域流轉,商密文件向非授權設備流轉,商密文件向非授權人員流轉。
3.5 數(shù)據(jù)外發(fā)
數(shù)據(jù)外發(fā)階段指的是將數(shù)據(jù)帶出內(nèi)部網(wǎng)絡的行為。這包括將數(shù)據(jù)打印、刻錄、復制到可移動介質,通過外接網(wǎng)絡非法傳輸?shù)确绞?。在這個階段中,人為因素是導致數(shù)據(jù)泄露的直接原因,可能由于個人動機、疏忽大意或不當操作而發(fā)生。針對該階段梳理出的場景包括打印 / 刻錄帶出、外設帶出、網(wǎng)絡帶出 3 類。
3.5.1 打印 / 刻錄帶出類
場景舉例說明:用戶違規(guī)降低商密文件密級后打印 / 刻錄商密文件,指用戶故意或錯誤地將高保密等級文件的密級降低,并將其打印或刻錄到低密級介質中的行為,例如將核心商密文件的密級修改為非密文件之后打印帶走。通過文件監(jiān)控審計日志、打印刻錄日志,關聯(lián)用戶降密操作和打印刻錄行為進行分析,可檢測出該場景。
針對數(shù)據(jù)外發(fā)階段中打印 / 刻錄帶出類梳理出的場景包括:用戶違規(guī)夾帶打印 / 刻錄敏感信息,用戶違規(guī)降低商密文件密級后打印 / 刻錄商密文件,用戶多次登錄失敗后成功登錄操作系統(tǒng)(疑似暴力破解)并打印 / 刻錄敏感信息,偏離個人基線的異常打印 / 刻錄,偏離群體基線的異常打印 / 刻錄,用戶非工作時間打印 / 刻錄敏感信息,用戶使用運維終端大量打印 / 刻錄敏感信息,已申請離職人員大量打印 / 刻錄敏感信息,違反安全策略打印 / 刻錄文件。
3.5.2 外設帶出類
場景舉例說明:違反安全策略插入 USB 介質,指的是用戶違反安全規(guī)定,將未經(jīng)審批的 USB 設備插入受控環(huán)境,可能導致數(shù)據(jù)泄露和安全風險的發(fā)生。通過外設使用日志,以及設置受控設備 PID/VID 白名單,可檢測該場景。
針對數(shù)據(jù)外發(fā)階段中外設帶出類梳理出的場景包括:違反安全策略插入 USB 介質,用戶多次登錄失敗后成功登錄操作系統(tǒng)(疑似暴力破解)后使用外設拷貝敏感信息,外設使用人不在專用優(yōu)盤的使用范圍之內(nèi),專用優(yōu)盤拷貝商密文件數(shù)量超過閾值。
3.5.3 網(wǎng)絡帶出類
場景舉例說明:違規(guī)外聯(lián)之后傳輸敏感信息,指的是在未經(jīng)授權的情況下,通過非安全渠道方式,將內(nèi)部網(wǎng)絡與外網(wǎng)相連,并將敏感信息傳輸給外部網(wǎng)絡的行為。通過關聯(lián)網(wǎng)絡連接審計日志、文件傳輸流量日志可檢測該場景。
針對數(shù)據(jù)外發(fā)階段中網(wǎng)絡帶出類梳理出的場景為違規(guī)外聯(lián)之后傳輸敏感信息。
3.6 數(shù)據(jù)備份
數(shù)據(jù)備份階段指的是為了數(shù)據(jù)的可恢復性和容災能力而進行的備份操作。數(shù)據(jù)備份可以保證數(shù)據(jù)在意外災難或數(shù)據(jù)丟失時的恢復,如果備份權限失控或者用戶備份行為背離其日常行為軌跡都有可能發(fā)生數(shù)據(jù)泄露。
場景舉例說明:從非應用系統(tǒng)發(fā)起的數(shù)據(jù)庫備份操作異常。正常情況下對數(shù)據(jù)庫的備份是通過應用系統(tǒng)發(fā)起的,如果是非應用系統(tǒng)發(fā)起的備份操作,則是管理員周期性的備份行為,存在一定的規(guī)律。如果備份操作與歷史基線相比,在時間或頻次等特征上出現(xiàn)了顯著的差異,那么在備份過程中可能會暴露重要數(shù)據(jù),造成敏感信息的泄露。通過創(chuàng)建數(shù)據(jù)庫備份操作的基線,可以檢測當前備份操作是否與基線偏離來檢測該場景。
針對該階段梳理出的場景包括:從非應用系統(tǒng)發(fā)起的數(shù)據(jù)庫備份操作異常,用戶非授權數(shù)據(jù)備份,用戶備份行為背離其日常行為軌跡。
3.7 數(shù)據(jù)銷毀
數(shù)據(jù)銷毀階段指的是在數(shù)據(jù)不再提供應有的價值時對數(shù)據(jù)進行永久刪除或銷毀處理,其目的是防止被人非法竊取。在這個階段,敏感存儲設備使用完成后未進行數(shù)據(jù)抹除或者未按照密級信息處理的要求進行閉環(huán)處理等都可能導致數(shù)據(jù)泄露。
場景舉例說明:銷毀數(shù)據(jù)檢查不合規(guī),指未能按照規(guī)定的安全要求和程序進行數(shù)據(jù)銷毀的情況。這可能包括錯誤地執(zhí)行數(shù)據(jù)銷毀過程,未能驗證銷毀的數(shù)據(jù)完整性或未能記錄銷毀操作的詳細信息等。這種情況可能導致敏感數(shù)據(jù)被恢復、重建或未經(jīng)授權的訪問,從而導致數(shù)據(jù)泄露和安全風險的增加。通過數(shù)據(jù)銷毀日志可檢測該場景。
針對該階段梳理出的場景包括:銷毀數(shù)據(jù)檢查不合規(guī),用戶申請銷毀敏感信息載體長時間未閉環(huán),商密文件保密期限超期長時間未銷毀。
4、技術實現(xiàn)
采用基于分析規(guī)則的流式實時分析和基于 AI檢測的離線行為建模分析兩種方法對數(shù)據(jù)泄露場景進行檢測。
基于分析規(guī)則的流式實時分析方法適用于實時監(jiān)測和響應場景,通過定義和應用預先設定的規(guī)則來檢測異常行為。這種方法可以快速識別已知的模式和規(guī)則,具有實時性高和響應性強的特點。然而,基于規(guī)則的方法在應對未知的、新型的行為時可能會有一定的局限性。
而基于 AI 檢測的離線行為建模分析方法則可以處理更復雜和隱蔽的異常行為。利用統(tǒng)計學、離線異常檢測等技術,該方法可以通過分析大量的數(shù)據(jù)和學習正常行為模式來檢測異常。它可以自動識別未知的異常行為,具有較高的準確性和自適應性。但由于需要進行離線訓練和建模,該方法的實時性可能較差,需要周期性地對模型進行更新和調(diào)整。
綜合采用這兩種方法可以充分利用它們的實時性和準確性優(yōu)勢。通過基于分析規(guī)則的實時分析及時發(fā)現(xiàn)已知的異常行為,以及通過基于 AI 檢測的離線行為建模分析處理復雜和未知的行為,提高檢測的準確性和覆蓋范圍,實現(xiàn)全面的場景檢測。
4.1 基于分析規(guī)則的流式實時分析
基于分析規(guī)則的流式實時分析是通過復雜事件處理引擎(Complex Event Processing)進行規(guī)則匹配和響應,識別已知模式的異常行為和違規(guī)行為的過程,屬于最經(jīng)典和傳統(tǒng)的一種關聯(lián)分析技術。
本文選用開源 Esper 引擎對數(shù)據(jù)進行處理,Esper 是一種用于復雜事件處理和流分析的引擎,具有可擴展性強,內(nèi)存效率高,內(nèi)存計算低延遲、高吞吐、實時流處理的特點。Esper 提供了一種事件處理語言(Event Processing Language,EPL),它是一種用于處理基于時間的高頻事件數(shù)據(jù)的聲明性語言,可實現(xiàn)和擴展 sql 標準,并支持針對事件和時間的豐富表達式 ,對于大量事件的處理,能夠用最短的時間做出反應,觸發(fā)相應的操作,如圖 2所示。
圖 2 Esper 數(shù)據(jù)處理流程
下面以多次登錄失敗后成功登錄操作系統(tǒng)(疑似暴力破解)并打印敏感信息的場景為例,介紹利用分析規(guī)則檢驗異常的過程,如圖 3 所示。
圖 3 基于分析規(guī)則的檢測
(1)編寫規(guī)則。利用 EPL 語句編寫事件規(guī)則,規(guī)則邏輯如下:如果在 10 min(可配置)內(nèi)獲取到連續(xù) 4 次(可配置)登錄結果為失敗的登錄日志、1 次結果為成功的日志,之后在接下來的 10 min(可配置)之內(nèi)又獲取到在該設備打印敏感信息的打印審計日志,則產(chǎn)生“多次登錄失敗后成功登錄操作系統(tǒng)并打印敏感信息”安全事件。
(2)注冊規(guī)則。Esper 引擎在處理數(shù)據(jù)時依賴EPL 的定義,EPL 解析后會注冊到規(guī)則引擎中。對于基于時間窗的規(guī)則語句,Esper 會將歷史數(shù)據(jù)緩存在歷史數(shù)據(jù)庫中,供引擎處理。
(3)發(fā)生登錄及打印行為。用戶發(fā)生了登錄及打印行為,由安全登錄系統(tǒng)和打印刻錄監(jiān)控系統(tǒng)記錄日志。包含登錄時間、登錄 / 打印 IP、登錄動作(登錄、登出)、操作結果(成功、失敗)、文件密級等信息。
(4)獲取日志。采集日志之后經(jīng)范式化處理獲取到標準的安全登錄日志和打印審計日志,形成實時數(shù)據(jù)流。
(5)產(chǎn)生事件。實時數(shù)據(jù)流經(jīng)過事件流適配器接收后,交由 Esper 引擎進行處理,如果命中之前注冊的規(guī)則,則處理過后交由輸出適配器發(fā)給外部程序。按照事先定義的邏輯,產(chǎn)生對應的安全事件。例如 10 min 內(nèi)發(fā)生了 4 次登錄失敗之后又登錄成功的行為,緊接著的 3 min 內(nèi)又發(fā)生了打印核心商密文件的行為,則命中規(guī)則,產(chǎn)生“多次登錄失敗后成功登錄操作系統(tǒng)并打印敏感信息”事件。
4.2 基于 AI 檢測的離線行為建模分析
利用基于 AI 檢測的離線行為建模分析進行異常檢測的方法分為兩個階段,即 AI 行為建模、AI異常行為檢測。
4.2.1 AI 行為建模
AI 行為建模是在用戶存量離線行為數(shù)據(jù)下的模型訓練,其利用統(tǒng)計學、離群異常檢測等技術,通過對用戶歷史行為數(shù)據(jù)多視角地自動建模學習,訓練用戶行為模式的模型。使用定時器方法,只需收集一定時間的歷史數(shù)據(jù),啟動定時任務即可實現(xiàn)模型的自動迭代更新。本文使用的建模流程如圖 4 所示。
圖 4 AI 行為建模流程
在行為建模中采用了統(tǒng)計算法和離群檢測算法,分別對單維行為特征數(shù)據(jù)和多維行為特征數(shù)據(jù)進行模型訓練。
統(tǒng)計算法:針對數(shù)據(jù)內(nèi)容確定的單維行為特征,可以利用高斯模型建立異常檢測基線模型。例如,對于打印行為,如果需要單獨考量每項指標(例如打印頁數(shù)、打印頻度)的變化情況,可針對每一項指標建立基線模型?;€模型包括個體基線和群組基線。
離群檢測算法:針對需要綜合多個行為特征共同權衡才能判斷異常的情況,采用無監(jiān)督的機器學習算法進行學習,如 KMeans、BIRCH 等。比如判別某次 SSH 遠程登錄是否異常,需考慮登錄方式、登錄狀態(tài)、登錄用戶等多個行為特征來綜合研判,則使用該方法進行建模。
4.2.2 AI 異常行為檢測
AI 異常行為檢測是利用 AI 行為建模訓練輸出的模型,對用戶的實時行為進行監(jiān)控。通過比對模型,分析用戶的“非正常”行為模式來鎖定內(nèi)部的潛在威脅。AI 異常行為實時檢測流程如圖 5 所示。
圖 5 AI 異常行為實時檢測流程
下面以偏離個人基線的異常打印為例,介紹其分析過程。
第 1 個階段為行為建模,具體如圖 6 所示。
圖 6 階段一行為建模
(1)算法配置。該場景采用高斯算法對打印審計數(shù)據(jù)建模。高斯算法又稱為正態(tài)分布算法,該算法根據(jù)樣本數(shù)據(jù)的均值、方差,得到分析對象的基線。其優(yōu)點在于能夠很好地處理噪聲和異常值。需要配置以下內(nèi)容:
①篩選的日志類型,其目的是選取合適的數(shù)據(jù)集,該場景設置的日志類型為打印控制審計的日志。
②數(shù)據(jù)集的聚合字段名稱,設置為人員唯一編號。
③需要提取的特征字段名稱,例如打印數(shù)量、打印頻次、打印時間等。
④異常判斷依據(jù)的閾值,一般來說,可以選擇均值加減幾倍方差的范圍作為異常值的判斷區(qū)間。例如,選擇均值加減 3 倍方差的范圍,即如果某次打印數(shù)量超過均值加減 3 倍方差的范圍,則被視為異常行為。
算法配置完成后,啟動周期性的定時任務等待數(shù)據(jù)采集入庫后進行模型訓練。
(2)收集數(shù)據(jù)。采集一段時間用戶打印文件的審計日志,其中包含算法配置階段配置的特征字段,例如打印數(shù)量、打印頻次、打印時間等。
(3)模型訓練。將篩選出的打印日志以人員唯一編號分組聚合,對每個人員的打印文件數(shù)量訓練數(shù)據(jù)構建基線模型。
(4)生成基線。這里選取“天”為時間粒度分隔,基線模型由歷史行為數(shù)據(jù)中每天的基線值組成。對訓練數(shù)據(jù)每個月份中每一天的打印文件數(shù)量分別做均值和方差計算,由均值加 3 倍方差的計算公式得到該點的基線值,例如將每個月 1 日的打印文件數(shù)量數(shù)據(jù)集合做均值和方差計算,根據(jù)上述基線值計算方式得到基線模型中 1 號這個點的基線值,基線模型其余點的計算方式相同,基線模型如圖 7所示。
圖 7 基于 Gaussian 分布算法的基線模型
第 2 個階段為異常檢測,具體如圖 8 所示。
圖 8 階段二異常檢測
(1)采集數(shù)據(jù)。采集實時打印數(shù)據(jù),采集到的數(shù)據(jù)進入 AI 分析引擎。
(2)異常檢測。根據(jù)算法配置的閾值判斷進入 AI 分析引擎的實時數(shù)據(jù)是否滿足異常行為的條件。例如,將某用戶實時打印日志中的打印數(shù)量與該用戶打印數(shù)量基線模型中對應時間點的基線值進行比對,如果超過模型對應點的基線值,如圖 9 所示,則判定為異常。
圖 9 偏離基線的異常檢測
(3)產(chǎn)生事件。生成“偏離個人基線的異常打印”安全事件。
5、結? 語
本文通過對具體場景進行檢測的驗證實驗,成功證明了基于行為分析的內(nèi)網(wǎng)數(shù)據(jù)泄露場景檢測方法的可行性和有效性。目前已將這些研究成果成功應用于數(shù)據(jù)防泄露監(jiān)測平臺,取得了令人滿意的效果,為解決內(nèi)網(wǎng)數(shù)據(jù)防泄露問題提供了一種新的研究思路和實踐方法。在未來的研究中將進一步改進和優(yōu)化這些方法,以適應不斷變化的內(nèi)網(wǎng)環(huán)境和數(shù)據(jù)泄露威脅。
引用格式:劉慧 , 李軍 , 劉鑒竹 . 基于行為分析的內(nèi)網(wǎng)數(shù)據(jù)防泄露場景研究與技術實現(xiàn) [J]. 通信技術 ,2023,56(12):1418-1427.
作者簡介 >>>劉? 慧,女,碩士,主要研究方向為信息安全、數(shù)據(jù)挖掘、數(shù)據(jù)標準化;李? 軍, 男, 學 士, 主 要研究方向為網(wǎng)絡安全管理與咨詢;劉鑒竹,男,碩士,主要研究方向為數(shù)據(jù)挖掘、異常檢測。選自《通信技術》2023年第12期(為便于排版,已省去原文參考文獻)
來源:信息安全與通信保密雜志社