時間:2018-04-17 16:49:50來源:網(wǎng)絡(luò)轉(zhuǎn)載
摘要
SIEM是企業(yè)安全的核心中樞,負(fù)責(zé)收集匯總所有的數(shù)據(jù),并結(jié)合威脅情報對危險進(jìn)行準(zhǔn)確的判斷和預(yù)警。但傳統(tǒng)的SIEM過度依靠人工定制安全策略,不僅僅增加了人力成本,而且整個SIEM的識別準(zhǔn)確率和使用效果也都大打折扣。而目前附帶AI功能的SIEM系統(tǒng)也只是把AI當(dāng)成算法插件作為集成,無法在沒有安全人員介入的情況下獨(dú)立的智能工作。
本文將從傳統(tǒng)SIEM組件構(gòu)成入手,介紹AI對于下一代SIEM的適用性和重要性,并重點闡述當(dāng)前主流SIEM&AI平臺和全新一代SIEM@AI平臺的區(qū)別;隨后將結(jié)合實際案例深入討論SIEM@AI的兩個核心技術(shù)原理:數(shù)據(jù)分析和數(shù)據(jù)關(guān)聯(lián);在最后的篇幅,文章會探討SIEM@AI的發(fā)展和研究方向。
一、SIEM簡史
SIEM是SecurityInformationEventManagement的縮寫,又名安全信息事件管理平臺,作為企業(yè)的安全大腦,它可以為企業(yè)提供安全數(shù)據(jù)的收集、整合、分析、關(guān)聯(lián)、處置和展現(xiàn)等功能,是企業(yè)業(yè)務(wù)安全運(yùn)營的核心和基礎(chǔ)。
早在10年前,SIEM的概念就已經(jīng)被提出。SIEM作為企業(yè)內(nèi)部涉及安全的日志管理平臺,提供日志的采集、存儲、分析查詢功能。經(jīng)過十多年的發(fā)展,如今SIEM的產(chǎn)品形態(tài)已得到豐富拓展,包括支持多維數(shù)據(jù)源輸入、威脅情報中心(ThreatIntelligence)、策略腳本庫(Playbook)等,同時外部威脅數(shù)據(jù)的共享和獲取也使得SIEM系統(tǒng)不斷被完善。
圖1:SIEM市場規(guī)模預(yù)測(來自Gartner2017年報告)
SIEM在美國一直保持著較快發(fā)展,根據(jù)Gartner相關(guān)市場報告,SIEM在全球(主要是美國)最近每年都保持著10%的增長速度,預(yù)計在2020年市場規(guī)??蛇_(dá)200億人民幣。然而在中國,SIEM還處于比較初級的階段,很多企業(yè)對自身安全問題并沒有系統(tǒng)性的管理。2017年整個中國市場只有3.17億人民幣的規(guī)模,這個數(shù)字相比中國經(jīng)濟(jì)對全球經(jīng)濟(jì)的占比是不相符的。不過可喜的是,SIEM中國市場最近每年都保持著近20%的增長速度,說明越來越多的中國企業(yè)已經(jīng)意識到了SIEM的重要性。
但并非所有企業(yè)都需要SIEM,處于初期發(fā)展階段的企業(yè)數(shù)據(jù)流和業(yè)務(wù)量單一,面臨的安全威脅較少,安全設(shè)備和軟件的需求也相對較小,依靠獨(dú)立的安全產(chǎn)品即可滿足基本需求。當(dāng)企業(yè)發(fā)展到中大型規(guī)模時,業(yè)務(wù)線增多,內(nèi)外網(wǎng)安全環(huán)境變得復(fù)雜,同時前期使用的安全產(chǎn)品也達(dá)到了一定數(shù)量,這時就有必要接入SIEM來實現(xiàn)統(tǒng)一的安全運(yùn)營管理。
二、解構(gòu)SIEM
圖2:SIEM整體架構(gòu)圖
SIEM平臺的主要架構(gòu)由5個層次組成:
采集層
系統(tǒng)數(shù)據(jù)入口。SIEM大多支持多種數(shù)據(jù)輸入,這些數(shù)據(jù)從來源劃分,包括終端用戶設(shè)備、網(wǎng)絡(luò)設(shè)備、服務(wù)器、存儲設(shè)備等;從OSI模型劃分,包括了數(shù)據(jù)鏈路層、網(wǎng)絡(luò)層、傳輸層、應(yīng)用層的網(wǎng)絡(luò)流量;從系統(tǒng)角色劃分,包括不同的業(yè)務(wù)系統(tǒng)、中間件系統(tǒng)、負(fù)載均衡系統(tǒng)等。這些數(shù)據(jù)或以推送的方式或以拉取的方式向SIEM平臺輸送,供SIEM進(jìn)行后續(xù)的分析計算。
采集層使用的技術(shù)主要分為兩類:“侵入式”和“無侵入式”?!扒秩胧健币话悴捎貌渴餉gent程序,或者用戶在自身代碼邏輯中添加程序探針等方式采集數(shù)據(jù);“無侵入式”一般則采用旁路鏡像流量或者輸入日志等方式采集數(shù)據(jù)。兩種模式各有優(yōu)缺點,“侵入式”有利于企業(yè)增加定制化功能,并結(jié)合SIEM平臺的多維特性深入貼合業(yè)務(wù),但弊端在于外掛式的Agent一旦不穩(wěn)定,就會影響用戶自身業(yè)務(wù),甚至導(dǎo)致系統(tǒng)宕機(jī),我自己就遇到過好幾個客戶向我抱怨自身的服務(wù)被廠商的嵌入SDK搞的不穩(wěn)定。“無侵入式”則可以完全避免對業(yè)務(wù)系統(tǒng)的影響,一方面提升系統(tǒng)穩(wěn)定性,另一方面保護(hù)系統(tǒng)數(shù)據(jù)安全。在技術(shù)成熟的情況下,對用戶來說,“無入侵式”采集方式顯然更加友好。
存儲層
采集后的數(shù)據(jù)除了供給后面的計算分析外,還會進(jìn)行存儲。存儲層有兩個目的:一是對原始采集數(shù)據(jù)進(jìn)行存儲,二是對計算分析完成的結(jié)果進(jìn)行存儲。
存儲可選擇的技術(shù)棧一般包括數(shù)據(jù)管道(中間數(shù)據(jù)傳輸),熱存儲(存儲常用數(shù)據(jù)查詢、更新),冷存儲(存儲不常用的數(shù)據(jù))。嚴(yán)格說,數(shù)據(jù)管道不算是存儲,但在實際上為了防范后端數(shù)據(jù)丟失或堆積,一般也會將經(jīng)過管道的數(shù)據(jù)進(jìn)行臨時存儲,比如互聯(lián)網(wǎng)公司最常用的Kafka隊列就是將中間數(shù)據(jù)落地在磁盤上。
冷熱分級存儲的目的在于,保證熱數(shù)據(jù)操作速度的同時,在一定程度上降低企業(yè)存儲成本。對于冷存儲而言,比性能更大的技術(shù)挑戰(zhàn)是可靠性和可用性,支持多IDC、甚至多Zone的大型分布式存儲技術(shù)系統(tǒng)是企業(yè)首選;而對于熱存儲,更關(guān)注的是讀寫速度以及如何被計算單元使用,所以一般會選擇帶有Sharding能力的分布式存儲。
計算層
SIEM平臺的核心。分析準(zhǔn)不準(zhǔn)、全不全、快不快都依賴這層的計算單元。目前主流的計算模式包括實時計算平臺和離線計算平臺。
海量數(shù)據(jù)的離線計算平臺起源較早,早在10多年前就出現(xiàn)在Google的MapReduce系統(tǒng)中,MapReduce底層先利用GFS將海量數(shù)據(jù)分片存儲,解決了單點設(shè)備的IO吞吐瓶頸。每個計算節(jié)點再依賴調(diào)度器或執(zhí)行Map任務(wù)或執(zhí)行Reduce任務(wù),不斷將海量計算任務(wù)分解、歸并,最終輸出期望的計算結(jié)果。實時計算平臺算是海量數(shù)據(jù)計算的后起之秀,包括了以Storm為代表的實時流處理和以Sparksteaming為代表的微批次處理兩種技術(shù)實現(xiàn)方式。
在實時性上,實時流處理模式的處理速度更快,但從實際的使用經(jīng)驗來看,這種模式也要求更高的技術(shù)運(yùn)維經(jīng)驗。無論是實時計算平臺還是離線計算平臺,都要求支持任務(wù)的Partition,這樣可以在某些主機(jī)宕機(jī)的情況下,仍然保證計算順利完成。
計算平臺最核心的并不是計算框架,而是算法部分的計算邏輯。計算邏輯對流量、用戶請求、系統(tǒng)交互信息等不同類型的數(shù)據(jù)進(jìn)行計算。目前絕大部分SIEM平臺的實現(xiàn)都是基于規(guī)則引擎,如Drools,這就需要依賴使用者制定大量的規(guī)則,一旦使用者制定的規(guī)則有錯誤或者有遺漏,就會造成錯判漏判。
輸出層
計算層分析的結(jié)果最終傳導(dǎo)至輸出層。傳統(tǒng)SIEM的輸出方式有很多,包括展現(xiàn)層面、報表層面、報警通知層面、實時阻斷層面等,企業(yè)可以根據(jù)不同業(yè)務(wù)部門的不同需求選擇合適的輸出方式。SIEM的輸出結(jié)果不僅僅和安全部門或業(yè)務(wù)部門有關(guān),還可能涉及到其他業(yè)務(wù)單元,比如資產(chǎn)管理、組織管理等。
從事件處理的生命周期來看,處理方式可以分成自動方式和手動方式,自動方式可以對計算層分析出的安全威脅事件進(jìn)行自動處理,包括通知、預(yù)警、上報甚至阻斷,而對于不能自動處理的情況,就需要手動方式,這時可以借助工單系統(tǒng)進(jìn)行后續(xù)處理跟蹤,最終保證安全威脅被處理。
情報中心
情報中心為SIEM計算層提供額外的數(shù)據(jù)支撐,從而提高威脅和異常行為識別的準(zhǔn)確率。情報中心的數(shù)據(jù)來源一般有三種渠道,第一種是來自公開輸出的威脅情報,如X-ForceExchange、ThreatBook、Shodan等;第二種是來自自身搜集的威脅情報數(shù)據(jù),如通過蜜罐采集、API調(diào)取或者交換購買等方式取得有價值的威脅情報;第三種就是來自跟業(yè)務(wù)自身相關(guān)的輔助數(shù)據(jù),如用戶注冊信息,企業(yè)資產(chǎn)信息、組織信息等等,這些信息看似和安全威脅關(guān)聯(lián)不大,但是當(dāng)多種數(shù)據(jù)聯(lián)合分析時,就可以為最終的結(jié)果輸出提供有效參考。
情報中心數(shù)據(jù)的內(nèi)容包含多種形式,常用的如IP庫、設(shè)備指紋庫、黑卡庫、漏洞庫等。使用或依賴情報中心要注意情報的實時性,因為目前云化和共(zu)享(yong)經(jīng)濟(jì)的普及,很多資源并不是獨(dú)占的,而是在一定時間后就被回收,并交由其他用途,這樣的話如果情報更新不及時就會適得其反。
三、SIEM、態(tài)勢感知和SOC安全運(yùn)營中心
SIEM、態(tài)勢感知和SOC安全運(yùn)營中心有著緊密關(guān)系。其中態(tài)勢感知范圍很廣,主要聚焦在感知過去、理解現(xiàn)在、預(yù)測未來三個層面,這和SIEM的采集并計算分析給出結(jié)果進(jìn)而感知預(yù)測是高度吻合的。一些企業(yè)發(fā)布的態(tài)勢感知系統(tǒng)其實就是簡化的SIEM或者是SIEM的超集。SOC安全運(yùn)營中心則在SIEM的基礎(chǔ)上突出了人的作用,強(qiáng)調(diào)了人和平臺以及軟件之間的聯(lián)動,通過類似Ticket系統(tǒng)的任務(wù)追蹤機(jī)制,配合SIEM提供的數(shù)據(jù)分析結(jié)果,用人對業(yè)務(wù)和資產(chǎn)進(jìn)行全面的安全管理。
總之,SIEM對于企業(yè)的整體安全分析是非常重要的,通過SIEM可以打通多種數(shù)據(jù)流的信息,形成對于安全威脅的事前、事中、事后處理,最終保證企業(yè)的整體資產(chǎn)及業(yè)務(wù)安全。
四、AI遇上SIEM
如果說IT技術(shù)有風(fēng)口的話,那么AI無疑是最前沿并且最落地的,AI整體發(fā)展分為三個階段:
1.識別階段,解決What的問題,這是最基礎(chǔ)的AI問題。目前的AI通過大量有監(jiān)督學(xué)習(xí),提取標(biāo)注樣本的表象或內(nèi)在特征,形成一個或多個分類器,分類器對樣本數(shù)據(jù)特征進(jìn)行學(xué)習(xí)訓(xùn)練,最終對新的輸入進(jìn)行準(zhǔn)確識別,從而解決什么是什么的問題。比如什么是小狗、什么是色情圖片等。
典型的應(yīng)用包括驗證碼識別、語音識別、垃圾郵件識別等。人們熟知的AlphaGo也是識別問題,深度學(xué)習(xí)通過對成千上萬個已經(jīng)標(biāo)注好輸贏的棋局進(jìn)行訓(xùn)練,利用頭幾層的神經(jīng)元網(wǎng)絡(luò),越過表象特征挖掘出人都很難理解的深層次特征,形成了對于棋局的“感應(yīng)”能力,從而對某個棋局是更有利于黑方還是白方做出判斷,再結(jié)合αβsearch或MCTS等算法,給出下一步走法的最優(yōu)解。應(yīng)該說識別是應(yīng)用AI最成熟的領(lǐng)域。
2.理解階段,解決Why的問題,這是在識別的基礎(chǔ)上進(jìn)一步的AI問題。比如一段文字想表達(dá)的情感是什么?一個電影講述的故事是什么?一段語音的問題是問什么等等。最典型的應(yīng)用場景就是人機(jī)對話,其基礎(chǔ)是理解人說的是什么,想表達(dá)什么意思。
理解問題最原始的解決辦法就是構(gòu)造各種語義模板,用來做情感標(biāo)注,變相把理解問題轉(zhuǎn)換成識別問題。但隨著深度學(xué)習(xí)的普及,已經(jīng)出現(xiàn)了很多新的技術(shù)以突破模板定義的限制進(jìn)而試圖真正理解內(nèi)在含義。但是通過蘋果手機(jī)Siri的例子就可以看出,目前的AI對于理解問題的能力還遠(yuǎn)遠(yuǎn)沒有到成熟的階段。
3.反饋階段,解決How的問題。How本質(zhì)是在識別的基礎(chǔ)上,理解了對方的信息內(nèi)容后,做出恰當(dāng)?shù)姆答仭7答伿茿I的最高境界,是實現(xiàn)真正人機(jī)互動的關(guān)鍵,有了反饋互動的能力,AI就可以像真人一樣在一些領(lǐng)域部分代替人類,甚至完全代替人類。但很明顯,目前AI的發(fā)展階段離這個目標(biāo)還相距甚遠(yuǎn)。
從AI的三個發(fā)展階段看,目前AI還主要處于“識別”和“理解”的初期,離真正的“代替人類”還有很長遠(yuǎn)的路要走,當(dāng)下真正已經(jīng)成熟使用的技術(shù)基本集中在“識別”問題。同時我們觀察安全領(lǐng)域就會發(fā)現(xiàn),安全領(lǐng)域里的問題恰恰就是非常典型的"識別"問題,通過SIEM里的各種輸入數(shù)據(jù)進(jìn)行分析,只需要識別這個事件或這個用戶是否存在威脅即可,整個過程無關(guān)理解也無關(guān)反饋。
圖3:主流SIEM系統(tǒng)AI工具示例
應(yīng)該看到,目前的新型SIEM已經(jīng)集成了AI的能力,比如有的SIEM平臺,集成了常用的AI算法,比如異常檢測、線性預(yù)測,這些算法以插件的方式集成進(jìn)平臺,用戶可以基于這些算法分析自身的數(shù)據(jù)。
五、從SIEM&AI到SIEM@AI
目前主流SIEM平臺的最大缺點是:他們僅僅是SIEM&AI(以AI作為工具),把AI僅僅當(dāng)成是SIEM平臺的一個附屬插件或工具,而沒有把整個SIEM平臺構(gòu)建在AI技術(shù)上面。這樣帶來的影響是,企業(yè)使用SIEM時需要花費(fèi)大量的時間、精力、人力去學(xué)習(xí)、配置和使用這些AI工具,另外,SIEM&AI還要求企業(yè)具有一定的特征工程經(jīng)驗,而這對于很多企業(yè)而言是不現(xiàn)實的。我見過很多企業(yè)客戶,當(dāng)我問到他們使用SIEM&AI類產(chǎn)品的的AI部分的體驗時,都是一臉茫然,仿佛花了大價錢買了高級玩具卻沒玩起來。
而企業(yè)真正需要的是:SIEM@AI(以AI作為平臺),無需很多成本甚至完全無需學(xué)習(xí)成本,即可使用AI技術(shù)從海量的輸入數(shù)據(jù)流信息中發(fā)掘威脅事件,并自動使用AI技術(shù)對不同業(yè)務(wù)、不同維度的數(shù)據(jù)進(jìn)行智能關(guān)聯(lián),建立內(nèi)在聯(lián)系,并最終自動的對威脅事件進(jìn)行處置處理。
六、AI賦能數(shù)據(jù)分析
數(shù)據(jù)標(biāo)注難題
如前所述,在安全領(lǐng)域,大部分問題都是“識別”問題,從數(shù)據(jù)分析的角度,可以將問題最終歸為分類問題。通過建立算法模型,預(yù)測進(jìn)行中的事件甚至還未到來的事件是否存在威脅,也就是把它們分成有威脅和無威脅兩類。但是安全領(lǐng)域在使用AI時存在一個巨大的困難,即樣本標(biāo)注難。對于經(jīng)典的圖片識別問題,企業(yè)可以使用較低的人力成本批量制作標(biāo)注樣本,然后送入深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練。但是安全問題則不同,從大量雜亂的信息數(shù)據(jù)中識別是否存在威脅、是何種威脅,需要專業(yè)的安全人員,甚至多個部門跨部門協(xié)作才能完成。
無監(jiān)督學(xué)習(xí)化解標(biāo)注難題
標(biāo)注難問題可解嗎?答案是肯定的,那就是利用無監(jiān)督學(xué)習(xí)。無監(jiān)督學(xué)習(xí)可以將正常事件聚在一起,同時也會將異常事件聚在一起,從而方便算法識別出異常威脅。而整個威脅識別的過程無需標(biāo)注樣本,也大大降低了人工參與的程度。
無監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)中一個非常重要的分支,不同于有監(jiān)督學(xué)習(xí)需要依賴大量標(biāo)注好的樣本才能讓分類器進(jìn)行學(xué)習(xí),無監(jiān)督學(xué)習(xí)可以在沒有任何標(biāo)注樣本的情況下由分類器自主學(xué)習(xí)。只不過目前市場上絕大多數(shù)產(chǎn)品都集中在有監(jiān)督學(xué)習(xí)上,導(dǎo)致無監(jiān)督被長期忽略了。
圖4:聚類示意圖
白山ATD(AdvancedThreatDetection,深度威脅識別,新一代的SIEM@AI系統(tǒng))產(chǎn)品大量使用了無監(jiān)督學(xué)習(xí)技術(shù)來進(jìn)行威脅事件識別,無監(jiān)督學(xué)習(xí)的本質(zhì)是將數(shù)據(jù)進(jìn)行聚類,而根據(jù)聚類實現(xiàn)的過程不同又主要分為三種算法:
1.距離聚類
2.核密度聚類
3.層次聚類
距離聚類
距離聚類是最常見的聚類算法,本質(zhì)是EM算法,通過對于距離中心點的不斷迭代修正,最終將所有事件進(jìn)行歸類,那么有威脅的事件自然會被歸到一簇或者幾簇,而正常的事件也會因為更相似的距離而歸到一簇或者幾簇。當(dāng)然這是理想情況,在現(xiàn)實場景中實施算法還需要做很多的加工工作。距離聚類的最大困難一是距離計算方式的選擇,二是聚類簇數(shù)量的選擇。
距離計算選擇主要包含兩個方面:
-如何規(guī)定事件邊界:繁雜的海量數(shù)據(jù)輸入中,一個事件的邊界從哪里開始,到哪里結(jié)束,包含哪些數(shù)據(jù)。這需要按照不同的應(yīng)用場景做不同的處理,常見的方式有按照時間段,也有按照事件切分點。
-如何制定事件間距離:事件有很多不同的描述維度,對于最常見的維度——時間、地點而言,記錄時間有可能是UNIX時間戳,記錄地點有能是GEOIP或者M(jìn)AC地址,那么如何把UNIX時間戳和IP地址放在一個向量空間模型里比較距離就是一個問題了。這里ATD采用的Z-Score算法進(jìn)行距離映射,使得映射后的數(shù)據(jù)具有完全的正太分布特征。
簇的數(shù)量選擇對于無監(jiān)督學(xué)習(xí)的算法效果至關(guān)重要,一旦初始簇的數(shù)量選擇不合適,就有可能導(dǎo)致聚類的結(jié)果完全錯誤。
圖5:聚類示意圖
如上圖,紅色異常點是我們需要識別出來的,顯然聚類簇數(shù)為2的效果比聚類簇數(shù)為3的效果要好,因為3將正常的事件點也分為了兩類。ATD使用一系列算法在聚類前預(yù)判準(zhǔn)確的聚類簇數(shù)量,最好的情況下可以提升200%的聚類效果。
核密度聚類
核密度聚類不需要事先指定聚類的簇數(shù),而是根據(jù)初始的密度值進(jìn)行聚類選擇,所有與核距離過遠(yuǎn)的事件都會被標(biāo)記為離群點,這些離群點從安全角度看可能就是威脅事件。
密度聚類的前提是需要選擇合適的初始密度值,如果選擇不當(dāng)將導(dǎo)致離群點錯誤,最終使威脅事件誤判。另一方面,控制離群點的數(shù)量和純度對最終的識別效果也很重要,因為在實際生產(chǎn)環(huán)境中,很有可能出現(xiàn)大量的離散點其實也是正常的事件。所以有時候也需要在第一次聚類后,調(diào)整事件的特征選擇算法,針對離群點進(jìn)行二次聚類。
層次聚類
層次聚類的原理是先將所有事件看成樹的葉子節(jié)點,每個葉子節(jié)點自成一類,然后根據(jù)相互的距離,自下而上逐層合并,最終形成一個根。
層次聚類可以根據(jù)需要,按照最終聚類的簇數(shù)進(jìn)行層層歸并,最終聚成的小簇我們可以認(rèn)為是某種離群點,即有可能是一些威脅事件??梢钥闯?,層次聚類的核心仍然是距離計算模型的選擇。
智能分析風(fēng)險
利用無監(jiān)督學(xué)習(xí),可以在無需標(biāo)注樣本和無人工介入的前提下,發(fā)現(xiàn)很多異常的威脅風(fēng)險。下圖是一個被ATD系統(tǒng)識別出的實際例子:
圖6:ATD無監(jiān)督學(xué)習(xí)示例結(jié)果
這是一個ATD對企業(yè)電商業(yè)務(wù)無監(jiān)督學(xué)習(xí)的實際案例,案例顯示大部分用戶的訪問路徑集中在
登錄頁=》授權(quán)頁=》訂單頁的訪問趨勢,通過無監(jiān)督學(xué)習(xí)就可以將正常用戶的行為聚在一起。反觀刷單的惡意行為則會繞過授權(quán)頁直接訪問訂單頁,這樣在無監(jiān)督學(xué)習(xí)過程中就自然形成了離群點,這樣我們就可以幫助企業(yè)識別出刷單的威脅風(fēng)險。
七、AI賦能數(shù)據(jù)關(guān)聯(lián)
橫向關(guān)聯(lián)
AI威脅數(shù)據(jù)分析,分成縱向的數(shù)據(jù)分析和橫向的數(shù)據(jù)關(guān)聯(lián):
圖7:數(shù)據(jù)的縱向分析和橫向關(guān)聯(lián)
縱向分析指的是對于事件群體按照時間軸學(xué)習(xí)規(guī)律,以此進(jìn)行對于已有的威脅識別和對于未來的態(tài)勢感知。橫向關(guān)聯(lián)指對空間上不直接相關(guān)的不同事件群體,通過算法挖掘它們的深層次關(guān)聯(lián)關(guān)系,最終形成更準(zhǔn)確的威脅識別或者便于對威脅事件進(jìn)行更全面的回溯。
對于大多數(shù)SIEM產(chǎn)品,只要附帶AI工具功能的,便可以完成諸如異常點檢查、趨勢預(yù)測等任務(wù)(盡管他們當(dāng)中絕大多數(shù)都是有監(jiān)督學(xué)習(xí),這也就意味著客戶需要提供大量標(biāo)注好的威脅事件和正常事件的樣本),不過這些任務(wù)都是縱向分析,并不是橫向關(guān)聯(lián)。因此,對于新一代SIEM@AI系統(tǒng)來說,比起無監(jiān)督學(xué)習(xí)進(jìn)行縱向分析,更有挑戰(zhàn)的任務(wù)是在表層不相關(guān)的海量數(shù)據(jù)中建立潛在關(guān)聯(lián),從而實現(xiàn)真正的深度威脅識別。
事件的相關(guān)運(yùn)算
常見的事件關(guān)聯(lián)場景基本上可以分為這兩種:
A,某一作用域(如某一時間段內(nèi))的事件集合,挖掘事件之間的關(guān)聯(lián)關(guān)系,如:
上圖就是兩個完全由不同系統(tǒng)統(tǒng)計輸出的事件,我們需要用算法分析是否存在關(guān)聯(lián),這個過程實際可以轉(zhuǎn)換為:按行分析相關(guān)性。
B,同一類型事件,挖掘構(gòu)成的因素是否存在關(guān)聯(lián)關(guān)系,如:
上圖所示,全部“ERP系統(tǒng)不能訪問”的事件中,各個因素間是否存在關(guān)聯(lián),這個過程實際可以轉(zhuǎn)換為:按列分析相關(guān)性。
由此可以看出,無論是不同事件的關(guān)聯(lián)分析,還是同一類事件的內(nèi)在因素關(guān)聯(lián),本質(zhì)可以轉(zhuǎn)換為矩陣的行相關(guān)或列相關(guān)。對于列相關(guān),通過對于矩陣轉(zhuǎn)置運(yùn)算,也可以轉(zhuǎn)換為行相關(guān),即:
我們只需要分析K1和K2是否在某種程度存在相關(guān)。
對于這種關(guān)聯(lián)分析,最常見的方式是用類似KNN算法中,通過計算兩個事件元素的夾角來判斷相關(guān)性:
θ=acos(K1?K2/(|K1||K2|))
當(dāng)夾角越小時,表示兩個事件越相關(guān),而當(dāng)夾角互相垂直(即正交)時,表示兩個事件完全無關(guān)。
當(dāng)然,我們還可以使用其他的方式計算相關(guān)性,比如Jaccard距離:
J(K1,K2)=|K1?K2|/|K1?K2|
當(dāng)J值越大,表示兩個事件越相關(guān),反之則越不相關(guān)。
夾角距離計算方式更適用數(shù)值型的事件向量,而Jaccard距離計算方式更適合枚舉字符串類型的事件向量。當(dāng)然事實上,我們可以把任何字符串類型的事件,通過word2vec或者simhash等算法方式轉(zhuǎn)變?yōu)閿?shù)值型事件向量,然后再進(jìn)行夾角計算。
啤酒與尿布
說到數(shù)據(jù)關(guān)聯(lián),不得不提的經(jīng)典故事就是“啤酒與尿布”了,沃爾瑪在做數(shù)據(jù)關(guān)聯(lián)分析時發(fā)現(xiàn)啤酒和尿布在購物單上是相關(guān)的,這是怎么回事?原來妻子經(jīng)常會囑咐丈夫下班以后要為孩子買尿布。而丈夫在買完尿布之后又要順手買回自己愛喝的啤酒,因此啤酒和尿布的銷售行為上具有相關(guān)性。
從數(shù)據(jù)關(guān)聯(lián)算法復(fù)雜性的角度看,啤酒和尿布的關(guān)聯(lián)屬于比較簡單也相對直接一些的關(guān)聯(lián),Apriori算法就是解決這個問題的簡單可實現(xiàn)的算法之一。Apriori算法通過不斷的篩選頻繁項并且不斷的產(chǎn)生新關(guān)聯(lián)規(guī)則的方式,最終得到關(guān)聯(lián)性最強(qiáng)的事件元素。
圖8:Apriori算法示意圖
深入Apriori算法的過程就會發(fā)現(xiàn),其實Apriori整個計算過程和計算事件間的Jaccard距離十分類似,本質(zhì)都是比較兩個事件的相似因素后進(jìn)行篩選。不過Apriori算法在實現(xiàn)上比兩兩比較效率更高,因為在其中有剪枝縮小范圍的過程。
更隱晦的事件關(guān)聯(lián)
其實,在ATD給客戶服務(wù)的實際應(yīng)用場景中,上文提到的“啤酒,尿布”還都算是比較簡單的事件關(guān)聯(lián)模型。更為復(fù)雜的是,如何發(fā)現(xiàn)從人的感知認(rèn)識角度看并不是那么直接的關(guān)聯(lián)關(guān)系。比如空氣的霧霾指數(shù)和城市用電量的關(guān)系,從人的感知角度,這兩個并不是特別的直接相關(guān)。但當(dāng)我們在兩個事件中引入一個橋梁,即室內(nèi)人數(shù)占比,就會發(fā)現(xiàn)這樣的概率關(guān)系:
P(用電量/霧霾)=>P(室內(nèi)人數(shù)增加/霧霾)*P(用電量增加/室內(nèi)人口增加),其中P(A/B)表示B事件發(fā)生情況下發(fā)生A事件的概率
如果可以列舉出霧霾導(dǎo)致的所有核心事件,就可以使用全概率公式推導(dǎo)出霧霾和用電量的關(guān)系(所以這里我并沒有使用等號=而是使用了=>)。
從威脅識別的角度,通過這種中間的橋梁事件,同理也可以構(gòu)建出兩個看似不相關(guān)的事件之間的關(guān)系。比如在我們給某家電企業(yè)部署的ATD運(yùn)行中,就發(fā)現(xiàn)了一次疑似的CC攻擊實際是和后端某業(yè)務(wù)線數(shù)據(jù)庫變更操作有關(guān):
P(疑似CC攻擊/業(yè)務(wù)線數(shù)據(jù)庫變更)=>P(疑似CC攻擊/接口訪問飆升)*P(接口訪問飆升/504占比)*P(504占比/請求阻塞)*P(請求阻塞/數(shù)據(jù)庫阻塞)*P(數(shù)據(jù)庫阻塞/數(shù)據(jù)庫變更)
解決這種復(fù)雜隱晦的事件關(guān)聯(lián)的前提是首先要把所有信息(不管認(rèn)為是否相關(guān))都收集進(jìn)來(這也是文章開始階段提到的SIEM的采集層需要解決的),盡可能多的采集各種數(shù)據(jù),因為只有采集到數(shù)據(jù)才有可能建立關(guān)聯(lián)。當(dāng)海量的數(shù)據(jù)采集進(jìn)來后,我們往往在做下一步相關(guān)分析時會發(fā)現(xiàn)一個難題,即:因為數(shù)據(jù)太多,導(dǎo)致分析的性能很低。如果威脅事件分析的不及時,很可能會影響后續(xù)的處理,所以整個分析過程的低延遲至關(guān)重要。
數(shù)據(jù)降維
如何保證處理速度呢?那就需要對數(shù)據(jù)進(jìn)行降維分解,從而降低計算空間,這里面有兩種做法:
1.有監(jiān)督降維
如果企業(yè)本身有大量標(biāo)注數(shù)據(jù),那就可以使用有監(jiān)督降維,最經(jīng)典的有監(jiān)督降維就是PCA(PrincipalComponentAnalysis,主成分分析),其原理是選擇一種最優(yōu)的數(shù)據(jù)投射方式,從高維空間投射到低維空間,并且保證投射后有較好的區(qū)分度。
2.無監(jiān)督降維
在沒有大量標(biāo)注數(shù)據(jù)的情況下就可以使用無監(jiān)督降維,這也正是ATD所使用的數(shù)據(jù)降維方式。有很多種算法都可以進(jìn)行無監(jiān)督降維,ATD最早使用的是LDA(LatentDirichletAllocation)主題發(fā)現(xiàn)模型進(jìn)行降維,通過LDA先將數(shù)據(jù)按照主題相關(guān)性聚類,降低每一類中數(shù)據(jù)的數(shù)量和維度,從而減少后續(xù)計算的復(fù)雜度。
這里,我想介紹另外一種數(shù)據(jù)降維的方式,也是我們目前正在嘗試的——SVD(SingularValueDecomposition)分解。
圖9:對威脅事件進(jìn)行SVD分解
上圖所示,我們先對于一個海量的事件集進(jìn)行了SVD分解,分解的結(jié)果是三個矩陣的乘積,然后通過對于中間Σ矩陣的元素進(jìn)行篩選,就可以降低整個事件集群的復(fù)雜度,同時找到同一個隱含主題下的關(guān)聯(lián)事件和關(guān)聯(lián)因素。隱含主題的數(shù)量本質(zhì)上就是事件矩陣的秩。
從更深的角度講,無論是LDA還是SVD,其實本質(zhì)都是去尋找事件矩陣的秩,利用秩找到構(gòu)成事件的最核心因素,比如對于一個入侵事件,可能的核心因素是用戶的屬性(內(nèi)/外部用戶、是否授權(quán)、相應(yīng)職級等等)、入侵時間、侵入的業(yè)務(wù)類型,而其他的因素,諸如員工的年齡、當(dāng)時的服務(wù)器負(fù)載等等其他因素有可能就會被算法自動識別為非關(guān)鍵因素而忽略掉。通過這種方式就可以在茫茫信息中發(fā)現(xiàn)關(guān)鍵因素,從而為后面的事件關(guān)聯(lián)大大降低運(yùn)算量。
總之,數(shù)據(jù)的橫向關(guān)聯(lián)是一個極富挑戰(zhàn)性的任務(wù),其中最重要的先決條件是通過SIEM的采集層收集足夠的數(shù)據(jù),其次是選擇合適的算法對數(shù)據(jù)進(jìn)行加工處理,最后是通過AI算法對數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析。在ATD客戶的實際使用中,我們成功地發(fā)現(xiàn)了外網(wǎng)的接口攻擊和內(nèi)網(wǎng)數(shù)據(jù)庫變更之間的關(guān)系,也發(fā)現(xiàn)了某郵件系統(tǒng)的Exchange日志事件和內(nèi)網(wǎng)SSH事件之間的關(guān)系。這種關(guān)聯(lián)分析不僅僅對于已知威脅的回溯有幫助,也對未來的安全態(tài)勢感知有重大意義。
八、關(guān)于未來方向的探究
從SIEM&AI模式到SIEM@AI模式,我們不再將AI看成是插件或者工具,而是將系統(tǒng)運(yùn)行在一個完全由AI驅(qū)動的智能平臺上。在這個平臺上,我們無需標(biāo)注數(shù)據(jù),無需大量人工介入,也無需定制規(guī)則,而是通過以無監(jiān)督學(xué)習(xí)為主導(dǎo)的機(jī)器學(xué)習(xí)算法自動對異常威脅事件進(jìn)行識別,自動的為各個復(fù)雜事件建立內(nèi)在關(guān)聯(lián),提高識別的準(zhǔn)確率和召回率的同時,解放安全工程師的人力并提高其效率,最終實現(xiàn)對于企業(yè)外網(wǎng)、業(yè)務(wù)、內(nèi)網(wǎng)的三層智能防御。
白山ATD產(chǎn)品就是一套全新的SIEM@AI系統(tǒng),我們過去花費(fèi)了大量時間和精力去研發(fā)基于無監(jiān)督學(xué)習(xí)的AI算法來代替目前的傳統(tǒng)企業(yè)安全產(chǎn)品,這種模式的有效性在企業(yè)實踐中已經(jīng)得到了驗證。未來,ATD還會在兩個方向做進(jìn)一步探索研究:
1.通過主動學(xué)習(xí)引入人的參與
引入無監(jiān)督學(xué)習(xí)的目的是不依賴標(biāo)注的樣本,因為在安全領(lǐng)域,標(biāo)注樣本的獲取成本非常大,但是這并不代表可以完全不依靠人工。在可預(yù)見的時間范圍內(nèi),有經(jīng)驗的安全專家對威脅風(fēng)險的識別、對于算法的修正以及對于整個AI系統(tǒng)的魯棒性維護(hù)都是非常重要的。但是,安全專家的時間精力畢竟有限,如何在準(zhǔn)確全面識別安全威脅的前提下,降低安全專家的時間成本就顯得十分關(guān)鍵。
對此,我們引入主動學(xué)習(xí)算法,它是一種特殊的半監(jiān)督學(xué)習(xí),依靠安全專家對少量的AI識別出的結(jié)果進(jìn)行人工校驗,從而不斷對原有算法進(jìn)行微調(diào),直到最終收斂。主動學(xué)習(xí)里有兩個因素非常重要,一是如何挑選供給人工校驗的識別結(jié)果,二是對于識別結(jié)果的糾正如何反饋到算法模型中。通過主動學(xué)習(xí),我們就可以構(gòu)建不斷學(xué)習(xí)、不斷演變的SIEM系統(tǒng),進(jìn)而隨著與人的磨合,系統(tǒng)會變得越來越智能,越來越準(zhǔn)確。
2.通過深度學(xué)習(xí)識別非直觀威脅
有些威脅或者異常本身不具備直觀表述性,甚至不能被向量化、離散化,最直接的例子就是加密流量。加密后的流量本身是人不可表述的,只是一層二進(jìn)制輸入流。還有些安全事件由于關(guān)聯(lián)業(yè)務(wù)太多,很難用語言來表述為什么當(dāng)初這個問題被判定為異常。對于這些問題,都可以嘗試使用深度學(xué)習(xí)的算法來解決,不過深度學(xué)習(xí)要求有大量的標(biāo)注樣本,只有在這個前提下,才能保證算法的效果。這就要求企業(yè)在平時的SIEM系統(tǒng)運(yùn)行中,就不斷增加對于威脅事件判定的積累,當(dāng)數(shù)據(jù)積累到一定程度后,就可以使用深度學(xué)習(xí)算法進(jìn)行分析。
AI作為安全領(lǐng)域的顛覆性技術(shù),與SIEM的結(jié)合將構(gòu)建一個完全基于AI的、充分智能的、低人工甚至無需人工介入的新一代SIEM@AI平臺,這將改變目前安全產(chǎn)品依靠策略設(shè)定的固有模式,成為新一代企業(yè)安全大腦。
標(biāo)簽:
中國傳動網(wǎng)版權(quán)與免責(zé)聲明:凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動網(wǎng)(www.wangxinlc.cn)獨(dú)家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。
本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。
產(chǎn)品新聞
更多>2025-04-30
性能躍升20%!維宏NK300CX Plus數(shù)控系統(tǒng)...
2025-04-11
rpi-image-gen:樹莓派軟件鏡像構(gòu)建的終...
2025-04-08
【產(chǎn)品解讀】全面提升精密制造檢測節(jié)拍...
2025-03-31
激光閃耀 智慧引領(lǐng) | WISE MASER 黑武士...
2025-03-20