時間:2023-05-17 16:51:33
導言:作為寫作愛好者,不可錯過為您精心挑選的10篇數據分析分析技術,它們將為您的寫作提供全新的視角,我們衷心期待您的閱讀,并希望這些內容能為您提供靈感和參考。
中圖分類號:TP3文獻標識碼:A文章編號:1671-7597(2009)1110077-01
一、引言
聯機分析處理(Online Analytical Processing,OLAP)的概念最早是由關系數據庫之父E.F.Codd于1993年提出的,OLAP是針對特定問題的聯機數據訪問和分析。通過對信息(維數據)的多種可能的觀察形式進行快速、穩定一致和交互性的存取,允許管理決策人員對數據進行深入地觀察。OLAP的目標是滿足決策支持或多維環境特定的查詢和報表需求,它的技術核心是“維”這個概念,因此OLAP也可以說是多維數據分析工具的集合。
二、OLAP的多維數據結構
數據在多維空間中的分布總是稀疏的、不均勻的。在事件發生的位置,數據聚合在一起,其密度很大。因此,OLAP系統的開發者要設法解決多維數據空間的數據稀疏和數據聚合問題。事實上,有許多方法可以構造多維數據。
(一)超立方結構。超立方結構指用三維或更多的維數來描述一個對象,每個維彼此垂直。數據的測量值發生在維的交叉點上,數據空間的各個部分都有相同的維屬性。
這種結構可應用在多維數據庫和面向關系數據庫的OLAP系統中,其主要特點是簡化終端用戶的操作。超立方結構有一種變形,即收縮超立方結構。這種結構的數據密度更大,數據的維數更少,并可加入額外的分析維。
(二)多立方結構。在多立方結構中,將大的數據結構分成多個多維結構。這些多維結構是大數據維數的子集,面向某一特定應用對維進行分割,即將超立方結構變為子立方結構。它具有很強的靈活性,提高了數據的分析效率。
一般來說,多立方結構靈活性較大,但超立方結構更易于理解。超立方結構可以提供高水平的報告和多維視圖。多立方結構具有良好的視圖翻轉性和靈活性。多立方結構是存儲稀疏矩陣的一個更有效方法,并能減少計算量。因此,復雜的系統及預先建立的通用應用傾向于使用多立方結構,以使數據結構能更好地得到調整,滿足常用的應用需求。
許多產品結合了上述兩種結構,它們的數據物理結構是多立方結構,但卻利用超立方結構來進行計算,結合了超立方結構的簡化性和多立方結構的旋轉存儲特性。
三、OLAP的多維數據分析
多維數據分析是指對以多維形式組織起來的數據采取切片、切塊、旋轉和鉆取等各種分析動作,以求剖析數據,使最終用戶能從多個角度、多側面地觀察數據倉庫中的數據,從而深入地了解包含在數據中的信息、內涵。多維分析方式迎合了人們的思維模式,因:
(一)切片。定義1:在多維數組的某一維上選定一維成員的動作成為切片,即在多維數組(維1、維2、....維n,變量)中選一維:維i,并取其一維成員(設為“維成員vi”),所得的多維數組的子集(維1,...維成員vi,...,維n,變量)稱為在維i上的一個切片。
按照定義1,一次切片一定是原來的維數減1。所以,所得的切片并不一定是二維的“平面”,其維數取決于原來的多維數據的維數,這樣的切片定義不通俗易懂。下面給出另一個比較直觀的定義。
定義2:選定多維數組的一個二維子集的動作叫做切片,既選定多維數組(維1、維2、....維n,變量)中的兩個維:維i和維j,在這兩個維上取某一區間或者任意維成員,而將其余的維都取定一個維成員,則得到的就是多維數組在維i和維j上的一個二維子集,稱這個二維子集為多維數組在維i和維j上的一個切片,表示為(維i和維j,變量)。
按照定義2,不管原來的維數有多少,數據切片的結果一定是一個二維的“平面”。從另一個角度來講,切片就是在某個或某些維上選定一個維成員,而在某兩個維上取一定區間的維成員或全部維成員。從定義2可知:
1.一個多維數組的切片最終是由該數組中除切片所在平面的兩個維之外的其它維的成員值確定的。
2.維是觀察數據的角度,那么切片的作用或結果就是舍棄一些觀察角度,使人們能在兩個維上來集中觀察數據,因為人的空間想象力有限,所以,對于維數較多的多維數據空間,進行數據切片是十分有意義的。比照定義1,我們可以將切片的這兩個定義聯系起來,對于一個n維數組,按定義1進行的n-2切片的結果,就必定對應于按定義2進行的某一次切片的結果。
(二)切塊。定義1:在多維數組的某一維上選定某一區間的維成員的動作稱為切塊,即限制多維數組在某一維的取值區間。顯然,當這一區間只取一個維成員時,即得到一個切片。
定義2:選定多維數組的一個三維子集的動作稱為切塊,即選定多維數組(維1、維2、....維n,變量)中的三個維:維i、維j、維r,在這三個維上取某一區間或任意的維成員,而將其余的維都取定一個維成員,則得到的就是多維數組在維i、維j、維r上的三維子集,我們稱這個三維子集為多維數組在維i、維j、維r上的一個切塊,表示為(維i、維j、維r,變量)。切塊與切片的作用與目的是相似的。
(三)旋轉。旋轉既是改變一個報告或者頁面的維方向。例如:旋轉可能包含了交換行與列;或是把某一個行維移到列維,或是把頁面顯示中的一個維和頁面外的維進行交換(令其成為新的行或者列的一個)。
(四)鉆取。
鉆取處理是使用戶在數據倉庫的多層數據中,能夠通過導航信息而獲得更多的細節性數據,鉆取一般是指向下鉆取。大多數的OLAP工具可以讓用戶鉆取至一個數據集中有更好細節描述的數據層,而更完整的工具可讓用戶隨處鉆取,即除一般往下鉆取外,隨處鉆取還包括向上鉆取和交叉鉆取。
(五)多視圖模式。人們發現,獲取相同的信息,圖形顯示所帶來的直觀性有時是簡單的數據表所無法提供的。一個OLAP系統,應當采取多種不同的格式顯示數據,使用戶能夠獲得最佳的觀察數據的視角。
四、結語
隨著數據倉庫的發展,OLAP也得到了迅猛的發展。數據倉庫側重于存儲和管理面向決策主題的數據,而OLAP則側重于數據倉庫中的數據分析,并將其轉換成輔助決策信息。OLAP的一個重要特點是多維數據分析,這與數據倉庫的多維數據組織正好形成相互結合、相互補充的關系。將有助于我們解決數據處理中的復雜問題。
參考文獻:
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)03-0006-03
為了提升大學物理公共課程的教學水平,更好地了解學生的學習情況,需要引用聯機數據技術,通過科學建立模型對教學數據進行處理和分析。維度模型的建立是為了能夠全方位地剖析數據。
1 建立數據模型
建立模型是為了更加直觀地表達數據和事實。對于同一批數據,人們總是會以不同的角度對其進行觀察,這就是維度。維度模型從不同的角度分析數據,最終得出一張事實表。
如圖1所示,維度模型包括了教材維度表,學期維度表,教師維度表,學生維度表和教學事實表。為了更好地分析教學效果,維度模型從四個不同的角度進行分析,每一張維度表上都注明了詳細的數據內容。最后,在總結四張維度表的基礎上,概括了最終的教學事實表。
2 OLAP技術
2.1 數據的采集
原有的Visual和SQL數據庫上儲存了學生的信息,教師的信息以及教學的數據等等。如圖二所示,教務數據庫中包含了課程信息表,學生信息表以及選課成績表。DTS工具能夠從不同的數據庫中自動抽取需要進行分析的數據,并且將其全部集中在一個新的數據庫中。新的SQL數據庫既可以儲存信息,還能夠對信息進行管理。聯機分析處理技術從不同的角度分析數據,有助于全面了解學生的學習情況和教師的教學質量。
2.2 數據分析的結構
從圖2中可以看出,數據分析的結構包括了四層,其中最底層的是各種信息數據庫和文本文件,在此基礎上建立數據ETL,然后建立相應的維度模型,最后利用聯機分析技術對數據進行分析。采集數據和轉換數據是使用聯機分析技術的基礎,也是必不可少的一步。多維度分析是該結構中的最后一步,最終的結果將會把數據轉換成圖表的形式呈現出來。
2.3 轉換數據
由于不同數據的語法可能存在差異,因此,把不同的數據轉換成相同的結構顯得尤為必要。在聯機分析技術應用的過程中,轉換數據是關鍵的一步,能否成功轉換數據,決定了維度模型的建立是否具有科學性與全面性。轉換數據是為了解決語法,語義結構不同引起的問題。
和數據語義不同相比,處理不同語法的數據顯得更為簡單。如果數據本身和目標數據之間存在語法結構不同的問題,那么只需要通過函數對其進行轉換即可。一般來說,數據本身的內容并不會影響轉換過程,只要建立原數據和目標數據之間的對應關系,就能解決數據名稱存在沖突的問題。例如,學生數據庫本身的信息包括了學生的ID和班級,這就相當于最終目標數據中學生對應的名稱和班別。如果數據類型不同,可以運用相應的函數對其進行轉換,例如trim()函數就能完成數據的轉換。下面是利用函數對原數據中學生的ID,專業以及院名進行轉換的過程,其轉換代碼如下:
Function Main()
DTSDestination(“ID”)=trim(DTSSourse(“名稱”))
DTSDestination(“專業”)=cstr(DTSSourse(“專業”))
DTSDestination(“院名”)=trim(DTSSourse(“學院”))
Main=DTSTransformStat_OK
End Function
轉換不同語義結構的數據是一個復雜的過程,它需要重視數據本身的信息和內容。因此,僅僅通過一步完成數據轉換的過程是幾乎不可能的,它需要將原數據進行一次次轉換,才能得到最終的目標數據。例如每一個教師都有以及開展項目,在原數據中只能看到項目的名稱和論文的名稱,如果需要將其轉換成教師的論文數量和項目數量,則需要經過兩步的數據轉換。
2.4 數據結果分析
原數據從SQL中提取出來,然后通過函數對其進行轉換,最后利用聯機分析技術進行數據管理和分析,從不同的角度研究數據,從而全面分析學生的學習情況和教師的教學情況。數據分析的方法有很多種,其目的都是為了全方位地剖析數據。
2.4.1 高校教師教學質量的對比分析
在教師維度表中,我們已經按照教師的從業年齡,學歷以及職稱對其進行劃分,不同職稱的教師,其教學質量有著明顯的區別。教師的學歷不同,教齡有所差異,這都和教學效果息息相關。
2.4.2 不同時期對教學質量的影響分析
聯機分析處理技術能夠從多角度分析數據,教學質量不可能是一成不變的,它與多個因素密不可分,時間也是其中一個因素。在不同的時期,由于政策的變動和外界因素的影響,教師的教學質量也會隨之而受到不同程度的影響。
2.4.3 教學質量和其他因素息息相關
除了時間和教師的水平會對教學質量造成一定的影響,還有其他因素同樣會影響教學效果,例如:學生的學習能力,學校選用的課本等。綜合考慮各個因素對教學效果的影響,有利于教育部門更好地作出相應的政策調整。
3 計算機分析處理技術中的數據處理方法分析
無可置疑,計算機技術的出現顛覆了人們傳統的思想和工作模式。如今,計算機技術已經全面滲透到我們生活中和工作中的各個方面。不管是在工業生產還是科研數據處理中,計算機技術都發揮著不可替代的作用。如今我們需要處理的數據正與日俱增,這就意味著傳統的數據處理方法已經無法滿足人們的需求了。儀表生產和系統控制要求數據具有高度精確性,這些數字在顯示之前,都必須經過一系列的轉換,計算以及處理。首先,數據會以一種形式經過轉換器,然后變成另一種新的形式,只有這樣計算機才能對數據進行處理和分析。處理數據是一個復雜多變的過程,它的方法并不是單一的,根據數據處理的目標不同,需要選擇不同的數據處理方法。例如,有的數據需要進行標度轉換,但有些數據只需要進行簡單計算即可,計算機技術的不斷進步是為了更好地應對人們對數據處理新的需要。
計算機數據處理技術的應用離不開系統,它比傳統的系統更加具有優越性:
1)自動更正功能,計算機系統在處理數據時,對于計算結果出現的誤差能夠及時修正,確保結果的準確度。
2)傳統模擬系統只能進行數據的簡單計算,而計算機系統則能夠處理復雜多變的數據,其適用范圍和領域更加廣。
3)計算機系統不需要過多的硬件,只需要編寫相應的程序就能夠完成數據的處理,在節省空間的同時也降低了數據處理的成本。
4)計算機系統特有的監控系統,能夠隨時監測系統的安全性,從而確保數據的準確度。
對于不同的數據,往往需要采用不同的處理方式,處理數據的簡單方法包括查表,計算等。除此之外,標度轉換,數字濾波同樣是應用十分廣的處理技術。
3.1 數據計算
在各種數據處理方法中,計算法是最為簡單的一種,利用現有的數據設置程序,然后直接通過計算得出最終的目標數據。一般來說,利用這種方法處理數據需要遵循一個過程:首先,求表達式,這是計算法最基本的一步;其次,設計電路,在此之前必須將轉換器的位數確定下來;最后,利用第一步已經求出的表達式運算數據。
3.2 數據查表
3.2.1 按順序查表格
當需要搜索表格中的數據時,往往需要按照一定的順序和步驟。首先,明確表格的地址和長度,然后再設置關鍵詞,最后按照順序進行搜索。
3.2.2 通過計算查表格
這是一種較為簡單的方法,適用范圍并不廣。只有當數據之間表現出明顯的規律或者數據之間存在某種關系時,才能夠使用這種方法查表格。
3.2.3 利用程序查表格
相比于上述的兩種方法,利用程序查表格是一種相對復雜的方法,但是這種方法的優點在于查找效率高,并且準確度高。
3.3 數據濾波處理
采集數據并不難,但是確保每一個數據的真實性卻十分困難,尤其是在工業系統中,數據的測量難以確保絕對準確,因為在測量的過程中,外界環境對數據的影響往往是難以預估的。為了提高數據處理的精確度和準確率,需要借助檢測系統對采集的數據進行深加工。盡可能地讓處理的數據接近真實的數據,并且在數據采集的過程中最大限度地減少外界因素對其的影響,從而提高計算結果的準確度。
濾波處理技術的應用首先要確定數據的偏差,一般來說,每兩個測量數據之間都會存在一定的誤差,首先需要計算數據與數據之間可能出現的最大誤差。一旦超出這一數值,可以認定數據無效,只有符合偏差范圍內的數據,才能進行下一步的處理。
為了減少由于外界影響導致數據失真的情況,利用程序過濾數據是很有必要的。濾波技術有幾種,根據不同的需要可以選擇相應的數據處理技術,每一種數據濾波技術都有其適用范圍和優點。數據濾波技術包括算術平均值濾波,加權平均值濾波,中值濾波,限幅濾波,限速濾波以及其他類型的濾波技術。
3.4 轉換量程和標度
在測量數據的過程中,每一種參數都有相應的單位,為了方便數據處理,需要使用轉換器把數據轉換為統一的信號。標度轉換是必不可少的,為了加強系統的管理和監測,需要不同單位的數字量。轉換方法包括非線性參數標度變換,參數標度變換,量程轉換,這幾種轉換方法在數據處理的過程中較為常見。當計算過程遇到困難,可以結合其他的標度轉換方法進行數據處理。
3.5 非線性補償計算法
3.5.1 線性插值計算方法
信號的輸入和輸出往往會存在一定的關系。曲線的斜率和誤差之間存在正相關關系,斜率越大,誤差越大。由此可見,這一計算方法僅僅適用于處理變化不大的數據。當曲線繪制選用的數據越多,曲線的準確程度越高,偏差越小。
3.5.2 拋物線計算方法
拋物線計算方法是一種常用的數據處理方法,只需要采集三組數據,就可以連成一條拋物線。相比于直線,拋物線更加接近真實的曲線,從而提高數據的準確度。拋物線計算法的過程,只需要求出最后兩步計算中的M值,就能夠直接輸入數據得出結果。
3.6 數據長度的處理
當輸入數據和輸出數據的長度不一,需要對其進行轉換,使數據長度達到一致。由于采集數據所使用的轉換器和轉換數據所選擇的轉換器不同,因此,當輸入位數大于輸出位數,可以通過移位的方法使位數變成相同。相反,當輸入位數少于輸出位數時,可以使用填充的方法將其轉換成相同的位數。
4 結語
本文對聯機分析技術進行了詳細的論述,該技術的應用對于評價教學效果有著重要的意義。在物理公共課程中,教學數據數量巨大,如果利用傳統的方法對其進行分析,將會耗費大量的人力物力,而采用OLAP技術則能更加快速準確地分析處理數據。數據分析是評估教學質量必經的過程,而使用QLAP技術是為了能夠多層次,全方位地分析各個因素對教學質量的影響,從而更好地改進高校教育中存在的不足。除了分析物理課程數據,聯機分析技術同樣適用于其他課程的數據處理和分析。
參考文獻:
1.1信息安全分析引入大數據的必要性
大數據具有“4V”的特點:Volume、Variety、Velocity和Value,可實現大容量、低成本、高效率的信息安全分析能力,能夠滿足安全數據的處理和分析要求,將大數據應用于信息安全領域能夠有效的識別各種攻擊行為或安全事件,具有重大的研究意義和實用價值。隨著企業規模的增大和安全設備的增加,信息安全分析的數據量呈指數級增長。數據源豐富、數據種類多、數據分析維度廣;同時,數據生成的速度更快,對信息安全分析應答能力要求也相應增長。傳統信息安全分析主要基于流量和日志兩大類數據,并與資產、業務行為、外部情報等進行關聯分析。基于流量的安全分析應用主要包括惡意代碼檢測、僵木蠕檢測、異常流量、Web安全分析等;基于日志的安全分析應用主要包括安全審計、主機入侵檢測等。將大數據分析技術引入到信息安全分析中,就是將分散的安全數據整合起來,通過高效的采集、存儲、檢索和分析,利用多階段、多層面的關聯分析以及異常行為分類預測模型,有效的發現APT攻擊、數據泄露、DDoS攻擊、騷擾詐騙、垃圾信息等,提升安全防御的主動性。而且,大數據分析涉及的數據更加全面,主要包括應用場景自身產生的數據、通過某種活動或內容“創建”出來的數據、相關背景數據及上下文關聯數據等。如何高效合理的處理和分析這些數據是安全大數據技術應當研究的問題。
1.2安全大數據分析方法
安全大數據分析的核心思想是基于網絡異常行為分析,通過對海量數據處理及學習建模,從海量數據中找出異常行為和相關特征;針對不同安全場景設計針對性的關聯分析方法,發揮大數據存儲和分析的優勢,從豐富的數據源中進行深度挖掘,進而挖掘出安全問題。安全大數據分析主要包括安全數據采集、存儲、檢索和安全數據的智能分析。(1)安全數據采集、存儲和檢索:基于大數據采集、存儲、檢索等技術,可以從根本上提升安全數據分析的效率。采集多種類型的數據,如業務數據、流量數據、安全設備日志數據及輿情數據等。針對不同的數據采用特定的采集方式,提升采集效率。針對日志信息可采用Chukwa、Flume、Scribe等工具;針對流量數據可采用流量景象方法,并使用Storm和Spark技術對數據進行存儲和分析;針對格式固定的業務數據,可使用HBase、GBase等列式存儲機制,通過MapReduce和Hive等分析方法,可以實時的對數據進行檢索,大大提升數據處理效率。(2)安全數據的智能分析:并行存儲和NoSQL數據庫提升了數據分析和查詢的效率,從海量數據中精確地挖掘安全問題還需要智能化的分析工具,主要包括ETL(如預處理)、統計建模工具(如回歸分析、時間序列預測、多元統計分析理論)、機器學習工具(如貝葉斯網絡、邏輯回歸、決策樹、隨機森利)、社交網絡工具(如關聯分析、隱馬爾可夫模型、條件隨機場)等。常用的大數據分析思路有先驗分析方法、分類預測分析方法、概率圖模型、關聯分析方法等。可使用Mahout和MLlib等分析工具對數據進行挖掘分析。綜上,一個完備的安全大數據分析平臺應自下而上分為數據采集層、大數據存儲層、數據挖掘分析層、可視化展示層。主要通過數據流、日志、業務數據、情報信息等多源異構數據進行分布式融合分析,針對不同場景搭建分析模型,最終實現信息安全的可管可控,展現整體安全態勢。
2安全大數據分析的典型應用
2.1基于用戶行為的不良信息治理
中國移動開展了基于大數據的不良信息治理工作,主要針對垃圾短信和騷擾詐騙電話開展基于異常行為的大數據分析。通過開源工具Hadoop、HDFS、Pig、Hive、Mahout、MLlib搭建大數據分析平臺,采集用戶的行為數據,構建用戶行為分析模型;分別提出了異常行為分類預測模型、統計預測分析模型、社交網絡分析模型等,將用戶的行為數據輸入到模型中,可以精準地挖掘出違規電話號碼,并且發現違規號碼與正常號碼之間存在大量相異的行為特征。通過用戶的行為,構建多維度的用戶畫像數據庫,支撐全方位的大數據不良信息治理服務,支撐大數據不良內容的智能識別等。實踐表明,大數據分析技術能夠挖掘出更多潛在的違規號碼,是對現有系統的有效補充。除此之外,中國移動還將大數據技術應用在安全態勢感知、手機惡意軟件檢測和釣魚網站的分析中,提升了現有系統的分析能力。
2.2基于網絡流量的大數據分析
在互聯網出口進行旁路流量監控,使用Hadoop存儲及Storm、Spark流分析技術,通過大數據分析技術梳理業務數據,深度分析所面臨的安全風險。主要分析思路是采集Netflow原始數據、路由器配置數據、僵木蠕檢測事件、惡意URL事件等信息,采用多維度分析、行為模式分析、指紋分析、孤立點分析及協議還原等方法,進行Web漏洞挖掘、CC攻擊檢測、可疑掃描、異常Bot行為、APT攻擊、DDoS攻擊挖掘等分析。
2.3基于安全日志的大數據分析
基于安全日志的大數據分析思路主要是融合多種安全日志,進行數據融合關聯分析,構建異常行為模型,來挖掘違規安全事件。主要的安全日志包含Web日志、IDS設備日志、Web攻擊日志、IDC日志、主機服務器日志、數據庫日志、網管日志、DNS日志及防火墻日志等,通過規則關聯分析、攻擊行為挖掘、情景關聯分析、歷史溯源等方法,來分析Web攻擊行為、Sql注入、敏感信息泄露、數據分組下載傳輸、跨站漏洞、嘗試口令破解攻擊等應用場景。基于安全日志的大數據分析已經在國際上有廣泛的應用。如IBMQRadar應用整合分散在網絡各處的數千個設備端點和應用中的日志源事件數據,并將原始安全數據進行標準化,以區別威脅和錯誤判斷;IBMQRadar還可以與IBMThreatIntelligence一起使用,提供潛在惡意IP地址列表,包括惡意主機、垃圾郵件和其它威脅等;IBMQradar還可以將系統漏洞與事件和網絡數據相關聯,劃分安全性事件的優先級等。ZettaSet海量事件數據倉庫來分析網絡中的安全漏洞和惡意攻擊;Zettaset主要包括Orchestrator和SDW(SecurityDataWarehouse,安全數據倉庫)。Orchestrator是端到端的Hadoop管理產品,支持多個Hadoop分布;SDW是構建在Hadoop的基礎上,并且基于Hive分布式存儲。SDW于2011年BlackHat網絡安全會議面世,SDW可從網絡防火墻、安全設備、網站流量、業務流程以及其它事務中挖掘安全信息,確定并阻止安全性威脅。處理的數據質量和分析的事件數量比傳統SIEM多;對于一個月的數據負載,傳統SIEM搜索需要20~60min,Hive運行查詢只需1min左右。
2.4基于DNS的安全大數據分析
基于DNS的安全大數據分析通過對DNS系統的實時流量、日志進行大數據分析,對DNS流量的靜態及動態特征進行建模,提取DNS報文特征:DNS分組長、DNS響應時間、發送頻率、域名歸屬地離散度、解析IP離散度、遞歸路徑、域名生存周期等;基于DNS報文特征,構建異常行為模型,來檢測針對DNS系統的各類流量攻擊(如DNS劫持、DNS拒絕服務攻擊、DNS分組異常、DNS放大攻擊等)及惡意域名、釣魚網站域名等。
2.5APT攻擊大數據分析
高級可持續性威脅(APT)攻擊通過周密的策劃與實施,針對特定對象進行長期的、有計劃的攻擊,具有高度隱蔽性、潛伏期長、攻擊路徑和渠道不確定等特征。現已成為信息安全保障領域的巨大威脅。“震網”潛伏3年,造成伊朗納坦茲核電站上千臺鈾濃縮離心機故障。收集業務系統流量、Web訪問日志、數據日志、資產庫及Web滲透知識庫等,提取系統指紋、攻擊種類、攻擊時間、黑客關注度、攻擊手段類型、行為歷史等事件特征,再基于大數據機器學習方法,發現Web滲透行為、追溯攻擊源、分析系統脆弱性,加強事中環節的威脅感知能力,同時支撐調查取證。
中圖分類號TP392 文獻標識碼A 文章編號 1674-6708(2013)86-0119-02
在科學技術飛速進步的當今世界,石油一直是世界上最主要的供能能源,隨著石油化工產業的不斷進步與發展,石油化工檢測也迅速成長起來。在化工領域里,石油化工原料也被廣泛的應用于各個部門,它是決定各個部門發展進度的至關重要的因素。因此,石油化工檢測的發展與成長也是必然的結果。
1 石油化工檢測
石油化工檢測是一門復合技術,其將電子、自動化、信息處理、控制工程、計算機等多門學科有機的融為一體,并將其廣泛的應用于生產自動化過程以及石油化工領域自動化裝備中。在石油化工原料的生產過程中,有毒或者易燃易爆氣體隨時都存在泄露的危險,有些嚴重的泄露事件甚至會威脅工人的生命財產安全,所以石油化工產業亦是一個高危產業。面對這些不容忽視的安全問題,嚴密的檢測程序在石油化工生產的過程中是必不可少的一個重要環節。隨著科學信息技術的飛速發展,檢測手段也在不斷的進行推陳出新,在其有機的結合了化學、物理、電機學、計算機和現代光學技術后,檢測技術也有了質的飛躍。
如今在石油化工檢測的過程當中,出現了許多如無損失檢測等的新設備,這些現代化科技設備的廣泛投入與應用,無一不說明了石油化工產業的重要性。在如今的石油化工產業中,一個新興的概念正在逐步被人們所接受,它就是安全檢測體系以及安全評價。其中安全評價是經由安全系統工程原理以及工程技術方法,對系統中有可能存在的危險性或固有危險性進行全面分析,也稱風險評價和危險性評價,其包含危險性確認以及危險性評價兩個方面。我們也應當全面深入的找尋其可能存在的危險源,并對其進行認真的校對與考核。與此同時,我們還應該對可能產生的后果進行分析與預測,并與當今社會上工人的安全指標進行認真比對,其值若在安全值范圍以內,便可認為其安全;若在安全值以外,則認為其不安全,我們應當對其采取適當的措施,從而減少或者避免危險發生的可能性。
2數據檢測方法
2.1安全檢查表法數據分析
石油化工產品系數一般在一個安全的系數范圍之內,根據實驗發現,這些所測的數據互相獨立,互不影響,所以這些數據呈現正態分布,所以檢測的數據應該在該分布范圍之內。所謂安全檢查表法,就是通過抽樣數據,通過SPSS軟件計算出各數據之間的平均值以及標準方差,通過比較所測數據是否在平均值所在的標準方差范圍之內。通過檢驗數據核對來衡量該數據值是否在安全檢測范圍之內。在分析的過程中,可以將其與標準平均值的偏差與安全檢測標準方差的比值對其進行賦分,如果大于1說明偏差太大,產品不在安全范圍之內,如果為0,則產品在安全范圍之內。
2.2預先危險性數據分析
在數據統計過程中,有一種分析方法為數據擬合,可對數據回歸分析,利用回歸分析函數,預見系統的危險性。常用的數據回歸分析方法為二元Logistic回歸分析與曲線擬合分析。比如通過統計分析先前發生的事故的傳統安全數據系數,對安全系數數據進行二元回歸擬合,得到輸入函數,通過輸入函數來預見產品的危險性,以此來對產品做出相關的概括性評價統計,對于有害成分,觸發條件進行評價。預先危險性數據分析可以應用到石油原油品質分析中去。
2.3故障影響因素數據分析
在石油化工作業中,經常會出現一些故障,這些故障發生的概率隨著工藝過程,各不相同,對于發生某次故障,或者發生變質產品,肯定會有主要因素,但是如何才能得到主要因素,可以利用方差分析,利用方差分析是以兩個樣本作為比對對象,通過比對對象,來得到在一定置信區間內的主要影響因素,分析的數據統計量需要滿足,各統計量之間符合正態分布,顯然影響因素之間是相對獨立,符合方差分析要求。通過統計數據,進行方差分析,可以得到影響故障的主要因素,繼而對其進行評價。方差分析可以利用到石油管道故障,自動化儀表故障的主要因素分析中去。
2.頻率分析
石油化工檢測過程中,往往會發生不同類事故,多次發生,我們可以統計這些數據的頻率,通過頻率分析,進行參數估計,歸納其分布狀態,可以看出其是否在置問之內。常用的方法為頻率分析法。頻率分析,可以檢測發生事件的集中趨勢,離散程度以及分布偏度與峰度,通過模擬分布圖,可以有效判斷事件發生的合法性概率。事件頻率分析應用較廣,可應用到成品油質量分析以及主要設備故障分析中。
3 結論
數據分析應用較廣,如今的市場上存在著許多工作原理大同小異的有關于石油化工檢測的設備,這些設備最終的目的均是為了保障石油化工的安全生產,但其實這只是石油化工檢測的冰山一隅。怎樣使正在上升的石油化工產業進行相對安全的生產,使其事故率降到最低,是石油化工產業在未來發展中,至關重要的核心問題。為了能更好的適應我國石油化工檢測的發展,我們可以針對我國石油化工產業發展的特點進行軟件開發。在其開發以及研究發展的過程中,國家應當出臺一些相應的傾斜優惠政策,這樣便會是這個新興的、充滿活力的產業迅速茁壯成長起來。
參考文獻
[1]李建,余昌斌.淺論石油化工檢驗概況[J].科學之友,2010(4).
[2]魏天飛. 展望先進的產品檢測技術——訪梅特勒-托利多產品檢測部門銷售經理John Coleman[J].中國包裝工業,2011(9).
隨著時間的推移,用電信息采集系統中存儲的數據總量會線性遞增,龐大的信息儲備在反映信息愈加全面的同時增加了信息分類和處理的難度,所以其分析和處理技術需要隨著時代的發展不斷深化。
1 用電信息采集系統數據分析
由于用電信息采集系統內的信息會隨著時間的推移而不斷增多,所以需要通過分類處理的形式對龐大的信息量進行逐層處理,這樣才可以提升系統對數據庫的處理效率,目前用電信息采集系統以時間為劃分標準,將信息分為以下三類:1類數據實時數據不具有時間序列屬性,通常只針對其更新而很少查詢,由于數據量龐大,其通常只具有15分鐘的實效,總加數據、測量點數據、終端數據是其主要形式,在存儲的過程中應根據其不同的物理對象選擇與其相應的存儲表;2類數據其主要顯示用電戶在過去一段時間內的用電信息,為預付費管理、用電情況統計等工作提供數據支持,其與1類數據不同具有時間序列屬性,而且更新少而查詢多,15分鐘至1小時,1日、一個月等都可根據實際需要作為周期,其在存儲的過程中也可以根據不同的物理對象,選擇不同的存儲表;3類數據包括參數丟失或變更、回路異常、電能表顯示出現偏差等情況,由于其不同時間的發生頻率、使用方式等都存在差異,所以在存儲的過程中應單獨分表,將用電信息按照屬性進行劃分極大地提升了采集系統的工作效率。
2 用電信息采集系統數據處理技術
用電信息采集系統其要同時對多種通信通道和終端進行管理,從而實現對用電戶用電信息管理、負荷及預付費控制,所以其并非單一計算機節點可獨立完成,需要以下技術輔助其實現如圖1所示。
2.1 集群技術
主要應用于系統中的核心部位,例如數據庫、數據采集等,其主要是將多個獨立但都處于高速網絡中的計算機連接成一個整體,并通過單一系統對整體進行管理控制,利用集群技術可以實現大運量計算,目前主要應用的集群技術主要有主/主和主/從兩種狀態,其主要區別是當一個節點處于正常工作狀態時是否需要有另一個節點處于備用狀態,利用集群技術大幅度的提升了系統對數據的計算能力,從而提升了系統的數據處理效率及準確性。網絡負載均衡技術,在實際操作中系統要處理大量的數據,用戶等待系統反應的時間通常較長,而網絡負載均衡技術的出現實現了對大量并發訪問、數據流量合理均等的分配至多臺節點設備,從而實現多臺設備同時進行數據處理,使原本復雜的數據處理任務被合理分化,不僅縮短了處理時間,而且有效的降低了系統在處理過程中出現信道堵塞的概率,提升了系統數據處理的性能,在響應請求方面得到優化。
2.2 內存數據庫技術
是優化系統數據處理能力的重要途徑,內存數據庫技術實現了采集的信息直接在內存中存儲,從而利用內存隨機訪問的特點,在信息讀寫速度方面進行優化,使數據信息的訪問性能得到提升,此項技術在數據緩存、數據算法等方面進行了針對性的設計,使系統的信息處理速度提升十倍以上,為實時查詢提供了可能,極大地促進了后付費和預付費的融合,使系統數據處理性能得到完善。批量數據處理技術,由于在實際工作中由于系統需要對大量的數據進行分類處理,逐個信息處理的可行性非常低,需要對大批量數據進行集中處理,但在應用批量數據處理技術的同時要對數據庫的表結構、SQL語句進行優化處理并對數據庫中的數據表合理管理,例如將個體數據表的數據量限制在2GB以內,確保其訪問性能不受影響;將數據按照分類存儲于不同的磁盤,保證查詢質量;在優化SQL語句時盡量保證帶有參數等,只有數據庫性能良好,批量數據處理技術才可以應用,不然會適得其反。
2.3 SAN存儲技術
隨著系統采集數據量的增加,以服務器為中心的處理模式會嚴重影響網絡性能,從而影響系統對數據的處理效率,所以將備份和傳輸不占用局域網資源的SAN技術引入到系統處理中非常具有現實意義,其以光纖通道為途徑,使信息存儲不再受距離和容量的限制,系統的信息采集性能得到有效提升。ODI技術,在實際工作中有時需要對某一類信息進行集中處理,而系統中的數據復雜散落不易處理,所以需要將同類信息按模塊分類存儲,ODI存儲技術恰好是以模塊或儲存庫為核心而展開的應用技術,它將系統的數據庫分為一個主存儲庫和多個有關聯的工作存儲庫,數據處理人員利用ODI存儲技術可以根據實際情況制定存儲模塊或對存儲模塊內部信息進行更改,從而實現批量數據處理腳本的集中管理,使批量處理的效率大幅度提升。
3 結論
目前電力用戶用電信息采集系統不僅要實現準確、全面、及時的采集數據,而且要高效、準確的對采集的信息進行計算處理,以供相關部門的查詢和應用,所以在優化系統存儲空間的同時,要加大系統對數據處理的能力。
參考文獻
[1]朱彬若,杜衛華,李蕊.電力用戶用電信息采集系統數據分析與處理技術[J].華東電力,2011,12(10):162-166.
[2]董俐君,張芊.數據處理與智能分析技術在用電信息采集系統中的應用[J].華東電力,2013,12(27):255-256.
所謂大數據,一方面是指在一定時間內無法被常規信息技術和傳統數據庫管理軟硬件工具感知、獲取和處理的巨量數據集合;另一方面,是指形成、管理、挖掘大數據, 快速搜集、處理、分析大數據的技術和能力。
大數據的主要特點是海量、非結構化和半結構化、實時處理。大數據技術,或大數據分析技術,就是對這些數量巨大的海量數據進行搜索、整理、分析、加工,以便獲得有價值的產品和服務,以及提煉出具有深刻見解和潛在價值信息的技術和手段。
1 大數據分析在公共交通中的應用
交通擁堵日益嚴重,交通事故頻繁發生,這些都是各大城市亟待解決的問題,科學分析交通管理體系成為改善城市交通的關鍵所在。因此,高效、準確地獲取交通數據是構建合理城市交通管理體系的前提,而這一難題可以通過大數據管理得到解決。
大數據分析技術改變了傳統公共交通的路徑:大數據可以跨越行政區域的限制;大數據可以高效地整合交通信息;大數據可以較好地配置公共交通資源;大數據可以促進公共交通均衡性發展。在大數據中,隨著數據庫攝入更多數據,所消耗的計算工作量反而遞減,配置成本也隨之減小,但所做的計算則更加精準。大數據在公共交通中的應用表現在:一旦某個路段發生問題,能立刻從大數據中調出有用信息,確保交通的連貫性和持續性;另一方面,大數據具有較高預測能力,可降低誤報和漏報的概率, 可隨時針對公共交通的動態性給予實時監控。因此,在駕駛者無法預知交通擁堵的可能性時,大數據可幫助用戶預先了解。
2 大數據分析在醫藥領域中的應用
在醫學領域,我們正處在一醫學信息爆炸的時代。基因序列、各種醫學圖像、電子病歷記錄和多中心臨床藥物試驗等,使生物醫學領域跨入網絡化的大數據時代。如何從醫療大數據中提取出有用的信息是目前亟待解決的問題,構建醫療大數據系統需要將各家醫院通過互聯網連接,實現各家醫院之間的數據共享。將醫療數據存于專門的數據庫中,在信息協作平臺上將各種醫療信息分類整合,建立成一個相互共享的網絡,從而實現醫療數據信息的共享。
大數據技術的核心就是預測,使用大數據分析技術可以提高診斷疾病的準確率,對有效地治療疾病具有重要價值。其中最好地體現在傳染病預測上,因為傳染病的發生、發展、分布與地理地貌、生態景觀、人文環境有密切關系,特別在全球氣候變化和經濟全球化背景下,自然環境及人類社會活動對傳染病的影響越來越重要。因此,時間和空間信息對傳染病的預測、預警具有重要意義。利用大數據可對傳染病疫情的時間、空間信息進行多維搜索,檢索、處理和分析這些疫情信息可實現對傳染病的流行趨勢及影響范圍進行預測、預警,對提高傳染病防控的針對性、預見性和主動性,抑制流行病的蔓延,以及制定衛生決策都具有十分重要的意義。
3 大數據分析在移動通信網絡優化中的應用
當前的大數據技術面臨著數據過大和安全隱患越多這兩個問題。在移動通信網絡發展的過程中,網上用戶在不斷增加,通信網絡的范圍在不斷擴大, 而移動通信網絡所產生的數據量也在不斷上升。大數據技術和移動通信網絡的安全問題密切相關,一旦技術出現漏洞,移動通信網絡的數據就會出現安全隱患。大數據技術中存儲功能的是云儲存技術,它將大量的網絡數據放在統一的平臺之上,加大了數據丟失的風險,影響移動通信網絡的安全。
優化移動通信網絡,需要運用大數據技術的儲存功能。移動通信網絡的用戶在不斷變化,每天都要更新大量的數據,而且這些數據都需要進行妥善管理和保存。在這一過程中,可以應用大數據技術的存儲功能, 將存儲虛擬化作為解決存儲問題的有效策略。
優化移動通信網絡,需要獲取相關的數據信息。移動通信網絡的用戶非常多,而且其所跨越的時間、空間維度都很大,這些用戶在移動通信網絡留下的海量的數據信息,使數據獲取工作難以繼續。在進行數據的獲取和收集工作時,移動通信網絡可以應用大數據技術,減少人力和物力的投入,同時增加數據的準確度。
4 結語
本文是大數據技術在實際生活領域的應用,分別闡述了大數據分析技術在公共交通、醫藥領域、移動通信網絡優化中的具體運用。借助大數據技術的即時性、準確性和預測性,將其應用到人們的日常生活領域,提高了人們的生活質量。
參考文獻
[1]陳美.大數據在公共交通中的應用[J]. 圖書與情報,2012(06):22-28.
[2]張春麗,成.大數據分析技術及其在醫藥領域中的應用[J].標記免疫分析與臨床,2016(03):327-333.
[3]汪敏,廖名揚.大數據分析在移動通信網絡優化中的應用研究[J].通訊世界,2017(02):123.
[4]祝興平.大數據分析技術及其在數字出版中的應用[J].出版發行研究,2014(04):13-16.
[5]程學旗,靳小龍,王元卓,郭嘉豐,張鐵贏,李國杰.大數據系統和分析技術綜述[J]. 軟件學報,2014(09):1889-1908.
作者簡介
中圖分類號:TM76 文獻標識碼:A 文章編號:1007-9416(2017)02-0117-01
1 云計算在大數據分析技術探究
1.1 SQL語句
云計算系統的使用中,主要應用SQL語句對電力系統中的信息資源進行存儲,例如:電力供應系統中檢測電力輸送系統中,電流應用總量,電流輸送區域的大小[1],電力時速送管理人員為了達到電力供應的合理性分配,應用云計算進行電流輸送的系統化分配,云計算系統結合計算機應用系統的相關數據,實現電力系統的資源供應與電力資源區域性分配快速處理,從而到達電力供應系統的資源供應的數據信息處理結構科學性的劃分。此外,SQL語句執行電力系統的大數據信息時系統主要采用相對完善的SQL系統化程序,避免系統數據的應用信息安全,避免應用信息在使用受到外界病毒的直接入,實現了電力系統信息資源處理的安全性、系統性、科學性發展。
1.2 分層次處理技術
云計算系統的應用,采用分層次處理技術對計算機處理系統進行系統處理,實現電力系統中建立的電力信息收集、電力信息存儲、電力數據應用的結構化管理,依據電力供應中大數據管理系統進行系統分支化管理,從而達到電力系統資源在電力供應各個系統之間相互聯系,又相互對立,云計算強大的SQL系統可以實現電力系統的大數據同一時間內的分析計算。大大提高了電力供應系統的數據處理速率,同時也保障我國電力系統數據處理的層次化管理[2]。
1.3 數據處理檢測技術
云計算在電力系統大數據處理技術中的應用,采用算機數據處理檢測技術,云計算系統中計算機應用處理技術采用計算機自動化處理系統,系統內部能夠依據電力系統的處理信息,形成SQL系統語句檢測系統,完善計算機自動化處理空間,使電力供應系統的數據處理結構可以得到應用系統的數據應用保障,實現我國電力管理系統的進一步智能化發展。
2 從云計算的優勢分析應用
2.1 處理速率快
云計算是現代計算機系統逐步開發的重要體現。云計算系統的運行以計算機內部數據處理系統為基礎,同時結合虛擬數據挖掘,進行計算機系統的進一步完善,虛擬空間的綜合性應用,實現了云計算在電力大數據信息處理中,云計算的系統計算處理速率快,云計算的實現避免了傳統計算機大數據的整體性計算,而是采用計算機系統中SQL語句[3],保障計算機系統運行中,將整體化大數據分割成不同層次數據,從而實現系統數據的綜合性運行,大大提高了計算機系統運行的計算縮率。
2.2 兼容性強
云計算在電力供應中的應用,實現了電力系統供應中大數據處理技術的兼容性提高,云計算的計算方式主要應用分布式處理系統對大數據信息進行控制,從而可以實現多種電力處理系統的信息管理資源在整體應用中的綜合性探索[4],例如:當電力大數據分析系統中的輸送電力系統的信息資源在初期存儲中受到嚴重的損壞,無法對后期的電力系統信息處理提供完善的信息資源,云計算能夠通過語句處理,實現對電力供應系統的大數據分析系統進行調節與控制,系統中也可以將電力系統中,多種電力輸送系統的資源形式在同一種電力大數據處理系統中進行調節控制,完善不同的信息資源處理。由此可見,云計算在電力大數據處理系統中的應用,為提高電力系統的信息應用范圍額進一步完善提供新的技術支持。
2.3 數據存儲空間性大
云計算技術電力系統大數據處理中的應用,擁有數據存儲空間性大的特點。電力資源作為社會發展的主要動力之一,在社會中的應用范圍得到進一步提高,較大的電力資源容量為電力系統建設的進一步完善帶來問題。云計算采用虛擬空間存儲技術,數據計算的存儲空間也主要應用虛擬空間,為電力系統的大數據處理系統的綜合性應用提供了較大的存儲空間,能夠保障逐步擴大的電力系統中大數據處理的完整性[5]。
3 結語
云計算系統是現代計算機系統的主要分支,云計算中應用SQL系統,分層次處理系統以及數據智能化檢測系統實現了系統資源的綜合性應用,對云計算在電力大數據分析技術的探究,實現了電力系統的信息管理結構逐步完善,為我國電力管理系統的進一步發展提供技術支持。
參考文獻
[1]彭小圣,鄧迪元,程時杰,文勁宇,李朝暉,牛林.面向智能電網應用的電力大數據關鍵技術[J/OL].中國電機工程學報,2015(03).
[2]吳凱峰,劉萬濤,李彥虎,蘇伊鵬,肖政,裴旭斌,虎嵩林.基于云計算的電力大數據分析技術與應用[J].中國電力,2015,02:111-116+127.
中圖分類號:TP393 文獻標識碼:A
1 引言
在信息時代,信息技術的快速發展對社會各個領域都產生了一定的影響,在電子商務中反映尤為突出。對于學校教務系統的應用相對較晚,但教務數據對學校而言,是最基本的數據,這些數據的保留是學校運作的根本。對教務數據的分析也是對學校教學效果的評定,能夠從龐大的教務數據中挖掘出更潛在的信息,既是對學校運行狀況的更深入了解,又有利于學校對未來發展方向的決策。
2 教務管理狀況分析
教務管理不僅是處理學校的日常事務,它更重要的作用體現在可以反映學校的教學效果和分析學校培養方向的正確性,并以此幫助學校向更好的方向發展。教務數據分析的處理到目前為止經歷了人工和計算機處理的兩大階段。
2.1 人工處理階段
為了反映較大范圍教務情況的整體特征,教務部門通常要付出龐大的人力和物力收集和分析大量數據。這個數據的收集通常要經歷一個較長的時間,間隔一段時間還必須重復執行。比如開課計劃、學生成績、教室使用情況等。然而,分析收集來的海量數據更是教務部門頭疼的一件事。
還沒有出現計算機前,光靠人工來處理數據有時還會面臨這樣的窘境:上一期的數據結果還沒分析出來,下一期的數據收集又要開始了,因此整個數據收集和分析工作變得沒有任何意義。另外,有些數據需要間隔一段時間重新收集,然后進行短期和長期的分析數據。比如成績分析,若按照4年制本科為一個分析周期。首先,每學期教務部門要進行一次短期成績分析。其次每學年教務部門就需對即將畢業的本科前4年的所有成績做一次中長期成績分析。然而,如果學校還需了解長期以來各級學生的學習情況,則還必須知道近10年、20年、50年甚至更長時間的成績發展趨勢,那么光靠人工去翻閱以前的數據就是件很困難的工作了。所以人工處理數據階段,有許多教務數據分析工作受到很大限制。
2.2 計算機處理階段
自計算機出現后,許多領域的工作發生了翻天覆地的變化,教務管理同樣也不會忽略如此有效的技術手段。20世紀80年代以來,我國一直關注信息化在各領域的應用,教務管理信息化的發展大致經歷了以下三個階段:面向數據處理的第一代教務管理、面向信息處理的第二代教務管理、面向知識處理的第三代教務管理。在前兩個階段中,許多教務工作確實提高了效率,但是教務海量數據中隱含的價值仍不能被有效發掘與利用。正如在一大座金山中,獲取更有價值的黃金還需更細致更有效的清理和挖掘。
雖然在前些年,學校各級部門具備了一定的信息化基礎設施,為構建信息化教務系統奠定了基礎。但是,由于缺乏統一的規劃,學校各子系統或多或少存在“信息孤島”的問題,也沒有有效的方法從海量數據資源中快速挖掘更有價值的知識信息。因此,耗費成本收集的數據沒有利用就被棄置了,教務數據分析僅停留在表面。
由于信息技術的發展,信息化時代逐漸進入第三展中,即有效應用數據倉庫和數據挖掘技術挖掘知識。
3 DW和DM技術
數據倉庫(DataWare,即DW)是指一個面向主題的、集成的、非易失的且隨時間變化的數據集合,用來支持管理人員的決策[1]。當大量的數據被整合在一起后,從用戶分析角度來看,使用這些數據的手段是多方面和多層次的。面向知識處理的教務系統應能夠自動剔除掉不需要的數據,按照用戶的要求整合雜亂的數據資源,獲取某些可用的屬性。而且,學校的決策通常是經過觀察長期發展的狀況而制定的。其間,需要分析5年、10年,甚至幾十年的大量相關數據資源。因此,教務數據需要被長期且穩定的存儲。在日常收集數據和整理數據時,利用數據倉庫的思想來進行,有利于我們充分發揮數據挖掘技術進行知識的挖掘。
數據挖掘(Data Mining,即DM)是指從大量的數據中,抽取出潛在的、有價值的知識(模型或規則)的過程。數據挖掘就是從大量數據中提取或“挖掘”知識。
首先,我們要確定數據挖掘的對象有哪些。數據資源可以從多方面獲得,如系統分析設計人員向不同范圍的業務對象調研獲得,或反之業務對象主動向系統設分析設計人員提出;在互聯網時代,從網絡中獲得數據資源更快更多了。
其次,要有效地應用數據挖掘技術,就要遵循科學的應用流程。一般的挖掘流程是:(1)確定挖掘對象;(2)數據準備;(3)數據挖掘,即模式提取;(4)結果分析,即模式評估。[2]
數據挖掘功能用于指定數據挖掘任務中要找的模式類型。數據挖掘任務一般可以分為兩類:描述和預測。描述性挖掘任務刻畫數據庫中數據的一般特性。預測性挖掘任務在當前數據上進行推斷,以進行預測。數據挖掘系統要能夠挖掘多種類型的模式,以適應不同的用戶需求或不同的應用。數據挖掘功能以及它們可以發現的模式類型包括:class/concept description、Association analysis、Classification and prediction、Clustering、Outlier analysis等。
4 建立面向知識處理的教務數據分析系統
按照上述數據挖掘的基本流程,以教務系統中成績分析為例介紹如何讓教務系統實現面向知識的處理。
4.1 構建教務系統的數據倉庫
這部分主要分為四個任務:確定教務系統中的數據源;Web數據的預處理;多維Web數據模式的建立;應用OLAP技術。
4.1.1確定教務系統中的數據源
教務系統的數據主要從兩個方面獲得:
(1)各學院開課計劃、學校學計劃;
(2)教師提交的各門課程的成績。
第一方面的數據主要由學校、各學院按照培養計劃每學期提交,包括各專業班級的課程安排、授課教師、課時、學分等。這部分數據主要以Excel表格形式提交,教務部門對這部分的數據收集與存儲大部分停留在文檔形式。
第二方面的數據主要在學期末由授課教師分專業班級和課程提交。目前,這部分的數據收集有的以紙質文檔形式收集,有的以Excel文檔形式收集,也有的實現了數據庫收集存儲。
在進行數據挖掘之前,首先要將這兩方面的數據完全實現數據庫收集與存儲。隨著教務數據與日俱增,還需使用數據倉庫來管理這些數據。
目前,有許多學校實現了在線登錄成績的信息化。那么如何對龐大的Web數據建立數據倉庫呢?
4.1.2 Web數據的預處理
通過Web收集的數據稱之為原始數據,管理員可根據需要用某些字段記錄相關數據。如:專業班級名稱,教師登錄名,課程名稱,成績比例,分數,提交時間等。對Web數據的預處理包括兩步。第一步:清除噪音,即去掉對知識挖掘無關的數據。第二步:轉化數據,即將原始數據按照挖掘需求,通過重新組織或簡單計算轉換成規范模式。
4.1.3多維Web數據模式的建立
分為三步進行。第一步,選取維。多維數據便于我們從多個角度、多個側面對數據庫中的數據進行觀察、分析,以深入了解包含在數據中的信息和內涵。N維數據矩陣用C(A1, A2, . .., Am ,count)模式表示,其中Ai代表第i維,i=1,2,...,n, count是變量,反映數據的實際意義。
數據單元用r[A1:a1,...,An:an,count]模式表示,即為維Ai選定一個維成員ai,i=l,…,n,這些維成員的組合唯一確定了變量count的一個值。通常,需要了解成績的分布情況,可以選取專業班級維、時間維、課程維構建數據矩陣,以形成多維視圖。
第二步,構造多維視圖。先選取Date維(按學期組織)、Class維(按專業班級組織)用二維形式表示每個專業班級各學期的成績狀況。然后加入第三維Course維(按課程組織),進一步構建成績分布的三維視圖。視圖顯示的事實是Course_Class_Analyse(課程專業學習情況)。
第三步,創建多維數據模式。最流行的數據倉庫數據模型是多維數據模型。最常見的模型范例是星型模式。
4.1.4應用OLAP技術
OLAP,即在線聯機處理。應用OLAP技術可以很方便地從Web數據矩陣中作出一些簡單的結論性分析,如回答一些問題:(1)哪些專業班級學習情況較好,哪些較差?(2)哪些專業課程成績較高,哪些較低?我們可以充分利用多維數據模型上的OLAP操作,如下鉆(drill-down)、上卷(roll-up)、切片分析(slice)和切塊分析(dice)等技術對問題進行求解。
4.2 挖掘模式的有效應用
應用數據挖掘技術可以自動發現學生學習傾向和專業發展趨勢。
4.2.1數據挖掘技術應用的范圍
雖然現在已有很多學校都建立了自己的教務管理網站,但教職工與學生僅僅只在Web上進行成績的登錄和查詢。這樣的教務網站只是提供了收集數據的快捷途徑,并沒有從根本上體現本身應有的應用價值。教務系統希望能夠從其門戶網站中收集大量原始數據,并依此發掘更深入的服務信息。同時,學校高層也希望能從教務系統中發現學生的學習情況,課程計劃的實施效果等。這些都需要從海量的教務數據中應用特定的挖掘模型反映出來。基于此,對于下一次培養計劃的修訂才有現實的數據支撐。
4.2.2應用挖掘模式提取和分析知識
根據不同的應用要求,在數據挖掘模式中選擇合適的方法進行計算,提取有效數據,得出知識。對于教務系統而言,可以應用聚類方法確定特定不同成效的學生與課程的分布,從而識別出一些問題:
(1) 對于某個專業班級,哪些課程學習效果較好;
(2) 對于學習效果較好的課程,是因為教學效果好,還是開課計劃恰當;
(3) 對比同一門課的不同專業班級,以輔助各學院分析培養計劃的適應性。
5 結束語
關于DW and DW 技術對教務數據分析的應用,還有許多值得繼續深入研究。但是,不論從哪個方向進行研究,都必須要以提高教務處理能力為宗旨,讓教務資源發揮最大的輔助決策價值。
參考文獻:
[1] Colin White. Data Warehousing: Cleaning and Transforming Data [M], InfoDB, 2002.
本文討論了一些站點分析的相關技術信息和幾種網站分析瀏覽者行為的理論與算法,及數據倉庫的相關理論知識。并對站點日志數據進行了實例分析,并指出了站點分析技術發展的方向。
一、緒論
互聯網技術不斷革新與發展,給全球經濟帶來新的革命,從而也影響著人們的生活。互聯網為企業提供了一種真正屬于自己并面對廣大網民的信息載體,企業通過這一載體,可以自由地將企業的產品、服務等其他相關信息在線。
電子商務就是網上實行各種商務活動的總包裝,種種所謂電子商務解決方案,實際上就是實現各種網上商務活動的硬件與軟件系統。它將影響到每一個人、每一個企業。電子商務的主體是我們每一個人、每一個企業,電子商務發展的過程就是對人們的生活、企業的運行的一種模式的一個巨大改變的過程。對于進入虛擬世界的商家而言,僅僅吸引注意力還不行,對它們而言,站點的訪問率絕對不僅僅是一個數字,它還是一種信息,如果網站能夠從網絡中獲得網民的信息并從中分析其行為誘因,那么就容易掌握網民的需求,從而利用互聯網去創造更多商機。
電子商務站點用戶行為的分析這一問題也因此成為現如今的熱門話題,被人們普遍關心起來,尤其是被眾商家所重視。Web站點的日志數據正以每天數十兆的速度增長。如何分析這些數據,如何從這些大量數據中發現有用的、重要的知識(包括模式、規則、可視化結構等)也成為現在人們最關注的信息。
在此情況下,站點用戶行為分析就可為網站或商家提供出大量有價值的信息,包括站點的受歡迎度的對比、商業廣告點擊情況總括、產品的反饋信息、站點各種信息的點擊情況等等。另外,還可根據不同的頁面內容來分類瀏覽者,以便做出更合理的頁面分類,促使網站逐步向個性化、最優化狀態發展。這一技術對互聯網的發展壯大有著不可忽視的巨大作用,它的發展對信息技術亦將產生深遠的影響。
在電子商務早期階段時,Web站點數據流分析通常是在主頁上安裝計數器以及在一個外部日志文件上運行簡單的統計程序記錄點擊率。但是,簡單的點擊計數既不準確也遠未達到營銷目的所需的詳細程度。因此,各公司開始尋找更先進的分析工具,這類工具可以提供誰在訪問公司Web站點以及訪問者一旦進入站點后將做些什么的全面信息。站點開始分析的地方是Web服務器的訪問日志。每當用戶在站點上請求一個網頁時,這個請求就被記錄在訪問日志中。如:目前有多少用戶正在訪問站點、他們正在看哪些網頁以及他們在站點中呆了多長時間。顯然,日志分析和行為概況的正確組合可以對Web站點的成功產生直接影響。此外,從日志分析中得到的信息是很難從真實世界中捕獲到的,但這些信息卻可以較容易地在線收集到。Web數據流分析工具的這些最新進展可以使網站獲得有關上網客戶和他們習慣的詳細報告。
二、站點信息統計方法
Web頁面數據主要是半結構化數據,計算機網絡技術和信息技術的飛速發展,使得半結構化數據呈現日益繁榮的趨勢。半結構化數據,是一種介于模式固定的結構化數據,和完全沒有模式的無序數據之間,在查詢前無法預先確定其具體的類型和格式;同時它們相應的數據結構是不固定、不完全或不規則的,即這些數據有的本身就沒有結構,有的只有十分松散的結構,有的數據的結構是隱含的,需要從數據中進行抽取。而有時,盡管數據本身是有精確結構的,但為了一定的目的,而故意忽視它的結構。半結構化數據具有以下五方面的
主要特點:
1.結構是不規則的。包含異構數據、相同的數據信息用不同類型或不同的結構表示。
2.結構是隱含的。如電子文檔SGML格式。
3.結構是部分的,有時部分數據根本無結構,而部分數據只有粗略的結構。
4.指示性結構與約束性結構。傳統的數據庫使用嚴格的分類策略來保護數據。而指示性數據結構是對結構的一種非精確的描述。它可接受所有新數據,代價是要頻繁修改結構。
5.半結構化數據通常在數據存在之后才能通過當前數據歸納出其結構,稱之為事后模式引導。模式有時可被忽略,同時數據與數據模式間的區別逐漸消除。
三、數據分析的方法
Web頁面的數據通常是利用統計模型和數學模型來分析的。使用的模型有線性分析和非線性分析;連續回歸分析和邏輯回歸分析;單變量和多變量分析以及時間序列分析等。這些統計分析工具能提供可視化功能和分析功能來尋找數據間關系、構造模型來分析、解釋數據。并通過交互式過程和迭代過程用來求精模型,最終開發出最具適應性的模型來將數據轉化為有價值的信息。
知識發現是從數據倉庫的大量數據中篩取信息,尋找經常出現的模式,檢查趨勢并發掘實施。它是分析Web頁面數據的重要方法。知識發現與模式識別的算法有以下幾種:
1.依賴性分析
依賴性分析算法搜索數據倉庫的條目和對象,從中尋找重復出現概率很高的模式。它展示了數據間未知的依賴關系。利用依賴性分析算法可以從某一數據對象的信息來推斷另一數據對象的信息。例如:在雜貨店中,一堆椒鹽餅干放在陳列飲料的走道上,這是因為經過依賴性分析,商店認為:很大一部分買飲料的顧客如果在取飲料的路上看到椒鹽餅干的話就會購買,因而此種分析影響了商店布局。
2.聚類和分類
在某些情況下,無法界定要分析的數據類,用聚類算法發現一些不知道的數據類或懷疑的數據類。聚類的過程是以某一特定時間為依據,找出一個共享一些公共類別的群體,它稱為無監督學習。分類過程,這是發現一些規定某些商品或時間是否屬于某一特定數據子集的規則。這些數據類很少在關系數據庫中進行定義,因而規范的數據模型中沒有它們的位置。最典型的例子是信用卡核準過程,可確定能否按商品價格和其它標準把某一購買者歸入可接受的那一類中。分類又稱為有監督學習。
3.神經網絡
神經網絡通過學習待分析數據中的模式來構造模型。它對隱式類型進行分類。圖像分析是神經網絡最成功的應用之一。神經網絡用于模型化非線性的、復雜的或噪聲高的數據。一般神經模型由三個層次組成:數據倉庫數據輸入、中間層(各種神經元)和輸出。它通常用恰當的數據庫示例來訓練和學習、校正預測的模型,提高預測結果的準確性。
4.數據挖掘中的關聯規則
關聯規則是數據挖掘的一個重要內容,通常關聯規則反映的是數據間的定性關聯關系。如一個商品交易數據庫,一條記錄表示用戶一次購買的商品種類,每個屬性(A、B……)代表一種商品,每個屬性都是布爾類型的。一條關聯規則的例子是:{A、B}{D}[2%][60%],規則的含義是“如果用戶購買商品A和B,那么也可能購買商品D,因為同時購買商品A、B和D的交易記錄占總交易數的2%而購買A和B的交易中,有60%的交易也包含D”。規則中60%是規則的信任度,2%是規則的支持度。數據挖掘就是要發現所有滿足用戶定義的最小信任度和支持度閥值限制的關聯規則。數據只是定性地描述一個交易是否包含某商品,而對交易量沒有定量描述,這種布爾類型數據間的關聯規則被稱為定性關聯規則。但數據記錄的屬性往往是數值型或字符型的,這些數據間也存在對決策有幫助的關聯規則,相對于定性關聯規則,這些規則被稱為定量關聯規則。
另外,數據挖掘目前仍面臨著數據質量的問題。由于數據倉庫中的數據來自多個數據源,而在合并中存在很多障礙,如:沒有建立合并視圖所需的公共關鍵字;數據值相互抵觸;元數據的說明不完備或丟失;數據值的不潔凈等等。數據挖掘是在標準化的數據基礎上進行的,因而這些都會嚴重破壞數據的準確性,導致最終決策的失誤。所有這些問題都在等待著人們去發掘更好的解決方法。
參考資料
1.周斌,吳泉源,高洪奎:“用戶訪問模式數據挖掘的模型與算法研究”,《計算機研究與發展》,1999 vol.36 No.7 P.870-875;
2.Srikant R,Vu W,Agrawal R.Mining association rules with itemconstrains.IBM Almaden Research Center,Tech Rep:97.056,1997;
3.Park J S,Chen M,Yu P S.Aneffective hash based algorithm for miningassociation ru1es.In:ACM InternationalConference on Management of Data,Caliform,1995;
中圖分類號:TP274文獻標識碼:A 文章編號:1009-3044(2009)36-10604-02
The Implement of Financial Data Analysis Module Base on SSAS Technology
HE Ying-gang, CHEN Jian-xiong
(Chengyi College, Jimei University, Xiamen 361021, China)
Abstract: Introduces a sample of design method to develop financial data analysis module by using the Data Mining technology. This sample use Microsoft SQL Server Analysis Services technology for analysis and forecasting. In practice, the operation of this module can improve the work efficiency offinancial analysts.
Key words: data mining; financial data analysis; analysis services
目前許多金融交易系統都為用戶提供了技術指標的編寫工具。在編寫指標計算公式時,往往有各種參數需要用戶進行選擇和設置,合理的參數組合所得出的結果可以使得用戶作出正確判斷,但是這類金融系統中并未提供最佳參數搜索功能,這使得用戶需要耗費許多時間對分析驗證參數。隨著數據挖掘技術的成熟和發展,為這類問題的解決提供了解決方法和途徑。
由于許多金融公司都有使用Microsoft SQL Server系列數據庫系統作為內部系統的數據庫平臺,而微軟公司提供的Microsoft SQL Server 2005 Analysis Services (SSAS) 通過服務器和客戶端技術的組合為客戶提供聯機分析處理 (OLAP) 和數據挖掘功能。這使得我們可以在不改變現有數據庫系統的前提下,在原有的公司業務系統的基礎上開發數據挖掘分析模塊。基于SSAS本文提出了一種實現金融數據分析模塊的解決方案。
1 金融數據分析模塊的數據挖掘功能的設計
1.1 功能設計
金融數據分析模塊主要應用于對指標參數的搜索,尋找最合適的指標參數值。所以系統應具有的功能有:1)根據用戶的需要,提供指標公式設計和參數設置;2)提供靈活直觀的圖形顯示;3)用戶能夠指定數據挖掘算法的參數值,并查看數據挖掘生成的規則。
1.2 結構設計
數據分析模塊的設計采用了三層體系結構,分別為:1)數據訪問層,實現對金融日志數據的采集、清理和轉換;2)數據挖掘業務層;3)分析結果表示層,表示層把各種參數組合所對應的數據挖掘分析結果以圖形化或表格化的方式展現出來,方便用戶能夠對比各種參數組合的優劣。為了避免對數據庫系統性能造成影響,模塊使用獨立的數據倉庫系統。開發框架如圖1所示。
2 金融數據分析模塊的數據挖掘功能模塊的實現和關鍵技術
指標公式參數的求解是一類系統優化問題。遺傳算法是一種求最優解或近似最優解的全局優化搜索算法。使用遺傳算法比傳統的枚舉算法和啟發式算法具有諸多優點,例如:搜索使用評價函數啟發,過程簡單;搜索從群體出發,具有并行性;與問題領域無關的快速隨機搜索能力等等。由于SSAS所提供的數據挖掘算法中沒有包含遺傳算法,所以為了實現最優參數搜索,必須在數據挖掘模塊中加入遺傳算法。本文將指標計算公式的參數作為染色體基因,一種參數組合作為一個個體。然后根據個體基因數據生成指標值,并對指標值進行數據挖掘和預測,對預測結果的準確性進行評分,預測效果最好的參數組合將作為最佳選擇提供給用戶。遺傳算法實現可以參考有關文獻。本文所設計的主要處理流程如圖2所示。
在圖2流程中使用SSAS對每一種參數組合計算生成的指標數據進行數據挖掘分析和預測。SSAS是基于數據挖掘模型進行處理的,數據挖掘模型是一個數據結構,包含了數據關系、多維數據的分組和預測分析、數據挖掘算法等。用SSAS進行數據挖掘過程分為三個步驟:創建挖掘模型、訓練挖掘模型和利用挖掘模型生成的規則進行預測。
2.1 創建數據挖掘模型
開發人員可以利用Visual Studio 2005內置Analysis Services項目模板快速創建數據挖掘模型,也可以利用DMX數據挖掘查詢語言創建和處理數據挖掘模型。下面是一個利用關聯規則算法建立的外匯利潤預測分析的挖掘模型的例子。選擇交易時間做為主鍵,該字段用來唯一表示某時間段內外匯交易價格。
CREATE MINING MODEL DM (
Ftime Date KEY,
KvalueDoublediscrete,
DvalueDoublediscrete,
…….
ProfitLeveldiscrete PREDICT)
USING Microsoft_Association_Rules (Minimum_Probability = 0.3, MINIMUM_SUPPORT = 0.05)
2.2 訓練挖掘模型
SSAS將挖掘模型保存在數據庫服務器端,然后訓練挖掘模型生成數據挖掘規則。AMO(Analysis Management Object)是微軟提供給開發人員使用的管理SSAS的主要接口,開發人員可以使用AMO創建、管理和處理挖掘模型,立方體,分區等Analysis Services對象。以下是在戶端程序中使用AMO與Analysis Services進行數據交互,訓練挖掘模型的簡單例子。
Svr=new Server();
Svr.Connect(@”Provider=SQLNCLI.1;Data Source=SSASDM\Store;……”);
Db=svr.Databases.GetByName(“DM”); //獲取數據挖掘模型對象
Db.Process(ProcessType.ProcessFull); //調用訓練和處理挖掘模型
Svr.Disconnect();
2.3 預測
挖掘模型訓練完后,SSAS生成挖掘規則并可以用來進行預測。本文算法流程中將指標數據預留一部分用于預測,然后使用SSAS提供的SQL擴展語言,實現預測任務。以下是一個客端程序的預測連接例子:
AdomdConnectionConn=new AdomdConnection(……);
AdomdClient.AdomdConnand Comm=Conn.CreateCommand();
AdomdDataReader reader;
mandText=String.Format(@”Select Predict( [profit Level] ) , PredictProbability( [Profit Level] ) From IndexData NATURAL PREDICTON JOIN (Select {0} as [Kvalue],{1} as [Dvalue],… as t”,R1,R2,…);
//構建數據挖掘預測語句
Reader=Comm.ExecuteReader();
上述第四行程序語句涉及數據挖掘模型和數據測試表,使用一個實例集進行預測,返回預測結果數據表格。
3 總結
該文分析了一種金融數據分析模塊的設計方法和實現,該模塊可以被重復開發和利用。若用戶自定義新的指標計算公式,只需要修改數據挖掘模型和預測連接語句即可運行。在實際應用中,該系統模塊的原型證明能夠幫助金融分析員提高工作效率。
參考文獻:
[1] Zhao Huitang.Data Mining with SQL server 2005[M].Wiley Publishing,Inc.2007.