時間:2022-05-21 10:59:00
導言:作為寫作愛好者,不可錯過為您精心挑選的1篇大數據分析畢業論文,它們將為您的寫作提供全新的視角,我們衷心期待您的閱讀,并希望這些內容能為您提供靈感和參考。
現代社會中,大數據來源豐富,使得交通、醫療衛生、教育、安全等都發生了變化,而在智慧城體系中,監控視頻是體量最大的大數據。基于此,我主要分享媒體大數據的三個挑戰問題。第一,存不下,24小時產生的數據量積累得很大。第二,看不清,用眼睛看,橫看豎看,還是看不清楚,可能有時候都要猜來猜去,還需要很有經驗的人才能看出來大概。為什么?存的時候做了壓縮,壓縮時不知將來作何用,為了節省存儲量,壓得太狠了,再把它解開時基本看不清。第三,找不到。現在攝像頭到處都是,攝像頭拍到了,但是不是想要找的?不知道,即使看清楚了,一跨攝像頭也就找不到了。所以攝像機網絡跨攝像頭搜索問題也是個難題。
超高效視頻編碼
解決壓縮問題
第一個挑戰,我們想辦法找到最高效的編碼來應對這個挑戰。視頻流是圖像序列,在每個單獨的圖像里是有冗余的,通常叫“空間冗余”。相鄰的像素或圖像塊會有一些相關性,這些相關性即是“冗余”,這種冗余可以通過濾波器的算法進行估算。如果參數對了,就可以用它去做預測,繼而找到一些更簡潔的表達方式,不需要那么多比特就可以壓縮了,這就是空間冗余。其次是“時間冗余”,即一個圖像序列,第一幀和第二幀有很多是連續的,背景幾乎是一樣的,它有很多東西是重復的,這個重復的就是冗余,我們管它叫“時間冗余”。第三種是“感知冗余”,行業里的人把它叫“編碼冗余”。比如26個字母要怎么表達?給出8個bit或7bit,每個字母給的bit是一樣的,學計算機的人都知道這種分法是不科學的,應該怎么分?按照它的信息熵來分,圖像也是一樣,每個像素表達的亮度、顏色在每類里分布不均勻,最好把出現概率高的那些單體給它比較短的碼,把出現概率低的給長碼,統計上面就會比較合理,對此我們稱之為“熵編碼”。如果這三種用好了,就有辦法把圖像或視頻完美地壓縮下去。
現在圖像壓縮實際達到的現狀和理論有很大差別,但同時空間也很大。到現在為止,編碼技術離理論上限大概還有百分之八九十的空間可以改進,因為在數學上我們很容易證明理論上限,若干個上限中可以取最低的上限,就很容易計算出有多大空間可以繼續改進。這就是為什么視頻編碼領域這些年還在不停地發展,并且,每十年編碼效率就會提高1倍。
在這樣每十年翻一番的情況下,算法變得更復雜了,計算的復雜度換取了編碼的效率。當然,這里有很多新的算法,以前因為硬件比較貴,不能讓編碼的器件成本太高,所以有些算法還行,只要算法太復雜就基本不用。現在不在乎這個,因為集成電路發展以后,算法愈來愈多,編碼放進去后視頻效果會越來越好。針對監控視頻我們會有更好的方法,使它的效率更高。
從編碼的角度,去空間冗余、去時間冗余和去編碼冗余這三種技術可以把視頻流里的冗余去掉,這三種技術包含了許多算法,有變換、濾波、運動補償、熵編碼等。去空間冗余最主要的工具是變化,把時域變到頻域上再進行處理,對于空間的冗余主要是采用預測編碼的方式去除,對于感知主要是通過熵編碼去除。
面向對象檢測、跟蹤與識別解決模式識別問題
第二個挑戰,對象檢測、跟蹤識別挑戰。模式識別率再高、人臉識別再準,識別的準和不準取決于算法的好壞,還取決于在編碼那端能不能提供支持。以往這兩個系統像軌道一樣完全平行,我們希望編碼和識別能合作,把中間那堵墻翻過去或者拆掉。怎么拆掉?編碼時要考慮怎么辦。現在我們提出個支持是ROI(Region of Internet),就是編碼時識別出來哪個區域可能是識別要用的區域,把這個區域定義成感興趣區域,對于感興趣區域要描繪出來,現在語法里對感興趣區域有專門的描述,除了這個區域以外還包括其他的,比如GPS信息、攝像機參數信息。有了這個以后,在后面編碼時,會針對編碼參數進行調整,ROI區域壓得輕一點,這樣關鍵的信息丟失的會少一點。
有了這樣的知識,可以用它架構友好的智能監控識別體系。現在即使有個算法很好,比如266,它編碼的效率和AVS2是一樣的,我說那也不行,為什么?因為你壓完以后還有解,解的時候才知道哪個地方是可識別的。現在壓的時候就知道哪個東西有用,哪個東西沒有用,有用的可以壓得輕一點,這樣構建分析架構,底層是完全的視頻流,視頻流上面可以構架一個區域描述,不是有ROI么,這個“R”就是Region,根據區域描述,若干的區域構成個對象,它們的關聯就可以構成事件,只要處理能力足夠強,我就把這個東西表述出來了,這對識別非常有用。
以大規模視覺搜索
解決跨攝像頭搜索問題
第三個挑戰,跨攝像頭怎么辦?我們可以對跨攝像頭的數據進行矯正,然后再進行一些后續的工作。這方面有很多工作已經開始做了,比如我們試驗室學生搭了一個系統,你在北大校園的一個地方走,其他幾個框是別的幾個攝像頭,從一個攝像頭跨到另外一個攝像頭的時候,現在有一個專門技術是再認證,一個人在一個攝像頭里出現過,當他出現在第二個攝像頭的時候,就可以被識別出來。因為有時候可能不是正臉,靠人臉識別已經不管用了,就要靠顏色、身體、步態、外形等綜合識別。
要做好這個系統有一個重要的技術是能做到大規模的搜索。大規模的搜索這一塊我們組有個很好的工作叫CDVS,它可以用很少的特征去搜索你要的東西,比如我用手機拍一張照片或者拍一個景色,拍完以后傳送到服務器,搜索后會告訴你拍的是哪里。這個過程它需要你的特征選得非常好、非常準,然后有代表性,這樣才能搜索得比較準。
可以用一組特征,這組特征我們把它命名叫“CDVS”,CD是一個緊縮的描述詞,就是面向視覺搜索的緊縮描述詞,這也是在國際標準化框架下面做的。前一段時間有個多媒體描述標準是MEPG7。
這里面的關鍵技術,一個是選擇特征點,然后是選擇特征,把這些特征進行聚合、壓縮、進行點壓縮,最后變得非常小。舉例來說有多小,比如你照了個照片,這個照片有三、四兆大的尺寸,我們從中提出來大概500個bit,連1k都不到,就可以進行搜索了,最高可以到16k,16k檢索的效率就更高,我們判斷特征好不好是用召回率來判斷,我們都希望召回率達到90%,低于90%就認為這個特征沒有選好。什么叫召回率90%?我用完整的照片到庫里搜出來的東西,和我用521個去搜,是不是有90%都在我搜的100個里面,如果是的話那你這個特征是可以的,這是一個準則。
后臺的技術會涉及到數據壓縮、計算機視覺特征提取以及機器學習和視覺挖掘。和特征、視覺有關的主要是局部描述,模式識別里有個非常好的描述詞叫“SIFT特征”,它可以保持平移不變、旋轉不變、伸縮尺度不變等。但是這個特征也有問題,一個是專利問題,另一個是耗費存儲比較大,耗費計算時間比較大。
[摘 要]大數據時代對人類的生活、工作與思維產生變革性影響,深刻改變著商業及各個領域的面貌,“大數據”日漸成為各行業創新的助推器。作為煤炭行業也同樣順應時代,跟著時代的步伐前行,那么綜采工作面又是煤炭行業發展的充分體現,更需要大量的數據分析,形成一套完整的、統一的管理系統,當前國內綜采工作面復雜,數據記錄不完善、分析不統一,對綜采工作面的采煤機、支護形式等的選擇不能達到最優化,所以綜采工作面的大數據分析尤為重要。
[關鍵詞]綜采工作面 數據分析
1.引言:本文主要從綜采工作面大數據的支撐下如何選擇綜采“三機”(三機指采煤機、刮板機、液壓支架)展開探討,綜采工作面“三機”配套不能停留在簡單的“經驗類比”上,而應開發研制綜采設備選型的大數據系統,避免在選型設計中受決策者個人偏見或感情色彩的影響。同時還要對系統中的主要環節進行動態優化設計,使其設計參數與實際運行參數得到統一。目前的綜采工作面“三機”選型設計還是以“經驗類比”為主,雖然基本上能夠滿足生產需要,但在某些環節上還存在著嚴重的不合理現象。
2.綜采工作面大數據分析影響著綜采“三機”的合理配套選擇
2.1 采煤機的機型選擇
采煤機機型選擇之前要考慮一下數據:首先考慮地質條件,主要包括綜采工作面內斷層斷距、走向、煤層傾角、煤質硬度等判斷是否具備選擇采煤機的條件,在地質條件適合綜采的情況下再考慮其他因素如采高、每月計劃產量、每刀生產能力、截深、功率、牽引方式,實際生產能力主要取決于采高、截深、牽引速度以及工作時間利用系數。采高由滾筒直徑、調高形式和搖臂擺角等決定,滾筒直徑是滾筒采煤機采高的主要調節變量,每種采煤機都有幾種滾筒直徑供選擇,滾筒直徑應滿足最大采高及臥底量的要求。截深的選取與煤層厚度、煤質軟硬、頂板巖性以及移架步距有關。截割速度是指滾筒截齒齒尖的圓周切線速度,由截割部傳動比、滾筒轉速和滾筒直徑確定,對采煤機的功率消耗、裝煤效果、煤的塊度和煤塵大小等有直接影響。牽引速度的初選是通過滾筒最大切削厚度和液壓支架移架追機速度驗算確定。牽引力是由外載荷決定的,其影響因素較多,如煤質、采高、牽引速度、工作面傾角、機身自重及導向機構的結構和摩擦系數等,沒有準確的計算公式,一般取采煤機電機功率消耗的10%~25%。滾筒采煤機電機功率常用單齒比能耗法或類比法計算,然后參照生產任務及煤層硬度等因素確定。
2.2 刮板機的選擇
在選型時要確定的刮板輸送機的參數主要包括輸送能力、電機功率和刮板鏈強度等。輸送能力要大于采煤機生產能力并有一定備用能力,輸送能力應大于采煤機的最大生產能力,一般取1.2倍;電機功率主要根據工作面傾角、鋪設長度及輸送量的大小等條件確定;刮板鏈的強度應按惡劣工況和滿載工況進行驗,要根據刮板鏈的質量情況確定鏈條數目,結合煤質硬度選擇鏈子結構型式。
2.3 液壓支架的選擇
液壓支架的選型就是要確定支架類型(支撐式、掩護式、支撐掩護式)、支護阻力(初撐力和額定工作阻力)、支護強度與底板比壓以及支架的結構參數(立柱數目、最大最小高度、頂梁和底座的尺寸及相對位置等)及閥組性能和操作方式等。此外還要考慮礦井采區工作面的煤層、頂底板及地質條件數據,依據不同類級頂板選取架型。
液壓支架具備最基本的特點是(1)要頂得住:它的初撐力和工作阻力要適應直接和老頂巖層移動所產生的壓力,使控頂區的頂板下沉量限制到最小程度;(2)要移得走:它的結構形式和支護特性要適應直接頂下部的巖層冒落特點,尤其要注意頂板在暴露后未支護下的破碎狀態,要盡量保持該處頂板的完整性,支架底座的比壓要適應底板巖石的抗壓強度,以防止底板松軟而使底板下陷不能移架。
2.4 “三機”合理配套選擇工程復雜
從采煤機、液壓支架、刮板輸送機的選型參數中看到,綜采設備的合理配套是很復雜的系統工程。滿足生產能力要求采煤機生產能力要與綜采工作面的生產任務相適應,工作面刮板輸送機的輸送能力應大于采煤機的生產能力,液壓支架的移架速度應與采煤機的牽引速度相適應,而乳化液泵站輸出壓力與流量應滿足液壓支架初撐力及其動作速度要求;滿足設備性能要求輸送機的結構形式及附件必須與采煤機的結構相匹配,如采煤機的牽引機構、行走機構、底托架及滑靴的結構,電纜及水管的拖移方法以及是否連鎖控制等。輸送機的中部槽應與液壓支架的推移千斤頂連接裝置的間距和連接結構相匹配;采煤機的采高范圍與支架的最大和最小結構尺寸相適應,而其截深應與支架推移步距相適應。如果綜采沒有大量數據的支持,“三機”的合理選擇無從下手。如下圖三機配套關系圖(見圖1)
3.綜采工作面大數據分析的意義
3.1 經濟效益方面
工作面生產前期需要決策“三機”選擇,不同的決策者往往站在自己的專業領域考慮設備,這樣在缺乏綜合數據分析下往往造成“三機”設備不配套,不僅會造成大量資金的浪費,短時間內不能滿足高產高效,又影響煤礦企業經濟效益。
3.2 安全生產方面
井下作業條件特殊,尤其是工作面,時刻都面臨著危險,如果沒有工作面大量數據分析的支持,錯誤的選擇“三機”,不能很好的配合工作,這樣很可能會造成液壓支架支撐不住頂板壓力而造成頂板事故,工作面進度跟不上可能會誘發火災、一氧化碳等事故,還有“三機”的機械故障也容易造成人員傷害等等。
小結
綜采工作面既包括包括靜態因素,井下溫度、頂板淋水、頂板松軟、底板松軟、斷層、瓦斯、煤層厚度、傾角等是靜態因素,又包括動態因素,頂板狀態隨著采煤速度、采高以及支架的狀態隨時變化,頂板的初次來壓、周期來壓,受采動影響活化上部斷層、巖層等等,大量的數據需要綜合分析,才能總結出本地區綜采工作面綜采“三機”配套設備的形式、型號及技術特征,并提出了三機配套優選方案及注意事項,而在實際生產中,即使采用相同綜采設備的不同工作面或不同礦井,其實際生產能力和全員效率可能有較大差距,如果客觀條件不具備,即使選擇生產能力很高的配套設備,也遠不能達到提高生產能力的目的。高產高效綜采工作面的三機選型應從實際出發,因地制宜,以數據分析為基礎,具備什么檔次的開采條件,就選用相應檔次的配套設備。
實際工作中如何做到選型正確、先進配套、合理的“三機”選型,大數據分析可以起到非常重要的作用,但是大數據分析工作也是一項復雜的系統工程,涉及地質學、巖石力學、采礦學、機電和機制等多門學科以及各種現場數據,這就需要我們煤炭工作人員共同努力,將工作面大數據分析應用到礦山行業,減少輔助作業環節,提高集中生產化的程度。
摘 要隨著科技的發展,公有云的需求越來越廣泛。本文對天津市教育信息化公有云及大數據分析平臺進行了設計與研究。
【關鍵詞】公有云 平臺設計 大數據
1 項目背景
1.1 公有云平臺技術背景
從部署方式來看,云計算一般分為公有云、私有云和混合云三大類。其中公有云是指運營者建設用以提供給外部非特定用戶的公共云服務平臺;私有云平臺僅為單一客戶提供服務,其數據中心軟硬件的所有權為客戶所有,能夠根據客戶的特定需求在設備采購、數據中心構建方面做定制,并滿足在合規性方面的要求。
1.2 國內發展趨勢
包括中央電教館在內的國內各大政府機構和省級政府,都在致力或傾向于將大型應用類業務向社會公有云/混合云轉移。謀求更高效率、更低成本、更及時服務和更安全環境的云平臺托管,是當今信息化系統服務的發展趨勢。尋求廣泛的服務托管、安全托管和運維托管是大勢所趨。
1.3 天津市教育數據資源中心的現狀
經過“十一五”、“十二五”兩期建設,隨著信息中心工作的不斷發展,當前數據中心的數據量比“十一五”翻了兩番,運維工作量更是翻了數番,這對數據中心運維人員的安全運維能力也提出了前所未有的高要求。目前,中心機房和工大機房的承載能力已接近飽和,結合國際和國內信息化的發展趨勢看,未來單靠單個IDC數據中心已經難以滿足未來天津市教育信息化發展需求。參照中央電教館等云平臺系統運維模式,我市教育信息化的發展迫切需要社會上有實力的企業建設的混合云解決方案,需要更加專業的團隊,協助完成“十三五”各類海量資源類系統的承載工作,進一步助力我市教育系信息化工作上一個新臺階。
2 項目目標及分項需求
2.1 項目建設目標
本方案擬建設如下混合云模式:即由天津市教委教育信息化管理中心IDC機房構建未來各類系統的核心數據庫、統一身份認證平臺和數據分析和統計平臺,由公有云企業提供公有云業務承載空間,負責提供海量視頻和圖片文件優化存儲、對外、信息安全和數據災備服務。公有云服務提供商需提供不少于三個異地災難備份數據中心,提供24小時不間斷同步和異步災備服務。
2.2 云平臺服務需求
云平臺提供方應該參照本需求,提供整體的云平臺解決方案,包含云主機、關系型數據庫、非關系型數據庫、簡單緩存服務、負載均衡、內容分發網絡、對象存儲、大數據平臺服務、多媒體平臺服務、云安全服務、帶寬等方面。
相關術語如下解釋:
云主機:是一種簡單高效、安全可靠、處理能力可彈性伸縮的計算服務。用戶無需提前購買硬件,即可迅速創建或釋放任意多臺云服務器,有效降低IT成 本,提升運維效率,為用戶快速構建穩定可靠的應用,降低網絡規模計算的難度,使用戶更專注于核心業務創新
非關系型數據庫:數據庫中的非關系型數據庫,通常情況下指支持NoSQL的數據庫服務或者云數據庫,提供高效、實時、穩定的數據檢索服務。
大數據平臺服務:通過對數據收集、存儲、變形、分析等過程,結合公有云分布式并行計算集群、機器學習集群、數據倉庫聯機分析集群實現數據智能推薦、應用定制開發、在線報表等需求。
3 項目建設技術路線及實現手段
3.1 公有云平臺技術路線及實現
公有云廠商核心基礎架構需具備10年以上的技術積累,需有上萬名國內頂尖技術專家,并具有多款國內領先互聯網產品的經驗。公有云廠商需在數據中心技術,網絡技術,安全技術,分布式存儲技術,大數據處理能力方面有豐富的經驗,形成了領先的技術能力和平臺。
3.2 上線安檢服務技術路線及實現
根據上線安檢服務需求內容,制定內容檢查清單,逐一進行核對和檢查,確保系統正常上線。
3.3 多網絡帶寬服務、CDN服務技術路線及實現
當用戶訪問天津教委云平臺時,瀏覽器將DNS域名解析請求發至本地DNS,本地DNS如果有緩存結果就直接返回IP,否則解析請求最終會到達CDNDNS服務器,它會根據本地DNS IP返回一個離用戶最近的CDN邊緣節點的IP給用戶。
4 項目部署與實施
項目建設、系統部署和實施的具體時間安排如表1。
5 驗收指標
驗收的內容包括以下幾個部分:
(1)驗收內容一般包括軟件驗收(按功能要求的可執行軟件、開發計劃文檔、 詳細設計文檔、質量保證計劃、設備相應附件、設備運行、網絡運行等);
(2)驗收評測工作主要包括:文檔分析、方案制定、現場測試、問題單提交、測試報告;
(3)驗收測試內容主要包括:功能度、安全可靠性、易用性、可擴充性、兼容性、效率、資源占用率、用戶文檔;
(4)文檔驗收標準一般包括:文檔完備性、內容針對性、內容充分性、內容一致性、文字明確性、圖表詳實性、易讀性、文檔價值等;
(5)軟件、硬件驗收標準要符合國家和相關標準。
智慧城市建設中,盡管我們布設了很多攝像頭,但在多媒體數據處理方面還存在一些問題和挑戰,需要理論、系統、技術等多領域專家共同協同,才能真正實現城市“智慧”。
智慧城市建設涉及多個領域、不同層面的數據資源獲取、處理和分析。這些數據應用于醫療衛生,能夠實現精準醫療;數據應用于教育行業,可以實施個性化教學;而城市監控數據為城市管理者所用,能夠提升管理效率、改善民生服務。
目前,以北京為例,覆蓋全城、多點布局的攝像頭數量達2000萬之多,而這些攝像頭捕捉到的數據信息往往是在“睡大覺”。一般1~2個星期、最多1~2個月為一個周期, 過往信息就會被覆蓋掉。
如何從這些信息中抓取有用數據、扔掉無用數據,是我們當前面臨的難題。這類音視頻多媒體數據要真正實現有效應用,面臨三大挑戰,即“存不下”、“看不清”、“找不到”。
優化編碼技術研究
這三大挑戰背后對應的技術問題是指我們的編碼算法技術還有提升的潛力和空間。
一方面,隨著攝像頭數量不斷增加,獲取的信息量不斷增長,可能導致“存不下”這一問題;另一方面,計算機識別圖像與我們人眼看東西不同,需要較高的清晰度。目前,我們城市攝像頭的數量基本已達到5米或10米一個,但人臉識別率還是較低,就存在“看不清”的問題。此外,攝像頭物理參數的不同也會導致出現這一現象:我們肉眼看某人從A點走到B點,A點攝像頭捕捉到這個人,但到了B點可能就“找不到”了,這就存在跨攝像頭搜索的問題。
針對這三個問題,我們需要三種不同的技術來應對它。
針對“存不下”問題,我們需要從更新編碼技術這個思路去尋找破解之道。高效視頻編碼是應對這一問題的直接技術手段。因為數字視頻其實是一個數字圖像序列,數字圖像表現的是數字信號,而數字信號我們可以對其進行處理。經過分析,我們發現數字圖像序列中有三類信息冗余,一是時間冗余,二是空間冗余,三是感知冗余,當然也有知識冗余等其他冗余。如果我們能夠把這些冗余擠掉,就能更有效地壓縮數字視頻。
針對不同類別的冗余,我們必須采用不同的方法。理論上,我們通過矩陣運算或通過矩陣分析可以找到視頻編碼的上界即最大壓縮程度。例如,針對2000×2000像素這樣尺寸的圖像,理論上我們能壓縮2000倍,即壓縮到2000:1,但實際上我們能做到的是600:1,中間還有很大空間,需要采用各種不同技術來突破。
編碼技術變革
1993年第一代編碼技術通過優化能把高清視頻壓縮到了1/75,2003年第二代編碼技術把編碼性能提高了一倍,2013年有了第三代編碼技術,壓縮能力又提升了一倍。以此類推,2023年將產生第四代編碼技術,其壓縮能力將達到1/600。我們把這種規律視為編碼領域的摩爾定律,十年性能翻一番。
其實,從第一代到第三代編碼技術,都是遵循最基本的編碼框架結構,即從視頻信號進來,切成塊變換處理,再進行濾波運能估計。但基于這一架構,編碼性能卻能十年翻一番。如何實現?主要是采用多種數學工具,如預測編碼、算術編碼等,或者多種工具混合利用使得編碼效率不斷提升。通過觀察分析,我們看到,在三代編碼技術不斷演變過程中,真正的變化是在預測與運動估計這一項上,每一代都不一樣。這也會給我們提供啟發,為尋找更高的編碼效率,預測與運動應該是我們關注的重點。那么,為何預測可以得到更高的編碼效率?因為預測主要解決的是空域冗余,隨著時間推移,它一幀一幀往前處理。我們知道圖像處理中很多東西不變化,這些不變化有效利用起來,就能獲得較高的編碼效率。
以監控視頻為例,一般而言,在會議活動中,演講人只有身體會偶爾搖動;在自然環境中,整片森林除了每天光照變化、葉子生長變化,其他都基本不變。因此,如果針對這些不變的因素實現建模,就能獲得很高的編碼效率。
因此,針對視頻監控應用,我們提出了背景建模技術,通過背景建波計算出背景模型,之后做預測時,用這套模型去做計算效率就會很高。在國際三個主流編碼技術團隊中,中國技術團隊在這一領域作出了較大貢獻,并已有了實際應用。
AVS2有效提升編碼效率
從性能上來看,以數字視頻廣播應用為例,中國超高清標準AVS2與目前H.265標準性能相當,而以監控視頻應用為例,AVS2標準相比H.265標準,性能為\41.77%,即碼率節省了41.77,性能提升了一倍。
對于監控視頻而言,AVS2已經邁入新時代。
2015年1月,廣電總局廣播電視、計量檢測中心針對AVS2標準和H.265標準專門做了一個對比實驗,并得出這樣的結論:AVS做超高清視頻很有優勢。對比視頻編碼標準HEVC,圖像質量下降的平均值是:AVS2為2.9%,HEVC為3%。一般而言,下降的值越低越好,這也表明了AVS2的優勢。
目前,已經有一些主流企業開始布局,準備用AVS2進軍全球市場。而AVS2能夠有效提高編碼效率和精度,能夠應對我們提到的第一個挑戰――“存不下”。
針對“看不清”即識別不準這一問題,傳統的做法是產生編碼和識別編碼是完全平行的兩套,彼此不通氣。通過背景建模技術,可以在編碼時把前景測出來,這樣的好處是可以進行分析、識別、提取。具體如何實現?以監控視頻碼流為例,我們可以理解為它是由兩個碼流構成的,一是背景碼流,二是前景碼流。測出前景后,我們可以處理、識別,并且跟蹤分析我們關注的對象。基于這個想法,AVS2也就支持感興趣區域(RCH),就是語法里面對前景手段你可以對其進行描述,這種描述可以采用特殊參數的編碼,背景一次性接過去就可以。基于這樣的構建我們可以很好地識別編碼模型,從感興趣的區域可以得到對象,根據對象之間的關聯,以及它們失去關系時構建的時間,我們可以在編碼的同時做運動分析、目標檢測、對象行為分析等。
傳統的方式下,識別時我們需要在視頻流上找,但是通過背景建模技術,任務就變得簡單很多。我們只需要知道背景是什么,就很容易把前景表述出來。AVS2國外版命名為HE1857,基于這一標準,可以對感興趣的區域提取對于對象的表達,對動作和行為檢測等。
針對跨攝像頭檢索“找不到”的問題,我們采用了CDVS(即緊縮描述式)技術。我們要想辦法達成這些目標:描述能力強、緊湊,檢索較快,特征規范化。這里面涉及到計算機視覺技術、機器學習技術等,最核心的就是興趣點提取和表述,一開始我們用的是(SIFT)特征,也是近期最好用的一個特征。
但(SIFT)特征在具體使用中有很多問題,后來我們對其做了改進,改進之后的效果比較好,所以我們把這一特征又分成局部和全局。改進的倍數CDVS比SIFT好三倍,特征大小好一百倍。針對一千萬幅圖像庫進行搜索,采用CDVS只需要500毫秒就能完成搜索,就是說如果我們要在一千萬張圖片中去找一張圖片,半秒鐘就能解決問題,搜索速度非常快,這只是在英特爾CPU上面就可以做到的。
總的來說,在智慧城市建設過程中,如果你要考慮多媒體大數據分析的時候,有三個比較大的挑戰。
第一個壓縮問題我們可以通過AVS2去應對,當然你可以有其他的辦法。第二個模式識別問題可以通過支持感興趣區域的AVS2、面向監控的AVS2來解決。第三個跨攝像頭搜索、視頻搜索問題,其實可以用CDVS這一標準去解決,當然也有其他更好的技術來解決。在智慧城市建設方面,盡管我們現在裝了很多攝像頭,但離具體的應用還是有一段距離,所以需要理論、系統、技術等多領域專家共同協同,才會有一個較好的結果。
【摘 要】人類已經步入到信息化時代,大規模的數據信息傳遞業已被廣泛運用。傳統意義上的信息不對等形成的差距條件不見了,大數據背景下的數據分析可以為各個組織帶來更大價值。本位分析了大數據的相關概念及大數據時代背景下進行數據分析的相關理念。
【關鍵詞】大數據時代;數據分析理念
前言
國內外在信息技術領域突飛猛進,越來越多地運用信息技術,大規模的信息與數據信息借助移動互聯設備、互聯網、社交工具、云終端以及物聯網等進行傳遞,人類業已步入到大數據時代,數據信息的大批量傳遞對各個組織的決策成本產生了較大影響。
一、大數據概述
1.大數據的定義。如今人們尚未就大數據的概念取得一致意見,主要存在著下列三種看法。首先,它指的是運用相關信息技術,分析、整合大量數據,并獲得舉足輕重的信息匯總成果,為用戶提供相關資訊。其次,認為大數據指的是一臺計算機,其處理能力比較強大。第三,它指的是在限定時間內拆解與分析數據中的相關信息,獲取關鍵信息的信息處理技術。
2.特點。第一是具有鮮明的社會性。它能夠匯集全部數據與信息,以互聯網方式連接絕大多數領域,以信息勞動取代了傳統的手工勞動,借助大數據處理技術創造更大的價值。第二是其運用范圍非常廣泛。大數據時代朝著縱深方向持續發展,信息技術業已對人們的生產生活產生了較大影響,在整理、儲存、融合與處理大數據方面都出現了較大變化,推動了社會經濟的快速發展。第三是大數據是公開的,在當前的大數據背景下,能夠公開所匯總的信息與數據,將諸多領域交換以及運用這些信息。既能夠確保數據用戶的相關隱私,也可以為相關機構和組織更好地利用大數據環境的優勢,滿足人們在工作、生活以及學習領域的需求。第四,體現出強烈的動態性。人們可以從大數據處理的結果中得到關鍵性的信息,然而外部環境隨時都可能會發生這樣那樣的變化,且任何時間都會形成諸多信息和數據,因此大數據時代具有強烈的動態性。
二、大數據時代下數據分析理念探究
1.挖掘數據價值的理念。以匹配廣告為作為研究事例,重點涵蓋了兩種類型的數據,首先是廣告庫,它涵蓋了廣告庫與相關廣告的具體客戶信息。這種方式適宜于運用在傳統類型的數據庫中。其次是顧客觀看了廣告后的相關行為。人們可以有效地結合上述兩種數據,借助相關算法來表現其價值。在具體實踐中,能夠充分地感受到信息與數據分析的優勢。可以為顧客提供所需要的數據與信息,借助群體行為、群體智能技術,將其與以往顧客的具體使用效果做出比較和分析,采取相關的信息反饋機制,向用戶提供最優質的數據與信息,或者是查詢與搜索相關信息。
2.深層處理與去偽存真的理念。在具體數據分析時,應該嚴格按照相關的數據分析流程,對相關數據進行深層處理以及去偽存真。大數據業已運用到生產生活的方方面面,在不同地區以及不同行業間發生著相應的轉化,逐步取代了傳統形式的信息數據處理方式和技術。在大數據背景下,借助先進的數據分析技術,將搜集到的多種復雜信息變換成計算機能夠識別的信息和數據,并對其進行分類與整合,在具體的整合分類中,剔除完全不具備實用價值的信息,深層次處理余下的信息與數據,將獲得的處理結果轉換到具體運用中。受到了大數據背景的強烈影響,龐大的數據規模非但會影響數據的具體處理結果,反而會為用戶帶來更具有價值的信息。且在數據分析與處理過程中要逐步搜集與積累相關數據。
3.把握數據分析的相關變量。之前的數據分析技術均是先假設相關變量,然后對相關結果實施線性分析。這是傳統意義上的數據規模非常小,處理方法也比較簡單。然而,大數據背景下,出現了龐大的數據規模,只采取線性處理技術來處理與分析顯得不太現實。計算機和大數據的關系非常密切,雖然數據的數量和相關變量持續變化,然而這些變量是明確的、有規律的,不必再假設相關變量,借助數據分析技術就可以獲得所需結果。
4.合理地運用統計學思想。在大數據背景下,傳統意義上的抽樣分析不能滿足大數據分析的要求,應該采取統計學思想,更新抽樣理念,將總體當作樣本,探討與某物有關的全部數據,不再依賴極少數數據樣本,如此方能充分地把握事物的具體變更與發展過程,有效地處理數據表露出的相關信息。更傾向于從紛繁蕪雜、不合乎常理的信息與數據中把握事務的具體狀況,進一步理解數據分析的嚴謹性,而不再局限于只追求精確的數據。通過分析數據網絡的彼此聯系,不必把握反復變化的因果關系,通過分析處理相關數據,更準確地反映數據變更背后的真實狀況。采取統計學思想,對收集到的相關信息與數據實施針對性較強的分類處理,更好地把握事物的具體變化情況,為人們做出正確決策提供可靠的依據。
結語
大數據涵蓋了海量的信息和數據,通過云計算平臺實施規模化的處理和收集活動,構建相應的數據庫,對數據進行分流;數據分析理念可以進一步闡述世界、感官享受以及物質領域中的復雜網絡關系,借助數據挖掘等在內的多種方法進行分析與處理,使相關數據結果有效地契合實際狀況。為人們滿足實際需要而進行數據分析與做出決策提供可靠的依據。
【摘要】:隨著大數據時代到來,城市已變成“信息城市”擁有更高覆蓋面和高精度的、即時且多維的數據正在改變我們對城市復雜性的認識方式,并帶來新的契機來理解以人為本的設計方法。在新的數據環境下,對現有的風景園林分析方法存在的問題解決提供了一種數據增強的分析方法和工作框架。風景園林專業中傳統的設計分析框架來指導園林景觀設計已經遠不能滿足瞬息萬變的時展。傳統的設計分析架構中如歷史文脈分析、豎向分析、區位分析、功能分析等從大數據概念的角度去看其分析內容以及分析數據來源都是極其匱乏片面不能反映規劃設計區域內各種問題。單從傳統分析框架中數據來源數量的單位是家用電腦常用單位MB而大數據分析所提供的數據量是以PB到EB反映了數據來源質的飛躍,而分析內容因互聯網高速發展以及廣泛普及人們的參與體驗增加傳統的單方面區域功能分析以不能符合以人為本的設計理念,其分析內容應當更加以人的視角來做分析所做分析更加多元化。
【關鍵詞】:大數據分析、景觀分析、研究方法。
解決問題途徑
新的數據環境下對風景園林分析體系是一種定量認識,并體現為4個方面的變革(空間尺度、時間維度、研究單位、以及研究方法)這些變革促進了風景園林設計的變革,并提供了一個民主公平開放的公共平臺。將大數據應用到風景園林分析中首先應明確所分析內容類別種類,其次根據從所分析內容刪選整合出大數據中有用信息并將其數字化這些數據包括傳統數據以及動態數據,再通過科學分析法對分析內容進行可視化分析和建模輸出可視化成果【2】。通過成果分析、情景假設又將有所調整各項分析成果將在比對中得到最終檢驗。
大數據分析內容制定方法
隨著信息互聯網普遍率增高人們可以輕松分享各類信息這對風景園林設計分析的開拓是至關重要的,設計分析中最小單位可以統計到個人,以及每個人的思想變化對待不同問題的看法都可以通過大數據來提供。這些就可以大大的擴展風景園林分析的內容可以從人視的角度分析問題而不僅僅是以區域空間功能上單方面的片面分析。所以其所分析內容更加具有生活性多元性,這對設計分析的內容是具有變革性的影響,因為設計師設計的好壞需要接受民意的考察,再根據民意最關心的設計內容作為風景園林設計分析內容的選項所以每一項分析內容都是根據實踐而得來的。實地調研也不會掌握全部數據,但是大數據可以幫助我們了解當時的情況,借助大數據分析指導風景園林設計具有針對性、多元性同時因互聯網具有即時性其所分析的內容也具有即時性客觀性。
大數據信息來源篩選方法
地球外圍軌道上的遙感衛星,全球定位系統,配有三維激光掃面設備的無人機,無處不在的攝像頭,便攜式數碼照相機,全球將近20億的智能手機用戶【1】。在今天大量涌現的城市數船不僅是可供分析的新材料, 更是探知未來方向的共具。大量來自云端的歷史數據和即時的關于景觀和社會文化背景的大數據,為我們有效的設計以及管理景觀帶來無限景觀數據的機會。但是必須清楚這些量的大數據是一把雙刃劍。首先因為數據本身并不系統均衡而帶有偏差歧視。其次數據如此之多有用信息如同珍珠埋藏在泥沙里。第三數據信息最多只能反映當下告訴我們過去的狀態,并不能告訴我們未來。因此我們必須要理性看待這些海量數據,突破傳統數據統計的方法處理這些數據最終幫助我們在景觀設計時借組有用數據分析進行科學的設計。因此我個人總結出大數據結合風景觀園林設計幾點意見和創想。
首先我們需要在風景園林定量研究中流理一種價值倫理。風景園林研究的的成果, 特別是可視化成果幫助設計更加理性準確快捷,其外表給他人一種可爭辯”的印象。然而一個看似客觀的數據, 卻也十分容易被其他目的利用而塑造一種權威 。 因此,對于數據分析的應用需要更多的基于社會學的思考, 以明確不同數據定量分析服務的主體是誰, 目的是什么 。
其次,我們仍需警惕定量分析的濫用有可能導致一種庸俗。數據無法驅動所有的風景園林設計活動,許多時候定量分析和定性存在角力。定量研究中注重數據的準確性、單位統一性關注于實證的研究。但這就存在一些解釋力不足的維度,比如環境美學方面定量無法用數據準確性闡述美的觀點,這是也就需要定性具有一定感性的介入。
大數據整合分析內容可視化方法
將收集到的大數據可視化分析對于風景園林分析問題是一種新的表達方式,這樣的分析結果將完全打破傳統區域空間功能簡單的分析。而是第一次站在人的視角看待分析結果,比如通過大數據分析出區域內人們對景觀要素的興趣點、通過谷歌地圖近幾年內區域內路況程度、以及區域內城市擴建面積增大對于村莊的影響、或通過社交評論平臺人們對于建成景點的關注程度等等的分析成果都是對原有傳統分析的突破。
但對于基于大數據新的分析結果應用于分景園林分析需要有突破原有在整合數據是觀念才能適應于分析整合大數據的觀念思想。傳統的數據分析思想應做三大轉變,一是轉變抽樣思想,大數據時代,我們面對的數據樣本就是過去資料的總和,樣本就是總體,通過對所有與事物相關的數據進行分析,既有利于了解總體,又有利于了解局部。二是轉變數據測量的思想,要樂于接受數據的紛繁蕪雜,不再追求精確的數據。我們應該接受紛繁蕪雜的各類數據,不應一味追求數據的精確性,以免因小失大,比如都對于城市某條道路路況分析不能只單純調研近期路況而查看近10年這一帶的路況。三是不再探求難以捉摸的因果關系,轉而關注事物的相關關系。由于數據規模巨大"數據結構復雜以及數據變量錯綜復雜,預設因果關系以及分析因果關系相對復雜于是在大數據時代分析數據不再探求難以琢磨的因果關系轉而關注事物的相關關系。
結語
信息城市的復雜性迫切地要求不同以往的解讀方式, 以確保不同規劃設計手段干預下的城市發展的可持續性 。新的數據時代到來風景園林設計與城市可持續發展新的契機。借助于大數據分析作為一種規劃設計的工具理性在城市中從人的角度定量理性研究展現出了其巨大的潛力,并直接顛覆了傳統設分析問題價值看法。大數據時代總結出一套從問題中篩選出分析內容,再通過大數據中有用信息篩選后進行可視化成果研究的科學套路流程,這為大數據分析景觀設計帶來了新的思路。
摘要:隨著醫院信息系統的快速發展,為醫院帶來了海量數據。對這些數據的有效利用、分析,挖掘其中隱含的信息,能為醫院管理提供更好的決策支持。本文從臨床信息數據分析出發,在資源配置、醫療監管、臨床決策支持、健康體檢分析等方面進行大數據應用分析。
關鍵詞:大數據分析;醫院管理;應用
1 概述
根據衛計委公布的數字,2014年前11個月全國醫療衛生服務機構診療量(門診和住院)達到67.7億人次,其中三級醫院達到12.1 億人次。這些醫院信息數據量十分巨大,它涵蓋了患者的人員信息、診療信息、用藥信息和費用信息,而這些信息又為流行病學研究、臨床醫學研究、醫保控費標準制定、臨床路徑和藥品研究及精準醫療提供了數據基礎。
如何合理利用這些數據,分析、挖掘出其中隱含的信息,并加以應用,實現為患者提供更好的診療及保健,幫助醫生找到更好的診療方案、提高醫療質量,幫助醫院決策者調整策略、減少風險,降低醫療費用等需求方面,將是未來醫院面臨的挑戰之一。
2 大數據的產生
當前大多數醫院都已完成了醫院信息系統的建設,各專業的醫療信息以結構化和非結構化的形式存在于各子系統中,如HIS、LIS、EMR、PACS等。
醫院信息主要包含HIS(醫院信息系統)和CIS(臨床信息系統)兩大系統中。HIS的主要目標是支持醫院的經營管理與查詢業務,提高醫院的工作效率,包括門診收費、藥房藥庫、住院收費、人力資源、財務查詢等。CIS的主要目標是支持醫院醫護人員的臨床活動,收集和處理患者的臨床醫療信息,為患者提供更好的服務,包括門急診和住院醫生工作站系統、電子病歷系統(EMR)、護士工作站系統、護理病歷系統(NIS)、影像歸檔和通信系統(PACS)、實驗室系統(LIS)、藥物咨詢系統等。
2.1數據量的計算
2.1.1業務交易規模計算 按中等規模二甲綜合醫院測算,醫院預計的日均2000人次,如平均每人次在掛號、醫生診間、收費、醫技科室等16個科室各發生1筆業務,則每天的業務量就是:2000×16×1=3.2萬筆。門診部分信息系統按每業務數據庫交易數10計算,則每天的數據庫交易數為:3.2萬×10=32萬次。
假設醫院住院患者400人次,每人次主管醫生、護士或會診醫生各發生20筆業務,藥房、收費、手術、麻醉、醫技科室等各發生3筆業務,則每天的業務量就是:400×3×20+400×18×3=4.56萬筆。住院部分信息系統按每業務數據庫交易數10計算,則每天的數據庫操作數為:4.56萬×10=45.6萬次。
由上,總的日數據庫交易次數是:32萬+45.6萬=77.6萬次,則10年的交易次數為776萬次。
2.1.2結構化數據量計算 以二甲綜合醫院門診量2000人/d,住院量400人/d計算。
每門診人次含掛號收費信息、處方信息、檢查信息、輸液信息、處置信息、門診病歷信息等系統數據估算量為0.1M,則每日門診數據量=0.1M×2000=200M。
每住院人次每日含收費信息、醫囑信息、護理信息、藥品信息、檢查信息、輸液信息、處置信息、住院病歷信息等系統數據估算量為0.5M,則每日住院數據量=0.5M×400=200M。10年總數據量為(200M+200M)×365×10=1.46TB。
2.1.3醫學影像數據(非結構化數據)計算 以二甲綜合醫院門診量2000人/d,住院量400人/d計算。
如門診25%患者平均每人次在醫學影像科室-X線、MRI、CT、心電、超聲、胃腸鏡、病理等部門進行圖像采集1次,平均數據估算量為:5MB,則每日門診數據量=5MB×1×2000×0.3=2500MB。
如住院20%患者平均每人次在醫學影像科室-X線、MRI、CT、心電、超聲、胃腸鏡、病理等部門進行圖像采集1次,平均數據估算量為:5MB,則每日門診數據量=5MB×1×400×0.2=400MB。10年數據量為(2500MB +400MB)×365×10=10.6TB。
以上二甲綜合性醫院10年結構及非結構化數據量總和為1.46TB + 10.6TB = 12.06TB。
2.2大數據的可用性
2.2.1大數據靜悄悄的躺在各自系統的結構中,除了定向的查詢,幾乎沒得到好的使用。能否將這些大量分散的信息進行整合,把這些以結構化形式存在的數據準確地識別,并且賦予他們詞、詞組和數字等邏輯關系,將是推進大數據分析的關鍵。這種全結構化的數據庫由于覆蓋信息面廣,數據結構程度高,可以按照患者、藥劑、檢驗、檢查和管理的不同需求提供更精準的信息,從而更好地幫助制定醫療提高服務。
2.2.2數據本身不直接帶來價值,對于數據的應用來說,最終的產品不管是臨床決策輔助系統還是醫保控費系統,能否得到臨床一線工作者和醫藥經濟學家的認可,是區分產品優劣的關鍵點。
2.2.3達到一定的信息系統的覆蓋率,打通各信息系統之間的孤島。單一系統的數據雖然有價值,但是由于它不能反應出連續的醫療記錄,往往不能作為決策參考二次利用,這時如能取得多個系統的數據進行協作分析,提升醫療數據分析變現的可能性。
3 大數據分析的應用
通過分析臨床信息數據,運用相關數據挖掘算法和統計學知識,從數據中挖掘出潛在有價值的診療模式、決策知識,幫助醫生找到更好的診療方式和臨床路徑,提高醫療質量;幫助醫院決策者調整策略,做出正確決策。
3.1分析患者來源,調整資源配置。根據患者的就醫記錄大數據,分析出患者就診時段,相應的該時段就診患者的診斷、年齡層、性別、同藥理藥品使用量、復診次數、復診周期等來確定相對患者屬性,并針對這些屬性,按正態分布進行醫療資源合理優化配置,按診斷配置醫生,按用藥做好藥品準備,按年齡層、性別調整服務細節,按復診人群自動分配診間等,從而達到相應服務資源在各個層面的投放。
3.2大數據用于臨床決策支持 臨床決策支持系統分析醫生輸入的診斷、醫囑、處方等,將其與臨床知識庫相比較,從多個屬性上比較其差異,從而提醒醫生防止潛在的錯誤,如用藥輔助支持系統。通過部署這些系統,醫院可以降低醫療事故率和差錯。
大數據分析可以使用圖像分析和識別技術,識別醫療影像(X光、CT、MRI)數據,將相近或相識的圖像進行對比,并將其他的醫療影像診斷展示出來,從而給醫生提出診斷建議。
3.3健康體檢 健康體檢的目的是發現潛在隱患。體檢機構對受檢人員健康數據進行采集、初檢、總檢,從而得到當前的健康狀況;進一步對健康數據的分析,能針對不同區域、人群分析出區域受檢人員中的慢病特征、風險預測等信息,并輔助以健康相關危險因素及制作健康監測評估圖;通過全基因組測序數據分析,可明確個體的患病風險。
健康體檢機構對每一位受檢單位進行個性化的健康體檢套餐設計,并從個人體檢數據所反映出的健康問題,通過大數據分析,給予個體受檢人員以后的體檢套餐規劃。
3.4醫療效益分析 對同一患者來說,醫療機構不同,醫療護理方法和效果就不同,治療成本也存在著很大的差異。
效益分析通過對患者體征數據、醫療費用數據和各診斷的治療結果數據在內的大型數據集的分析對比,可以幫助醫生判斷最有效和最具有成本效益的治療方案,有可能減少過度治療或治療不足的情況發生。
數據分析也可以帶來業務流程的精簡,通過分析成本,提高質量并給患者帶來更好的體驗,也給醫療服務機構帶來額外的業績增長潛力。
4 大數據分析的其他相關考慮
4.1大數據分析的模型建立 大數據分析建模方法繁多,面向過程建模、面向數據建模、以信息為中心建模,決策分析方法也多種多樣,DEA方法、樹形決策、風險決策、模糊決策等,所得到的結論可能會千差萬別,因此,需再依據回歸分析法計算相關性,確定是否存在線性因果關系,否則經分析得到的結論與大數據分析的初衷背道而馳了。
4.2用于臨床支持的局限性 由于患者復合病關系復雜,在診斷過程中醫生對某些病癥給出確切診斷有時會有差別,利用大數據分析,對相同主訴和病征進行分門別類區分,其與分析的樣本數量密切相關,樣本越大,分析的可靠性越高,但樣本量如何才算大,很難界定,這樣分析出來的結論與實際情況有偏差,反而給大數據分析的作用造成負面影響。
5 結論
大數據分析的應用,必定能給醫療行業造成積極地影響,隨著技術的不斷進步,醫院數據量不斷提高的基礎上,大數據分析技術在醫療領域的作用必定越來越明顯。
摘 要:隨著改革開放的進一步深化,以及經濟全球化的快速發展,我國各行各業都有了質的飛躍,發展方向更加全面。特別是近年來科學技術的發展和普及,更是促進了各領域的不斷發展,各學科均出現了科技交融。在這種社會背景下,數據形式和規模不斷向著更加快速、精準的方向發展,促使經濟社會發生了翻天覆地的變化,同時也意味著大數據時代即將來臨。就目前而言,數據已經改變傳統的結構模式,在時代的發展推動下積極向著結構化、半結構化,以及非結構化的數據模式方向轉換,改變了以往的只是單一地作為簡單的工具的現象,逐漸發展成為具有基礎性質的資源。文章主要針對大數據時代下的數據分析與挖掘進行了分析和討論,并論述了建設數據分析與挖掘體系的原則,希望可以為從事數據挖掘技術的分析人員提供一定的幫助和理論啟示,僅供參考。
關鍵詞:大數據;數據分析;數據挖掘;體系建設
引言
進入21世紀以來,隨著高新科技的迅猛發展和經濟全球化發展的趨勢,我國國民經濟迅速增長,各行業、領域的發展也頗為迅猛,人們生活水平與日俱增,在物質生活得到極大滿足的前提下,更加追求精神層面以及視覺上的享受,這就涉及到數據信息方面的內容。在經濟全球化、科技一體化、文化多元化的時代,數據信息的作用和地位是不可小覷的,處理和歸類數據信息是達到信息傳遞的基礎條件,是發展各學科科技交融的前提。
然而,世界上的一切事物都包含著兩個方面,這兩個方面既相互對立,又相互統一。矛盾即對立統一。矛盾具有斗爭性和同一性兩種基本屬性,我們必須用一分為二的觀點、全面的觀點看問題。同時要積極創造條件,促進矛盾雙方的相互轉變。數據信息在帶給人們生產生活極大便利的同時,還會被諸多社會數據信息所困擾。為了使廣大人民群眾的日常生活更加便捷,需要其客觀、正確地使用、處理數據信息,完善和健全數據分析技術和數據挖掘手段,通過各種切實可行的數據分析方法科學合理地分析大數據時代下的數據,做好數據挖掘技術工作。
1 實施數據分析的方法
在經濟社會快速發展的背景下,我國在科學信息技術領域取得長足進步。科技信息的發展在極大程度上促進了各行各業的繁榮發展和長久進步,使其發展更加全面化、科學化、專業化,切實提升了我國經濟的迅猛發展,從而形成了一個最佳的良性循環,我國也由此進入了大數據時代。對于大數據時代而言,數據分析環節是必不可少的組成部分,只有科學準確地對信息量極大的數據進行處理、篩選,才能使其更好地服務于社會,服務于廣大人民群眾。正確處理數據進行分析過程是大數據時代下數據分析的至關重要的環節。眾所周知,大數據具有明顯的優勢,在信息處理的過程中,需要對大容量數據、分析速率,以及多格式的數據三大問題進行詳細的分析和掌握。
1.1 Hadoop HDFS
HDFS,即分布式文件系統,主要由客戶端模塊、元數據管理模塊、數據存儲服務模塊等模塊組成,其優勢是儲存容量較大的文件,通常情況下被用于商業化硬件的群體中。相比于低端的硬件群體,商業化的硬件群體發生問題的幾率較低,在儲存大容量數據方面備受歡迎和推崇。Hadoop,即是分布式計算,是一個用于運行應用程序在大型集群的廉價硬件設備上的框架,為應用程序的透明化的提供了一組具有穩定性以及可靠性的接口和數據運動,可以不用在價格較高、可信度較高的硬件上應用。一般情況下,面對出現問題概率較高的群體,分布式文件系統是處理問題的首選,它采用繼續運用的手法進行處理,而且還不會使用戶產生明顯的運用間斷問題,這是分布式計算的優勢所在,而且還在一定程度上減少了機器設備的維修和維護費用,特別是針對于機器設備量龐大的用戶來說,不僅降低了運行成本,而且還有效提高了經濟效益。
1.2 Hadoop的優點與不足
隨著移動通信系統發展速度的不斷加快,信息安全是人們關注的重點問題。因此,為了切實有效地解決信息數據安全問題,就需要對大量的數據進行數據分析,不斷優化數據信息,使數據信息更加準確,安全。在進行數據信息的過程中,Hadoop是最常用的解決問題的軟件構架之一,它可以對眾多數據實行分布型模式解決,在處理的過程中,主要依據一條具有可信性、有效性、可伸縮性的途徑進行數據信息處理,這是Hadoop特有的優勢。但是世界上一切事物都處在永不停息地變化發展之中,都有其產生、發展和滅亡的歷史,發展的實質是事物的前進和上升,是新事物的產生和舊事物的滅亡,因此,要用科學發展的眼光看待問題。Hadoop同其他數據信息處理軟件一樣,也具有一定的缺點和不足。主要表現在以下幾個方面。
首先,就現階段而言,在企業內部和外部的信息維護以及保護效用方面還存在一定的不足和匱乏,在處理這種數據信息的過程中,需要相關工作人員以手動的方式設置數據,這是Hadoop所具有的明顯缺陷。因為在數據設置的過程中,相關數據信息的準確性完全是依靠工作人員而實現的,而這種方式的在無形中會浪費大量的時間,并且在設置的過程中出現失誤的幾率也會大大增加。一旦在數據信息處理過程中的某一環節出現失誤,就會導致整個數據信息處理過程失效,浪費了大量的人力、物力,以及財力。
其次,Hadoop需求社會具備投資構建的且專用的計算集群,在構建的過程中,會出現很多難題,比如形成單個儲存、計算數據信息和儲存,或者中央處理器應用的難題。不僅如此,即使將這種儲存形式應用于其他項目的上,也會出現兼容性難的問題。
2 實施數據挖掘的方法
隨著科學技術的不斷發展以及我國社會經濟體系的不斷完善,數據信息處理逐漸成為相關部門和人們重視的內容,并且越來越受到社會各界的廣泛關注和重視,并使數據信息分析和挖掘成為熱點話題。在現階段的大數據時代下,實施數據挖掘項目的方法有很多,且不同的方法適用的挖掘方向不同。基于此,在實際進行數據挖掘的過程中,需要根據數據挖掘項目的具體情況選擇相應的數據挖掘方法。數據挖掘方法有分類法、回歸分析法、Web數據挖掘法,以及關系規則法等等。文章主要介紹了分類法、回歸分析法、Web數據挖掘法對數據挖掘過程進行分析。
2.1 分類法
隨著通信行業快速發展,基站建設加快,網絡覆蓋多元化,數據信息對人們的生產生活影響越來越顯著。計算機技術等應用與發展在很大程度上促進了經濟的進步,提高了人們的生活水平,推動了人類文明的歷史進程。在此背景下,數據分析與挖掘成為保障信息安全的基礎和前提。為了使得數據挖掘過程更好地進行,需要不斷探索科學合理的方法進行分析,以此確保大數據時代的數據挖掘進程更具準確性和可靠性。分類法是數據挖掘中常使用的方法之一,主要用于在數據規模較大的數據庫中尋找特質相同的數據,并將大量的數據依照不同的劃分形式區分種類。對數據庫中的數據進行分類的主要目的是將數據項目放置在特定的、規定的類型中,這樣做可以在極大程度上為用戶減輕工作量,使其工作內容更加清晰,便于后續時間的內容查找。另外,數據挖掘的分類還可以為用戶提高經濟效益。
2.2 回歸分析法
除了分類法之外,回顧分析法也是數據挖掘經常采用的方法。不同于分類法中對相同特質的數據進行分類,回歸分析法主要是對數據庫中具有獨特性質的數據進行展現,并通過利用函數關系來展現數據之間的聯系和區別,進而分析相關數據信息特質的依賴程度。就目前而言,回歸分析法通常被用于數據序列的預計和測量,以及探索數據之間存在的聯系。特別是在市場營銷方面,實施回歸分析法可以在營銷的每一個環節中都有所體現,能夠很好地進行數據信息的挖掘,進而為市場營銷的可行性奠定數據基礎。
2.3 Web數據挖掘法
通訊網絡極度發達的現今時代,大大地豐富了人們的日常生活,使人們的生活更具科技性和便捷性,這是通過大規模的數據信息傳輸和處理而實現的。為了將龐大的數據信息有目的性地進行分析和挖掘,就需要通過合適的數據挖掘方法進行處理。Web數據挖掘法主要是針對網絡式數據的綜合性科技,到目前為止,在全球范圍內較為常用的Web數據挖掘算法的種類主要有三種,且這三種算法涉及的用戶都較為籠統,并沒有明顯的界限可以對用戶進行明確、嚴謹的劃分。隨著高新科技的迅猛發展,也給Web數據挖掘法帶來了一定的挑戰和困難,尤其是在用戶分類層面、網站公布內容的有效層面,以及用戶停留頁面時間長短的層面。因此,在大力推廣和宣傳Web技術的大數據時代,數據分析技術人員要不斷完善Web數據挖掘法的內容,不斷創新數據挖掘方法,以期更好地利用Web數據挖掘法服務于社會,服務于人們。
3 大數據分析挖掘體系建設的原則
隨著改革開放進程的加快,我國社會經濟得到明顯提升,人們物質生活和精神文化生活大大滿足,特別是二十一世紀以來,科學信息技術的發展,更是提升了人們的生活水平,改善了生活質量,計算機、手機等先進的通訊設備比比皆是,傳統的生產關系式和生活方式已經落伍,并逐漸被淘汰,新的產業生態和生產方式噴薄而出,人們開始進入了大數據時代。因此,為了更好地收集、分析、利用數據信息,并從龐大的數據信息中精準、合理地選擇正確的數據信息,進而更加迅速地為有需要的人們傳遞信息,就需要建設大數據分析與挖掘體系,并在建設過程中始終遵循以下幾個原則。
3.1 平臺建設與探索實踐相互促進
經濟全球化在對全球經濟發展產生巨大推力的同時,還使得全球技術競爭更加激烈。為了實現大數據分析挖掘體系良好建設的目的,需要滿足平臺建設與探索實踐相互促進,根據體系建設實際逐漸摸索分析數據挖掘的完整流程,不斷積累經驗,積極引進人才,打造一支具有專業數據分析與挖掘水準的隊伍,在實際的體系建設過程中吸取失敗經驗,并適當借鑒發達國家的先進數據平臺建設經驗,取其精華,促進平臺建設,以此構建并不斷完善數據分析挖掘體系。
3.2 技術創新與價值創造深度結合
從宏觀意義上講,創新是民族進步的靈魂,是國家興旺發達的不竭動力。而對于數據分析挖掘體系建設而言,創新同樣具有重要意義和作用。創新是大數據的靈魂,在建設大數據分析挖掘體系過程中,要將技術創新與價值創造深度結合,并將價值創造作為目標,輔以技術創新手段,只有這樣,才能達到大數據分析挖掘體系建設社會效益與經濟效益的雙重目的。
3.3 人才培養與能力提升良性循環
意識對物質具有反作用,正確反映客觀事物及其發展規律的意識,能夠指導人們有效地開展實踐活動,促進客觀事物的發展。歪曲反映客觀事物及其發展規律的意識,則會把人的活動引向歧途,阻礙客觀事物的發展。由此可以看出意識正確與否對于大數據分析挖掘體系平臺建設的重要意義。基于此,要培養具有大數據技術能力和創新能力的數據分析人才,并定期組織教育學習培訓,不斷提高他們的數據分析能力,不斷進行交流和溝通,培養數據分析意識,提高數據挖掘能力,實現科學的數據挖掘流程與高效的數據挖掘執行,從而提升數據分析挖掘體系平臺建設的良性循環。
4 結束語
通過文章的綜合論述可知,在經濟全球化趨勢迅速普及的同時,科學技術不斷創新與完善,人們的生活水平和品質都有了質的提升,先進的計算機軟件等設備迅速得到應用和推廣。人們實現信息傳遞的過程是通過對大規模的數據信息進行處理和計算形成的,而信息傳輸和處理等過程均離不開數據信息的分析與挖掘。可以說,我國由此進入了大數據時代。然而,就我國目前數據信息處理技術來看,相關數據技術還處于發展階段,與發達國家的先進數據分析技術還存在一定的差距和不足。所以,相關數據分析人員要根據我國的基本國情和標準需求對數據分析技術進行完善,提高思想意識,不斷提出切實可行的方案進行數據分析技術的創新,加大建設大數據分析挖掘體系的建設,搭建可供進行數據信息處理、劃分的平臺,為大數據時代的數據分析和挖掘提供更加科學、專業的技術,從而為提高我國的科技信息能力提供基本的保障和前提。
[摘要]大數據時代公安部門所掌握的各項數據越來越多,傳統的結構化數據庫系統面對越來越紛繁復雜的非結構化數據越來越吃力,在時效性上難以起到預期的作用,因此更高效、更便捷的SAP HANA內存數據厙運算技術應運而生,本文將試論在公安大數據分析平臺引入“SAP HANA”技術的可行性和優越性,以及該技術將對公安工作產生的變化與影響。
[關鍵詞]公安大數據;SAP HANA;數據分析
1引言
近年來,大數據這個概念被越來越多的提及,信息大爆炸的時代已經到來,現階段建設新的能夠匹配公安業務場景的大數據系統是公安部門的迫切需求。公安工作與大數據也已然開始產生密切的聯系,基于各種技術的大數據平臺也在被建立起來,本文就基于“SAP HANA”技術的公安大數據分析平臺做一個展望。
2公安工作對大數據平臺的需求
公安部門掌握的數據越來越多,對于這些不同來源、不同類型、不同格式的數據,現有的公安警務數據平臺無論是規模還是架構都很難適應在海量數據場景下的數據管理和分析,直接影響了公安形勢預判和重大決策,因此,在現階段建設新的能夠匹配公安業務場景的大數據系統是公安部門的迫切需求。新建設的公安大數據系統,需要做到:PB級數據存儲管理,多種數據類型與協議支持,高質量的數據整合,高效的數據分析能力,可管理和開放性,安全可靠,自主可控。
3現有大數據平臺的缺陷
對于數據可以劃分為兩類:結構化數據和非結構化數據,非結構化數據沒有統一的大小和格式,給分析和挖掘帶來了很大的挑戰。而現有的數據平臺對非結構化的數據處理起來就非常的吃力。面對冗雜無序的龐大數據,簡單的人海戰術已經跟不上社會發展的步伐,因此更高效、更便捷的SAP HANA內存數據庫運算技術應運而生,它的產生讓數據存儲、運算速度得到了極大的提高,讓TB乃至PB級數據分析、處理和存儲變得更加快捷穩定,也讓大數據分析平臺的搭建有了新的選擇途徑。
4 SAP HANA技術
HANA(High-Performance Analytic Appliance)是德國SAP軟件公司開發的是一個軟硬件結合體。它能夠提供高性能的數據查詢功能,可以直接對大量實時業務數據進行查詢和分析,不需要對業務數據進行建模、聚合。
4.1 SAP HANA技術特點
4.1.1軟件方面
相對于Oracle等傳統關系型數據庫,SAP HANA內存數據庫不僅在維護數據的完整性、一致性方面做到了最好,而且在傳統關系型數據庫并不擅長的領域――難以顧及數據處理實效要求方面實現了突破。追本溯源,之所以SAP HANA實現了對Oracle等傳統關系型數據庫的超越,是因為其采用了改進的數據壓縮、行列式數據存儲和內存計算技術。將海量數據經過高效壓縮存儲至HANA的大內存數據厙,提高查詢和分析效率。
數據壓縮:SAP HANA采用數據字典的方法對數據進行壓縮,用整數來代表相應的文本。對于數據格式相對單一的結構化數據源,這種壓縮方式非常有效,數據讀寫速度也因此得到提升。
行列式存儲:有人曾形象的比喻,HANA可以“識別”用戶在插入數據和輸出數據時的真正意圖。實際上這是因為HANA采用了行列式存儲方式,即增量更新(插入數據)時,HANA將它視為行式數據庫;而輸出數據時,HANA又充分利用其列式結構適合數據壓縮的優點穩定快速的輸出數據。而傳統關系型數據庫則需要犧牲其中一種方式來保證速度。
內存數據庫計算技術:根據計算機組成原理我們知道數據是從磁盤->通過數據總線和控制器(RAID,I/O hub等)―->內存―->CPU Cache-->CPU進行數據處理(CPU寄存器)。HANA內存數據庫,就是將數據放在內存中直接操作,跨過了數據總線和控制器,直接與CPU cache進行數據傳輸,數據讀寫速度比磁盤讀寫速度高出幾個數量級,極大地提高了計算速度,縮短了時間。內存的訪問速度比磁盤快1,000,000倍。傳統磁盤讀取是5毫秒,內存讀取是5納秒,比SSD和閃存快1000倍。雖然寄存器和Cache的讀取數據的速度比內存快,但在實際的數據處理中卻應用較少。
在傳統的數據庫中,由于內存存儲的數據有易失性,系統斷電或重啟后內存中的數據就會丟失,對此SAP HAHA采取后臺異步進程savepoint(Data persistence)定時把內存數據存儲到磁盤中,大大降低了因故障導致數據存儲丟失的問題。
4.1.2硬件方面
SAP不僅在軟件領域獨樹一幟,在硬件研發方面也積極創新,和多個國際硬件廠商開展了合作,開發了多款支持HANA的高性能服務器,包括DellR910、Fujitsu RX600 S6、HP DL980 G7、IBM x3850等服務器。
4.2 SAP HANA技術應用
正是基于對SAP HANA高性能的認同,SAP內存計算技術正在全球內廣泛應用,不斷的轉變人們的思考、重新規劃著人們的生活和工作方式。
以亞太區第一家上線HANA技術的某快速消費品企業為例,該企業年銷售額近百億元,業務涉及生產、銷售、計劃、調度、物流、市場營銷等多個方面,這對企業的綜合管理和整體運營能力提出了很高的要求。同時,作為一個快速消費品行業企業,準確實時的數據對于企業來說非常重要,企業高管如果要對瞬息萬變的市場行情做出準確的判斷,就必須依據準確實時的數據進行科學決策。
該企業在應用了HANA技術后,確實提高了數據查詢、處理的能力。數據展現能力快速提高。據測試,商業智能報表快25~30倍,邏輯計算能力速度提高了約150倍,而且,越是復雜的運算,HANA的邏輯運算能力就越突出,數據實時、同步真正實現。
5公安工作應用hana技術的可行性
公安部門的各類信息來源(公安管控信息、社會管理信息和社會公開信息等)中,人口信息、水電煤氣信息、通訊信息、網絡賬號、圖像、聲音以及視頻等信息絕大部分是非結構化數據。在這個“非結構化數據時代”,主要用于管理結構化數據的傳統關系型數據庫受限明顯,尤其是運算速度過慢被人所詬病。而采用擅長大數據運算的SAP HANA技術無疑是明智的選擇。
首先,從數據采集及存儲方面來看,作為內存數據庫,SAP HANA可以將龐大的公安數據,通過高效的數據壓縮和行列式存儲功能進行優化,存儲在HANA大內存數據庫中,進而為偵察員提供高效便捷的案事件信息查詢功能。值得一提的是,HANA技術采用的數據壓縮和行列式存儲不會破壞數據原有格式,而且可還原性非常高,非常適合偵察員保留案件原始資料和數據,提高自主分析比對不同案事件的能力。其次,從分析應用來看,作為綜合應用分析平臺,SAP HANA依靠其高速的邏輯運算模式,可以有效支撐TB級別以上的大數據運算,將大幅提高公安整體工作效率和水平。
綜上所述,公安部門為了在“大數據時代”脫穎而出,加強信息化建設,提高公安辦案水平,強化預警節點突發情況能力,不斷升級服務公共決策水平,為頂層設計提供可靠依據。而以SAP HANA技術為基礎數據庫應用的設想,無疑是目前公安部門破解大數據難題的理想選擇。
摘 要:電力行業貿易結算用智能電表功能多,故障類型多樣。隨著運行時間的延長,故障發生的概率增加。本文是針對智能電表故障類型、發生概率等數據的分析和總結,探究智能電表數據倉庫模型建立,對進一步做好智能表質量評估和運行電能表故障預測提出解決方法。
關鍵詞:智能電表;故障;數據;分析
1 故障數據整理及數據倉庫的構建
1.1 故障數據整理
通過已有的SG186系統、MDS系統、拆回表分揀系統,對智能電表故障數據進行匯總。通過整理發現,智能電表故障數據維度高,信息條目數多。在眾多維度中選擇和電表故障問題關系比較緊密的影響因子信息,并且將它們整合在一起。對數據本身的一些問題進行清理,對缺失值、不合理數據以及不符合書寫規范的數據。
通過對各維度離散化標稱數據的數目,并將他們進行編號,最后以編號的形式存入數據倉庫中。對于日期型的數據,統一成天、月、年三種緯度來進行儲存。電表的使用壽命長度以天為單位計算,電表的讀數統一為小數點后兩位。
1.2 建立數據倉庫
通過對已有故障數據的匯總分類,初步建立數據庫。數據庫包含7個維度表、2個事件表。維度表分別為通訊接口表(CommunicationInterface)、芯片廠商表(ChipManufactory)、電流型號表(ElectricCurrent)、電表廠商表(ElectricMeterManufactory)、時間表(Time)、電表故障表(MeterFault)、地區表(DArea)。事件表是電表信息表(Meter)和壞表信息表(BadMeter)。
故障數據倉庫各表字段包括條形碼編號、表故障編號、安裝時間、拆除時間、地區編號、電池使用時間、電池電壓、開蓋次數、電表讀數、芯片型號編號、芯片型號、通訊接口編號、通訊接口型號、地區名稱、建檔日期、故障類型、故障編號。
各表中的數據,根據對于舊表數據的統計,共有7個芯片型號、8種通訊接口、5種電流型號、30個電表廠家和28種電表故障。按照天津區域分布,將天津分為10個區域,把時間分為日、月、年三個維度,在決策時可以按照不同時間緯度來進行統計工作。
2 故障分布與相關性分析
2.1 各個廠商電表的故障分布分析
針對各電表生產廠商的故障電表,進行以下三項分析:
各電表生產廠商內部的故障分布比例;各電表廠商的易發生故障列表(采用基于t檢驗的評分機制);各電表廠商的特有故障列表(廠商的特有故障為相對于其他電表生產廠商,該廠商更易出現的故障,采用tf/idf法分析)。
從分析結果發現,多數廠商和地區的故障分布均具有一定特殊性,可以通過深入分析找到某廠商或地區區別于其他地區的特有故障類型。
2.2 故障之間的相關性分析
對各故障之間的相關程度進行分析(采用經過t檢驗的斯皮爾曼等級相關系數,保留相關度>0.9的高度相關故障,共20對)。
從分析結果中我們可以看到,部分故障類型之間存在極高的相關性。
3 故障/參數間因果關系檢驗
3.1 Granger因果檢驗原理及方法
Granger因果檢驗通過比較“已知上一時刻所有信息,這一時刻X的概率分布情況”和“已知上一時刻除Y以外的所有信息,這一時刻X的概率分布情況”來進行假設檢驗,進而判斷Y對X是否存在因果關系。
在本任務中,我們首先對芯片型號、電流型號、通訊接口型號、地區、生產廠家、電表使用時間、電表讀數、電表故障組成的矩陣進行單位根檢驗,以判斷序列是否是平穩的。如果平穩則進一步兩列兩列之間進行Granger因果檢驗。
3.2 Granger因果檢驗結果
在進行單位根檢驗后,ADF-Fisher Chi-square的P值為0,小于0.05,因此序列是平穩的。在進行Granger因果檢驗后得到如下實驗結果。
①對于電表故障來說,芯片型號、使用地區、電表生產廠商、通訊接口型號、電流型號、電表讀數、使用時間都是影響的原因。
②對于電表壽命來說,芯片型號、使用地區、電表生產廠商、通訊接口型號、電流型號、電表讀數都是影響的原因。
③同時我們發現使用地區的不同,對于電表完整的生存周期中的讀數有因果關系。我們由此可以猜測不同地區的用電習慣可能會有不同。
4 故障預測
在因果分析中,我們驗證了和電表故障與壽命相關的影響因素,現在我們用這些影響因素來訓練基礎的分類器。在原始數據中,我們總共統計出了28種故障。故障類型過于細化且各種故障發生的數量相差極大,對于我們分類器的分類精度造成了非常大的影響。因此我們參照《智能電能表故障原因分類表.xls》,將28種故障分為3大類。我們的分類工作主要是針對這3大類進行分類。
第一類,也可以稱作管理問題,主要包括外觀有污跡和無載波模塊兩類。
第二類是等待報廢的問題,主要包括表殼損壞、按鍵失靈、銘牌損壞、鉛封損壞、接線端子損壞等。
剩下的問題都包含在第三種中,主要包括ERR-01到ERR-08、RS485通訊故障、繼電器故障、黑屏白屏花屏、卡槽壞、密鑰恢復不成功、日計時誤差不合格、液晶顯示故障等等。
接下來我們就針對這三種故障進行了分類器的訓練。目標有兩個:
一是在電表入庫時就預先判斷該電表的可能故障。
二是對已使用電表可能發生故障的預測。
4.1 樸素貝葉斯模型
4.1.1 樸素貝葉斯原理
樸素貝葉斯法是基于貝葉斯定理與特征條件獨立假設的分類方法。樸素貝葉斯分類器基于一個簡單的假定:給定目標值時屬性之間相互條件獨立。貝葉斯公式是:
P(C|X)=(P(X|C)P(C))/P(X)
其中C代表的是我們需要判斷的類別,而X代表的各維參數所組成的向量。
基于假定我們可以把P(Ci|X)的概率轉化為P(Ci|X)=P(x1|Ci)P(x2|Ci)...P(xn|Ci)P(Ci)。然后我們比較所得的概率大小,選取概率最大的類別作為我們分類器的預測類別。
4.1.2 樸素貝葉斯的實現
首先我們從數據倉庫中把我們所需要緯度的數據提取出來,并按照我們需要的格式編排完畢。然后分別統計我們需要的各種先驗知識并訓練模型。
4.1.3 樸素貝葉斯模型的結果
①入庫電表故障預測
經檢驗我們的樸素貝葉斯模型的分類準確度是65.2216%。(如表1)
表1 入庫電表故障預測
[A\&B\&C\&Classified as\&17301\&323\&17461\&A=1\&2467\&243\&2376\&B=2\&13418\&576\&51133 C=3\&C=3\&]
從表格中可以看出我們的樸素貝葉斯分類器對于第三類故障的分類準確度最高,對于第一類的分類準確度次之,對于第二類的分類準確度最差。
以下是分類器工作的示意范例,我們將規范化的芯片型號、地區、生產廠商、通訊接口型號、電流型號構建成一個向量。例如我們選擇一塊芯片型號是東軟4.0、地區是城南、生產廠家是浙江萬勝電力儀表有限公司、通訊接口型號是東軟載波,電流型號是5(60)A的電表將各維信息轉化為(2,7,25,3,5)的向量輸入我們的模型,經過模型計算輸出結果是3,表示模型預測這塊表以后發生第3類故障的概率最高。
關于具體的模型數據,可參考《電表故障樸素貝葉斯結果.doc》以及《TJDW_Problem_NaiveBayes.model》
②已用電表故障預測
經檢驗我們的樸素貝葉斯模型的分類準確度是65.288%。(如表2)
從表格中可以看出我們的樸素貝葉斯分類器對于第三類故障的分類準確度最高,對于第一類的分類準確度次之,對于第二類的分類準確度最差。
以下是分類器工作的示意范例,我們將規范化的芯片型號、地區、生產廠商、通訊接口型號、電流型號、電表使用時間、電表讀數構建成一個向量。例如我們選擇一塊芯片型號是東軟4.0、地區是城南、生產廠家是浙江萬勝電力儀表有限公司、通訊接口型號是東軟載波,電流型號是5(60)A、已使用壽命400~800天、已讀1000~10000字的電表,將各維信息轉化為(2,7,25,3,5,2,2)的向量輸入我們的模型中,經過模型計算輸出結果是3,表示模型預測這塊表如果將會發生故障那么發生第三類故障的可能性最高。
關于樸素貝葉斯模型分類器訓練模型及參數的具體信息,可參考《電表故障樸素貝葉斯結果預測.doc》以及《TJDW_Problem_NaiveBayes_Prediction.model》。
4.2 決策樹模型
4.2.1 決策樹原理簡介
決策樹是在已知各種情況發生概率的基礎上,通過構成決策樹來評價項目風險,判斷其可行性的決策分析方法,是直觀運用概率分析的一種圖解法。
4.2.2 決策樹實現
首先通過統計工作以及數據變換,我們需要構造出輸出數據。然后按照計算信息熵,以信息熵衰減程度從大到小的順序構建樹結構。最后在葉子節點中,通過投票多數通過的方式決定分類結果
4.2.3決策樹模型結果分析
①入庫電表故障預測
經檢驗我們的決策樹模型分類準確率為68.0%。其中對第三類故障的分類準確度較高,第一類次之,對第二類的分類效果較差。
表3 決策樹入庫電表故障預測結果
以下是分類器工作的示意范例,我們將規范化的芯片型號、地區、生產廠商、通訊接口型號、電流型號構建成一個向量。例如我們選擇一塊芯片型號是東軟4.0、地區是城東、生產廠家是浙江萬勝電力儀表有限公司、通訊接口型號是東軟載波,電流型號是5(60)A的電表,將各維信息轉化為(2,6,25,3,5)的向量輸入我們的模型中,經過模型計算輸出得出故障為第一類的概率是0.22、第二類的概率是0.05、第三類的概率是0.73,那么我們預測這塊表將來發生第三類故障的概率最高。
②已用電表故障預測
經檢驗我們的決策樹模型分類準確率為69.1%。其中對第三類故障的分類準確度較高,第一類次之,對第二類的分類效果較差。
表4 決策樹已用電表故障預測結果
以下是分類器工作的示意范例,我們將規范化的芯片型號、地區、生產廠商、通訊接口型號、電流型號、電表使用時間、電表讀數構建成一個向量。例如我們選擇一塊芯片型號是東軟4.0、地區是城東、生產廠家是浙江萬勝電力儀表有限公司、通訊接口型號是東軟載波,電流型號是5(60)A、已使用壽命400~800天、已讀1000~10000字的電表,將各維信息轉化為(2,6,25,3,5,2,2)的向量輸入我們的模型中,經過模型計算輸出得出故障為第一類的概率是0.38、第二類的概率是0.13、第三類的概率是0.49,那么我們預測這塊表將來發生第三類故障的概率最高。
4.3 softmax神經網絡
4.3.1 softmax神經網絡簡介
神經網絡是一種應用類似于大腦神經突觸連接的結構進行信息處理的數學模型。我們所采用的多層感知器是一種前饋神經網絡模型,可以將輸入的多個數據集映射到單一的輸出的數據集上。我們在輸出層的激活函數選擇了softmax回歸函數。Softmax回歸函數是Logistic回歸模型在多分類問題上的推廣,可以將目標變量分為K類。最后我們可以得到樣本屬于各個類的概率分別是多少。
4.3.2 softmax神經網絡實現
首先進行數據變換,將數據變換成我們需要的格式,然后初始化我們的多層感知機并應用調整的共軛梯度下降算法反復迭代更新神經網絡中每個節點的權值,輸出結果使用softmax回歸函數進行激活。等參數收斂后,我們就得到了一個softmax神經網絡模型。
4.3.3 softmax神經網絡結果分析
①入庫電表故障預測
我們選擇芯片型號、地區、生產廠商、通訊接口型號、電流型號作為緯度,將各個可取的屬性值改為0-1表示的布爾值,這樣我們就構建了有60個節點的輸入層,有兩個節點數分別為12和9的隱藏層以及有3個輸出節點的輸出層的softmax多層感知機。(如表5)
可以看出,在入庫電表故障預測中我們的softmax多層感知機模型對于第三類故障分類準確率最高,對于第一類次之,對于第二類效果最差。
以下是分類器工作的示意范例,我們將規范化的芯片型號、地區、生產廠商、通訊接口型號、電流型號構建成一個60維0-1向量。例如我們選擇一塊芯片型號是東軟4.0、地區是城東、生產廠家是浙江萬勝電力儀表有限公司、通訊接口型號是東軟載波,電流型號是5(60)A,將各維信息轉化為向量輸入我們的模型中,經過模型計算輸出得出故障為第一類的概率是0.155、第二類的概率是0.030、第三類的概率是0.815,那么我們預測這塊表將來發生第三類故障的概率最高。
②已用電表故障預測
我們選擇芯片型號、地區、生產廠商、通訊接口型號、電流型號、電表使用時間、電表讀數作為緯度,將各個可取的屬性值改為0-1表示的布爾值,這樣我們就構建了有70個節點的輸入層,有兩個節點數分別為13和10的隱藏層以及有3個輸出節點的輸出層的softmax多層感知機。(表6)
可以看出在已用電表故障預測中,我們的softmax多層感知機模型對于第三類故障分類準確率最高,對于第一類次之,對于第二類效果最差。
以下是分類器工作的示意范例,我們將規范化的芯片型號、地區、生產廠商、通訊接口型號、電流型號、電表使用時間、電表讀數構建成一個70維0-1向量。例如我們選擇一塊芯片型號是東軟4.0、地區是城東、生產廠家是浙江萬勝電力儀表有限公司、通訊接口型號是東軟載波,電流型號是5(60)A、已使用壽命400~800天、已讀1000~10000字的電表,將各維信息轉化為向量輸入我們的模型中,經過模型計算輸出得出故障為第一類的概率是0.307、第二類的概率是0.022、第三類的概率是0.672,那么我們預測這塊表將來發生第三類故障的概率最高。
5 結論
兩種方案唯一的區別在于RS485總線、低壓電力線載波混合抄表系統增加了一層物理設備,即采集終端,使得系統由主站、集中器、采集終端和RS485總線電能表四層物理設備構成。
①綜合性能(性價比),方案1占優;
②在通信性能、遠程斷送電控制、抗擾能力方面,方案1優勢明顯;
③在功能擴展、設備成本方面,方案2占優;
④方案2最大缺點是安裝、調試和維護工作量大,且RS485總線抗干擾能力相對較弱;
⑤方案1最大缺點是一體化載波電能表成本相對較高。
摘 要:當前,大數據分析在作戰指揮中的作用越來越突出。然而,大數據分析有時也會對作戰指揮產生不利影響。該文針對大數據分析的特點和作戰指揮對大數據分析的需求,對大數據分析在作戰指揮中可能存在的困局進行了簡要分析,并提出了破解困局相應的對策。
關鍵詞:大數據分析 作戰指揮 困局 對策
目前,很多國家已把大數據上升到國家戰略加以推動,奪取“數據主導權”的重要性日益突出。未來影響、決定軍事行動的核心是數據。在信息化戰場上,不同偵察平臺搜集的情報、作戰指揮中心的各條指令、作戰力量的實時反饋信息等,都是以數據的形式存在并發揮作用,這些數據不僅量很大,而且類型多樣,來自多源,且以實時、迭代的方式來實現[1]。正因為如此,數據的積累、數據存儲能力、數據分析和處理能力無疑將成為獲取戰場優勢的決定性因素。因此,大數據分析已成作戰指揮的核心要素之一。但是,正如條形碼的應用存在缺陷一樣,最新的大數據分析也可能導致誤入歧途[2]。
1 作戰指揮中大數據分析的特點與作用
一般來說,大數據具有數據類型多樣、數據處理高速、數據規模海量和數據價值密度低等特點[3]。在作戰指揮中,從數據到決策的時效性要求高,要求在規定的時限內挖掘出高價值的輔助決策信息,這對其大數據分析提出了嚴峻挑戰。
作戰決策是作戰指揮的核心,大數據之所以引起作戰指揮領域的高度重視,其重要原因在于大數據直接瞄準作戰指揮的核心。作戰決策過去是科學技術較難滲透的領域,基于指揮員直覺和經驗判斷的決策模式一直占據主導地位,這也被一些人認為是作戰指揮的“軟肋”。大數據分析通過創新式挖掘海量數據,形成從數據到決策的快速反應鏈路,從而構建以諸軍兵種、戰場環境間數據共享為基礎的自主式決策支持系統,化數據優勢為決策優勢,以技術驅動指揮決策模式的變革。目前,在作戰指揮領域,針對作戰數據的分析處理能力還很薄弱,加強大數據分析不僅能為作戰指揮提供有價值的決策信息,而且有助于快速建立從數據到決策的指揮鏈路、有效解決指揮信息流通的一些“瓶頸”問題,以確保奪取作戰的“數據主導權”。
2 大數據分析在作戰指揮中可能存在的困局
在信息化戰場上,事物之間的關聯性越來越普遍;但許多關聯隱藏很深,僅靠直覺和經驗判斷難以發現。相關關系是大數據分析的核心。一般來說,兩種數據的相關關系可通過當一種數據產生變化時引起另一種數據的變化程度來衡量,變化程度越高,說明這兩種數據的關聯度就越高。大數據分析通過識別有用的關聯物來進行分析,關聯物數量越多,種類越豐富,分析的綜合程度就越高,判斷預測的準確性也就越高。在作戰指揮領域,大數據分析主要通過對戰場大量的、相互關聯的終端產生的數據進行相關關系的分析,進而形成判斷、得出結論,并做出預測。
然而,在作戰指揮中,由于從數據到決策的高時效性和高對抗性,大數據分析可能存在以下困局:
由于全樣本數據需要更多的時間去分析,采用全樣本數據分析有時難以滿足作戰決策的高時效性要求[4];此外,作戰數據難免會包含一些不良信息;因此,如何動態地組織數據樣本既使其數據價值密度提升又使其分析能滿足作戰決策的時效性要求是一個十分棘手的問題。
大數據樣本不僅耗費更多的時間去分析,它們往往還包含所含個體的許多不同信息,從統計學的角度講,這意味著這些樣本是“高維的”,而更多的維度增加了獲得欺騙性關聯的風險。在作戰指揮中,一旦大數據分析得出的分析結論包含了欺騙性關聯的信息,可能給作戰決策造成嚴重的不利影響,而發現欺騙性關聯絕非易事。因此,防范欺騙性關聯是作戰指揮中大數據分析面臨的一個難點問題。
上述兩個問題是作戰指揮中大數據分析迫切需要解決的問題,否則作戰指揮中大數據分析的可靠性難免將遭受質疑。
3 破解作戰指揮中大數據分析困局的對策
作戰指揮產生大量、異質結構的數據集,為了提高大數據分析的時效性,應在作戰決策知識情景庫的引導下動態地組織樣本數據集。作戰決策知識情景庫應該包含戰場態勢的框架性信息。一般來說,為便于激活數據關聯,作戰決策知識情景庫包括主題關鍵詞表、子主題關鍵詞表和配屬關鍵詞表。一個主題關鍵詞代表戰場情況的一個重要方面,它對應若干子主題關鍵詞,而一個子主題關鍵詞又對應若干配屬關鍵詞,配屬關鍵詞通常代表局部的細節。對作戰決策來說,一條高價值的預測結論通常有一個主題,并且還與其它主題相關;因此,用于分析的樣本數據集應包含與所涉及主題所有配屬關鍵詞相關的數據,并過濾掉失效或虛假的信息。作戰決策知識情景庫既是動態組織樣本數據集的牽引,也為樣本數據集的數據挖掘提供了導向性信息[5]。利用作戰決策知識情景庫動態組織樣本數據集提高了數據質量和整體一致性,避免了無關數據的干擾,無疑使數據分析更有針對性,也更有效率。
在作戰指揮的大數據分析中,為了避免分析結論包含欺騙性關聯的情況發生,需要對分析結論進行檢驗,以證實結論中每一項關聯的真實性。競爭假設分析法是一個有效的證偽方法,它將結論中每一項關聯看作一個假設,平等地對待各個假設,通過尋找證據反駁假設的方法來識別假設,只有不能被駁倒的假設才被接受是真實的。競爭假設分析比較適合用于對分析結論進行檢驗[5]。客觀地說,利用競爭假設分析法對大數據分析結論進行檢驗需要建立相應的評判標準、規則和知識庫,并設計相應的數據挖掘算法;這本身就是一項具有挑戰性的工作。值得強調的是,對分析結論中的關聯進行識別不僅能有效防范因數據的多維度產生欺騙性關聯的風險,而且能避免因過度關注某一類數據(如最新的數據)而陷入“一維”視角。對作戰指揮的大數據分析而言,對分析結論進行檢驗無疑會提高其質量,也是其不可缺少的一部分。
4 結語
在信息化戰爭中,指揮人員可以有效利用大數據探尋信息化戰爭的內在規律,而不是“淹沒”在海量數據中一籌莫展。因此,大數據分析在作戰指揮中的作用越來越突出。為了快速為作戰決策提供高價值的情報,大數據分析必須解決動態組織樣本數據和對分析結論進行檢驗的難題。當前,作戰指揮領域大數據分析的研究方興未艾,有許多難題尚待解決。面對諸多困難與挑戰,只有調動多方力量,充分吸收并借鑒各相關領域研究的方法或成果,勇于探索和創新,才能實現大數據分析有效服務于作戰指揮的目標。
摘 要:大數據是當今世界信息化建設發展的大趨勢,它帶來了一場工作、生活和思維上的大變革,也引發了對大數據背景下軍隊審計數據分析的思考。文章基于大數據發展趨勢和軍隊審計工作現狀,指出應從數據基礎式審計、研判數據結構、運用挖掘型技術、構建安全體系等方面入手,加強大數據背景下軍隊審計數據與信息化建設。
關鍵詞:大數據 軍隊審計 數據分析
大數據是以云計算為基礎,通過信息存儲、分享和挖掘,將大量、高速、多變的終端數據存儲下來并分析計算,尋求解決問題的有效方法。隨著軍隊信息化建設的不斷推進,未來軍事經濟活動都將以數據信息流的形式展現和保存,產生的數據量增長迅速,數據種類和格式日漸豐富。面對一個個數量龐大、種類繁雜的數據信息源,審計機關不僅要具備對海量數據的采集和存儲的能力,更重要的是能夠迅速分析和挖掘數據,從中找出審計線索、發現問題、尋求對策。
一、大數據的定義與特征
根據維基百科的定義,大數據是指無法在可承受的時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合。對于大數據,美國著名的顧能公司給出了這樣的定義:是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。隨著大數據研究的深入,大數據概念的內涵和外延不斷地產生變化,業界對其定義尚未完全統一。目前主流的定義基本是從大數據的特征出發,試圖通過闡述和歸納這些特征來給出大數據的定義,其中比較有代表性的是4V。大數據的4個“V”有四個層面:一是數據體量巨大。從TB級別,躍升到PB級別。二是數據類型繁多。包括網絡日志、視頻、圖片、地理位置等信息。三是處理速度快。1秒定律,可從各種類型的數據中快速獲得高價值的信息,這一點也是和傳統的數據挖掘技術有著本質的不同。四是只要合理利用數據并對其進行正確、準確的分析,將會帶來很高的價值回報。業界將其歸納為4個“V”――Volume(數據體量大)、Variety(數據類型繁多)、Velocity(處理速度快)、Value(價值密度低)。大數據分析相比于傳統的數據倉庫應用,具有數據量大、查詢分析復雜等特點,強調將數據結合到業務流程和決策過程中,部分類型的數據必須實時分析才能對業務產生價值。
二、大數據背景給軍隊審計數據分析帶來的機遇和挑戰
(一)大數據背景給軍隊審計數據分析帶來的機遇
1.軍隊審計數據分析的認同感大為增強。軍隊審計部門作為綜合性的經濟監督部門,一直秉承數據說話的傳統。審計報告中無論是綜合評價,還是揭示問題,無一不是以數據為支撐的。在大數據背景下,海量數據離散地存儲于不同信息系統中。可充分利用數據倉庫、聯機分析、數據挖掘和數據可視化等技術,對這些數據進行關聯并深度挖掘分析,科學評估經費的使用情況和法規的實施效果,從而得出客觀的審計結論。所有這一切都將得到各級黨委和被審計單位的高度認同,從而進一步提升軍隊審計自身的地位。
2.軍隊審計數據分析所需的基礎數據的獲取將變得更為便利。在破除了軍隊內部協同思想理念上的障礙后,隨著大數據技術發展,跨越系統、跨越平臺、跨越數據流結構的技術將使軍隊內部縱向、橫向部門得以流暢協同。軍隊審計部門不再需要“點對點”地與被審計單位進行聯網,在內部局域網設定的許可權限內,可以直接查詢和利用相關數據信息,極大地節約了審計成本;同時由于利用大數據技術,數據處理及分析響應時間將大幅減少,審計工作的效率將明顯提高,可以同時對多個類別、多種領域的數據進行分析、處理。
3.軍隊審計數據分析將有助于提高黨委決策的科學性和準確性,推動預測預警和應急響應機制建設,更加有效地規范軍事經濟活動。審計人員可以通過對歷年海量數據的統計分析,挖掘出軍事經濟活動的特點規律,對各類違規違紀行為進行總結歸納,為黨委建章立制提供參考依據;同時還能科學地評估管理規章的執行效果,從而幫助各級黨委不斷發現問題、整改落實。隨著審計分析的進一步深化,審計分析將超越傳統的數據分析方法,不但是對純數據可以進行分析挖掘,對財務賬表、報告等都可以進行深度挖掘、人工智能。
(二)大數據背景給軍隊審計數據分析帶來的挑戰
大數據在給軍隊審計信息化帶來機遇的同時,也帶來前所未有的挑戰:一是實現資源統一規劃和使用,必須以數據編碼和信息標準統一、相互之間兼容互聯為前提。由于目前缺乏制度依據,部門間橫向協同難,原有的“信息孤島”將給審計機關獲取審計數據以及進行持續化審計造成困難。二是面對數量龐大、種類繁雜的數據信息源,審計機關不僅要具備對海量數據的采集和存儲的能力,更重要的是能夠迅速分析和挖掘數據,從傳統的“經驗依賴”轉化為“數據依賴”,審計人員的數據駕馭能力將受到考驗。三是審計業務流程大多以數據信息形式展現,資金流向更多體現為數據信息流的交換,使得違規違紀行為更加隱蔽和多樣,微小的數據變動就可能造成經濟損失。以往僅限于重點人員和財務的審計已經不能滿足需要,抽樣分析以及單一的財務賬目分析也難以發現微小數據異常,這就要求審計機關對審計對象進行全面覆蓋。四是審計機關作為軍事經濟運行安全的免疫系統,不僅要對已存在的問題進行查處和修補,還要對潛在的風險進行及時的揭示和抵御,更要通過大數據這個金礦,從更高層面、更全范圍、更廣視角為上級黨委提供系統性、綜合性、前瞻性的審計建議。
三、大數據背景下軍隊審計數據分析的策略
(一)明確工作目標導向,實施數據基礎式審計
傳統的以審計組劃分的分散式審計模式已不能適應大數據背景下審計數據分析工作要求。首先,當前軍隊審計工作要建立健全制度、整合審計資源,結合審計人員的專業理論素養、實踐工作經驗、數據處理能力等因素,著手組建數據集中分析模式團隊。其次,明確審計工作目標導向,按照“總體全面分析、重點業務分析、重點事項分析”逐層遞進的思路,以系統全面的數據信息源為基礎,堅持“面向業務需求、指導審計實踐、推動數據分析”的原則開展審計數據分析工作。最后,要理清軍隊審計數據分析的工作思路,運用信息系統實施數據基礎式審計方法,全面分析被審計單位在經濟活動中存在的問題與不足,為軍隊審計工作的順利開展提供數據支撐和技術保證。
(二)研判后臺數據結構,掌握重點數據資源
在大數據時代,軍事經濟數據將呈現指數增長,挖掘重點及敏感數據審計的難度日益加大。做好審計數據的掘取、存儲、處理與應用,對提高審計效率、實現分析結果的精準化具有重要作用。通過檢查被審計單位內部控制制度,審查單位內部對不同業務數據的使用管理是否到位,數據庫管理和安全操作制度是否完善,重點領域數據庫常態監管措施是否嚴格,移動設備安全使用規程是否執行;依據數據庫設計文檔和數據注釋等媒介,研究論證后臺數據結構,確定重點、敏感信息數據庫范圍;采取穿行測試法、重新執行法、代碼審查法、文檔審查法等技術手段深入挖掘,切實掌握重點事項、信息、賬表和報告間的勾稽關系。
(三)運用挖掘型分析技術,開展數據深度分析
目前軍隊審計中應用較多的是查詢型分析和驗證型分析,無法滿足深刻揭示軍事經濟活動內在規律的現實需要,必須要引入挖掘型分析技術。挖掘型分析是利用數據倉庫和數據挖掘工具進行的審計分析,主要有分類、回歸分析、聚類、關聯規則等方法。運用挖掘型數據分析技術,首先要做好審計數據的分類、存儲、快速調用等工作,整合分析數據資源,搭建云數據存儲平臺,完善數據整理和研判機制,實現重點數據庫間的兼容互聯,共享審計云平臺服務器運算能力資源。其次,要研發數據審計方法和分析工具,運用移動辦公、云計算等技術對海量數據進行遠程分析,深度分析審計疑點及問題線索,進而實現數據分析結果的精確化。
(四)把握系統運行特點,構建數據安全體系
大數據在給軍隊審計工作創新發展帶來機遇的同時,也為信息資源安全帶來了挑戰。軍隊審計部門掌握了大量關系到國家安全和國防實力的經濟數據,這些寶貴的數據資源一旦損失,將會對國家安全造成無法挽回的損失和后果。要確保數據資源安全,必須全面了解被審計單位信息系統的管理體制、總體架構、規劃設計、管理水平等特點,重點調研審計信息系統的數據資源,尤其是清楚掌握后臺數據庫的的項目、數量、功能模塊、版本、管理維護部門、訪問模式、數據存儲和備份等信息。要重視審計數據及其信息安全系統的建設,創新大數據信息安全審計技術的研發,加強對重點領域敏感審計數據的監管,運用大數據技術應對高級可持續攻擊,并精心培養一大批既具備軍隊審計業務知識又具備數據挖掘和應用開發能力的專業技術人才,著力構建完善的數據安全體系。
(責編:若佳)
摘要:隨著大數據時代的到來,大數據分析也應運而生。將大數據分析應用于數學課堂教學是一種全新的嘗試。本文簡要分析了大數據分析的概念,從不同方面對基于大數據分析下的教學課堂教學進行了深入研究,結合筆者豐富的教學實踐,最終提出了一些基于大數據分析下的數學課堂教學的策略。希望通過本文的分析研究,能夠為更好地進行數學課堂教學,提供一些有益的借鑒與參考。
關鍵詞:大數據分析;數學課堂;教學研究
如今,我們已經進入到了一個“數據驅動學校、分析改革教育”的大數據時代,大數據正影響著傳統教育與傳統教學,未來大數據必將改變傳統教育的面貌[1]。隨著大數據時代的到來,大數據分析也相應地產生。因而,研究基于大數據分析下的數學課堂教學具有較為重要的理論意義和現實意義。
一、大數據分析的概念
1.大數據的概念。就數據本身而言,其是記載信息的一種載體,當然,也是知識的來源。數據的不斷增加,表示其相應的記錄范圍、測量范圍和分析范圍在不斷擴大,表示人類獲取的知識越來越多,獲取的信息量越來越大,而知識的邊界也在相應地不斷擴展與延伸。所謂大數據,可以從宏觀和圍觀兩個角度來進行理解,有不少國內外學者選擇從宏觀角度理解和研究大數據,其對于大數據的概念做了以下定義,即需要新處理模式才可以具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產,大數據具有4V特點,分別是Volume(數據量大)、Velocity(實時性強)、Variety(種類多樣)、Veracity(真實性),另外還有一部分學者認為應當再加兩個V,即Value(價值)和Visualization(可視化)[2]。而維基百科給出的定義則是無法在可承受的時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合。
2.大數據分析的概念。所謂大數據分析,即對規模巨大、數量龐大的數據進行分析。其具有四個非常顯著的特征:首先,數據量大;其次,速度很快;再次,種類繁多;最后,真實性。而大數據分析的目的就是要通過對歷史數據的分析和挖掘,科學總結與發現其中蘊藏的規律和模式,并結合源源不斷的動態流式數據去預測事物未來的發展趨勢[3]。
二、基于大數據分析下的數學課堂教學策略
1.更新教學觀念,構建數據分析觀念。物質決定意識,意識是物質的反映。在高中數學教學中,教師在課堂教學的過程中,教學方法、教學模式難免會受其自身教學觀念的影響,因而數學教師首先必須先更新教學觀念,構建數據分析觀念。在新課標中提出了“數據分析觀念”一詞,這一詞是由“統計觀念”變更而來。由此可見,隨著大數據時代的來臨,數據分析也日益受到人們的關注與重視。因而,有必要在數學課堂教學構建相應的背景,構建數據分析觀念,使學生樹立數據分析的意識,并對其予以重視[4]。
2.勇于探索,在數學教學中嘗試分層教學。在現行的高中數學課堂教學上,一般采取班級統一上課的模式,這樣的教學模式比較固定,缺乏新意,不利于培養和發展學生的個性,更不利于挖掘學生的潛能。我國古代教育師祖孔子曾提出“因材施教”,就是要求教師根據每個學生不同的情況,對學生進行不同類型的教育。在高中數學課堂教學中,教師可以對學生嘗試分層教學。一個班有眾多的學生,學生與學生之間存在著個體、個性差異,對不同的學生進行不同類型的教學,能夠促進有效教學。對于個性化差異和個體化差異比較明顯的小學生,也可以嘗試不同的教學方法,嘗試全新的教學模式,對于不同基礎和不同背景下的學生,要正視其存在的個體差異,對他們進行分層次的教學,這樣有利于促進學生更好地學習數學,也有利于充分挖掘學生的數學潛能。
3.學會運用大數據分析和獲取數據中的有用信息。在高中數學教學中,教師應注意引導和幫助學生學會運用大數據分析和獲取數據中的有用信息,充分調動學生學習數學的積極性和主動性。通過激發學生的學習興趣,幫助學生提高他們的學習效率,這樣既有助于促進學生全面發展,也有助于提升高中數學課堂教學的效率[5]。舉例來說,教師可以結合高中數學教材內容,大數據分析工具制定教學計劃,例如在學習《空間向量》這一章時,教師可以引導學生結合實際生活,充分發揮想象力,對空間向量進行思考,還可以引入與空間向量相關的內容,通過相關數據分析,幫助學生加深對知識的理解。同時,帶動學生主動思考,積極參與課堂互動。此外,教師還應教學生學會獲取數據中的有用信息。以高中數學《統計》這一章為例,在學習《統計》這一章時涉及抽樣方法以及總體分布的估計,教師可以在具體教學過程中,引導學生利用大數據對相關數據進行分析,然后從中獲取有用的信息,以幫助解題。
4.引入數據挖掘算法,提升數學運算能力。數學教師除了按照教學大綱要求完成教學任務之外,還要注意在數學課堂中引入數據挖掘算法,注意提升學生的數學運算能力。一方面,數學教師要利用大數據分析工具密切關注學生對所學數學知識的掌握情況;另一方面,還要密切關注學生對于數學運算能力的掌握。引導和幫助學生學會收集數據和使用數據,利用大數據中的數據挖掘算法,培養數學解題能力。對于高中學生而言,數學運算能力是其必須掌握的,數學運算能力是學好數學的前提和基礎。因而,數學運算能力非常重要。舉例來說,在高中數學的運算中,涉及函數、指數和向量等計算,而這些計算相對而言又比較復雜,如果在計算過程中出現失誤,將導致整個運算結果錯誤。這就要求學生具備較強的運算能力,在運算過程中保持細心、認真和嚴謹的態度進行運算。在高中數學教學中,教師要教學生運用不同的數學方法進行解題,讓學生學會舉一反三。
5.學會分類,重視數學知識的積累。高中數學學科是一門具有較強的抽象性和較強的邏輯性的學科,知識點還比較多,這就要求學會分類,對各類數學知識進行分門別類,這樣有助于加深對知識的理解,也有助于理清數學知識的脈絡,促進學生更好地進行下一階段的數學學習。此外,還應重視數學知識的積累。高中數學知識具有較強的連貫性和銜接性,學生在學習過程中如果出現知識點斷層問題,很容易影響下一階段的數學知識學習,致使前期所學的知識與后期將要學習的知識無法較好地銜接,影響學生的學習積極性,也會在一定程度上影響學生的整體成績。因而,在高中數學教學過程中,教師要注意幫助學生做好相關知識點的復習和鞏固,加深學生對前期所學知識的印象。例如:在初中的數學學習過程中,教師對十字相乘法已經不作要求了,同時對三次或三次以上多項式因式分解也不作要求了,但是到了高中教材中卻多處要用到。另外二次根式中對分子、分母有理化這也是初中不作要求的內容,但是分子、分母有理化卻是高中函數、不等式常用的解題技巧,特別是分子有理化應用更加廣泛。所以,教師在教學過程中,應該多復習以前學生學過的知識,將其進行一定的積累,同時,也能為其今后數學知識的學習奠定良好的基礎。此外,還要養成良好的數學學習習慣和數學知識積累意識,在實際學習過程中,充分重視數學知識的積累,通過各種不同的方式促進對數學知識的理解,并且學會運用自己所學的數學方法來解決數學問題,通過這種方法能夠使學生不斷地鞏固所學的數學知識,提升數學解題能力,提升整體數學素質。
6.感悟數字化的便利,學以致用,提升數學應用意識。大數據時代的來臨,改變了人們以往的生活方式,改變了人們生活的方方面面,也在一定程度上改變了數學課堂教學,舉例來說,大數據時代的來臨改變了高中數學課堂教學的形式、方法等。教師可以通過大數據提供的數字化信息,運用多媒體設備進行備課以及給學生布置作業,還可以利用大數據分析班里每位同學的學習情況。在數學學習過程中,學生在感悟數字化的便利的同時,還要學會將所學的數學知識融會貫通,學以致用。當然,有一點必須強調的是,無論哪一學科,都有其自身的特性及作用。以高中數學學科為例,數學是一門科學性與綜合性較強的學科,其作用之一就是能夠培養人的邏輯思維推算能力。并且,數學還是一門與我們生活息息相關的學科。因而,在學習數學這門課程時,教師要當好向導的角色,注意培養學生的數學學習意識,要讓學生學以致用,注重提升他們的數學應用意識。
三、結束語
綜上所述,基于大數據分析下的數學課堂教學策略主要有:第一,更新教學觀念,構建數據分析觀念。第二,勇于探索,在數學教學中嘗試分層教學。第三,培養數學學習興趣,學會獲取數據中的有用信息。第四,引入數據挖掘算法,提升數學運算能力。第五,學會分類,重視數學知識的積累。第六,感悟數字化的便利,學以致用,提升數學應用意識。筆者希望有更多的有志之士,能夠投身到這個課題的研究之中,指出筆者在文中的不足之處,同時也可以為基于大數據分析下的數學課堂教學這一課題的研究,做出自己應有的一份貢獻。
摘要:從近幾年的經濟發展來看,我國金融已經從以前的傳統金融邁進了互聯網金融時代,在政府的大力支持下,促使了互聯網行業蓬勃的發展,同時也有力地推進了我國傳統金融行業的改革。雖然互聯網金融行業可以更快捷、更有效地處理大量數據而被廣泛的使用,但是這也給金融行業帶來了新的挑戰和風險,如風險控制、預警及金融穩定等。因此,為了能夠使得互聯網金融行業安全、快速地發展起來,我們必須建立起一個健全的互聯網金融風險預警體系,才能保證互聯網金融順利地進行。
關鍵詞:大數據 互聯網金融 金融風險 風險預警
近幾年來,我國互聯網行業不斷發展,互聯網金融也蓬勃地發展起來,2015年中國的互聯網金融行業規模已經突破了14萬億元,互聯網金融已經遍及全中國。雖然如此,互聯網金融中仍然存在著很多的不足和風險,為了能夠更好地控制和發現互聯網金融中存在的風險,我們必須有建立一個健全的互聯網金融預警系統。本文就是以大數據為基礎,結合互聯網金融自身獨有的特點,建立大數據分析下的互聯網金融風險預警系統。運用這個系統能提前發現互聯網金融中的各種風險及不足,可以讓企業提前做好準備及防范,保證互聯網金融更安全地發展起來。
一、概念
互聯網金融是指依托互聯網工具及通信工具來實現資金互轉、支付等業務的新興行業模式。這種互聯網金融模式主要依托的是互聯網技術水平,然而隨著互聯網絡技術水平的提高,互聯網金融也在快速地發展。
二、大數據及其特點
(一)數據分類
在互聯網金融行業中,數據貫穿了整個網絡金運轉過程。在互聯網金融交易中主要有:參與者(客戶)、互聯網金融企業及相關的金融產品和服務。互聯網金融不僅僅可以輸入、保存參與者(客戶)信息數據以及提供產品信息數據,甚至還可以保留參與者(客戶)在對互聯網平臺進行操作時的各種數據信息,這些數據信息正是互聯網金融大數據庫,是網絡金融的基礎。根據互聯網金融數據的操作過程,可將其分類為:用戶信息數據、成交信息數據、用戶操作數據等。
用戶信息數據是指每個參與者(客戶)在建立賬戶時要填寫的基本資料,這些資料被保存后就會被自動儲存到企業的信息系統里。用戶資料數據關系到每個用戶的私人資料,所以企業必須對此數據進行嚴格保密,進行統一的管理,不能被泄露。
成交信息數據是指互聯網金融行業為用戶提供了商品及服務,然后用戶對此商品或服務進行購買成交時,有成交信息數據,可以保留你成交過程中的整個操作,作為你安全成交的憑證和依據,防止交易過程中產生的風險。用戶操作數據,是記錄用戶在對互聯網金融行業平臺進行操作時相應過程的記錄。
(二)數據特點
互聯網金融數據分為以下特點:規模廣、多樣化、高效性。首先,規模廣是指互聯網金融數據涉及廣泛,覆蓋廣。其次,多樣化是指互聯網數據涉及種類多,信息數據的多元化。最后,高效性是指對互聯網金融數據信息處理及時、準確、高效。
三、互聯網金融風險
在互聯網金融發展過程中,存在不少風險,主要體現如下:第一,用戶對互聯網金融與傳統金融概念不清晰,投資風險意識不強,有人認為互聯網金融是創新投資,與傳統金融不同,其實互聯網金融與改變傳統金融并沒有本質上的區別;第二,存在技術不足與人為破壞導致的風險,互聯網金融雖然已經被廣泛使用,但是互聯網技術風險還是存在的,例如計算機故障與其他類型的風險,例如:黑客、病毒等。
第三,經營多樣化導致監管風險。互聯網金融的多樣化導致風險監管難度更大,涉及到銀行業務、證券業務、保險業務等,業務交叉性強。第四,互聯網金融市場在一定程度上與傳統金融市場相沖擊。
互聯網金融的興起與傳統商業銀行業在一定程度上是相沖擊的,使得銀行間的競爭增大,相互抬高利率,而且還改變負債的結構。
四、互聯網金融風險預警系統
(一)以數據為基礎
在互聯網金融風險預警系統建立的過程中,我們必須注意以下幾點:
第一,可操作性,在互聯網金融風險預警系統建立時,要結合本企業實際情況,方便、安全、易操作;在對數據進行分析時,要有利于操作,這樣才能快速識別風險,作出防范。
第二,及時性,對于互聯網金融行業的數據我們必須及時處理,具有高效性,所以在進行建立該系統的時候必須要注意時限性,確保能夠及時地發現風險及不足,這樣才能有充足的時間去預防,避免出錯,造成不良損失。
第三,準確性,在建立該預警系統的過程中要保證數據的準確性,才能避免對風險作出錯誤的判斷,造成不必要的損失。
(二)系統數據分級
在互聯網金融預警系統分為四個級別,分別如下:
1、數據管理
互聯網金融預警系統是以數據為基礎的,預警系統對數據進行分析與處理,所以要對數據的管理建立健全系統。這樣可以更方便地對數據進行導出、整理及存儲。
2、數據整合
數據整合主要是風險預警系統對數據進行整體的分析,進行風險預警。
3、數據分析
風險預警系統進行數據整合后,對所有的數據進行分析和處理,從而來判定風險。所以,風險預警系統必須具備智能性。
4、數據結果
數據解釋就是數據分析能夠對風險進行解釋及反應,并且分析結果。
五、結論與建議
綜上所述,互聯網金融風險預警系統主要作用是降低企業經營過程中的失誤,對風險能過提早進行預警,及時作出防范,減少不必要的損失。在互聯網金融風險預警系統運行過程中,我們提出幾點建議:第一,企業應對員工建立健全的考核評價體系,“人”是萬事的主導者,所以建立完整的考核評價體系是必然的;第二,企業應該制定科學的金融風險預警系統操作規范。為了確保該系統能實現規范性的操作,企業應該制定一套科學規范的程序,同時還要制定該系統的使用規范及流程,以便明確操作人員的權責及范圍,對風險進行及時處理與實時監測。