時間:2023-03-16 17:32:07
導言:作為寫作愛好者,不可錯過為您精心挑選的10篇數據挖掘技術論文,它們將為您的寫作提供全新的視角,我們衷心期待您的閱讀,并希望這些內容能為您提供靈感和參考。
隨著信息技術迅速發展,數據庫的規模不斷擴大,產生了大量的數據。但大量的數據往往無法辨別隱藏在其中的能對決策提供支持的信息,而傳統的查詢、報表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數據分析技術處理大量數據,并從中抽取有價值的潛在知識,數據挖掘(DataMining)技術由此應運而生。
一、數據挖掘的定義
數據挖掘是指從數據集合中自動抽取隱藏在數據中的那些有用信息的非平凡過程,這些信息的表現形式為:規則、概念、規律及模式等。它可幫助決策者分析歷史數據及當前數據,并從中發現隱藏的關系和模式,進而預測未來可能發生的行為。數據挖掘的過程也叫知識發現的過程。
二、數據挖掘的方法
1.統計方法。傳統的統計學為數據挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術。貝葉斯推理是在知道新的信息后修正數據集概率分布的基本工具,處理數據挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關系的線性回歸,還有用來為某些事件發生的概率建模為預測變量集的對數回歸、統計方法中的方差分析一般用于分析估計回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應用中有力的工具之一。
2.關聯規則。關聯規則是一種簡單,實用的分析規則,它描述了一個事物中某些屬性同時出現的規律和模式,是數據挖掘中最成熟的主要技術之一。關聯規則在數據挖掘領域應用很廣泛適合于在大型數據集中發現數據之間的有意義關系,原因之一是它不受只選擇一個因變量的限制。大多數關聯規則挖掘算法能夠無遺漏發現隱藏在所挖掘數據中的所有關聯關系,但是,并不是所有通過關聯得到的屬性之間的關系都有實際應用價值,要對這些規則要進行有效的評價,篩選有意義的關聯規則。
3.聚類分析。聚類分析是根據所選樣本間關聯的標準將其劃分成幾個組,同組內的樣本具有較高的相似度,不同組的則相異,常用的技術有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內部關系,從而對樣本結構做出合理的評價,此外,聚類分析還用于對孤立點的檢測。并非由聚類分析算法得到的類對決策都有效,在運用某一個算法之前,一般要先對數據的聚類趨勢進行檢驗。
4.決策樹方法。決策樹學習是一種通過逼近離散值目標函數的方法,通過把實例從根結點排列到某個葉子結點來分類實例,葉子結點即為實例所屬的分類。樹上的每個結點說明了對實例的某個屬性的測試,該結點的每一個后繼分支對應于該屬性的一個可能值,分類實例的方法是從這棵樹的根結點開始,測試這個結點指定的屬性,然后按照給定實例的該屬性值對應的樹枝向下移動。決策樹方法是要應用于數據挖掘的分類方面。
5.神經網絡。神經網絡建立在自學習的數學模型基礎之上,能夠對大量復雜的數據進行分析,并可以完成對人腦或其他計算機來說極為復雜的模式抽取及趨勢分析,神經網絡既可以表現為有指導的學習也可以是無指導聚類,無論哪種,輸入到神經網絡中的值都是數值型的。人工神經元網絡模擬人腦神經元結構,建立三大類多種神經元網絡,具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學習、自組織和自適應能力的種種優點。
6.遺傳算法。遺傳算法是一種受生物進化啟發的學習方法,通過變異和重組當前己知的最好假設來生成后續的假設。每一步,通過使用目前適應性最高的假設的后代替代群體的某個部分,來更新當前群體的一組假設,來實現各個個體的適應性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強的個體,產生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行變異的過程。在數據挖掘中,可以被用作評估其他算法的適合度。
7.粗糙集。粗糙集能夠在缺少關于數據先驗知識的情況下,只以考察數據的分類能力為基礎,解決模糊或不確定數據的分析和處理問題。粗糙集用于從數據庫中發現分類規則的基本思想是將數據庫中的屬性分為條件屬性和結論屬性,對數據庫中的元組根據各個屬性不同的屬性值分成相應的子集,然后對條件屬性劃分的子集與結論屬性劃分的子集之間上下近似關系生成判定規則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補集元素的元素。粗糙集理論可以應用于數據挖掘中的分類、發現不準確數據或噪聲數據內在的結構聯系。
8.支持向量機。支持向量機(SVM)是在統計學習理論的基礎上發展出來的一種新的機器學習方法。它基于結構風險最小化原則上的,盡量提高學習機的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學習問題,現已成為訓練多層感知器、RBF神經網絡和多項式神經元網絡的替代性方法。另外,支持向量機算法是一個凸優化問題,局部最優解一定是全局最優解,這些特點都是包括神經元網絡在內的其他算法所不能及的。支持向量機可以應用于數據挖掘的分類、回歸、對未知事物的探索等方面。
事實上,任何一種挖掘工具往往是根據具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。
三、結束語
2.綜合應用性強數據挖掘技術已經被廣泛地應用在統計工作中的多個領域,并且發揮著重要的作用。數據挖掘技術不僅是一種綜合應用性強的技術手段,同時又能滿足統計數據使用者的特定數據需要。因此,數據挖掘技術能夠對經濟統計數據進行定向的整理和開發,為數據使用者提供更好的服務。
3.宏觀型的數據庫有利于數據挖掘技術的應用當前,我國的經濟統計大多還是采用傳統的經濟統計方法,統計收集的數據信息不能形成有機整體,在對數據進行管理過程中,出現了很多問題。因此。經濟統計工作需要能夠提供數據整理開發的新技術。宏觀經濟統計數據庫,為數據挖掘技術的開展提供了平臺。數據管理系統的經濟統計信息要正確無誤,然后經過數據挖掘技術的整合,就能得到更豐富的數據資源。
二、數據挖掘技術的運用
數據挖掘技術的特性決定了其對經濟統計數據整理的重要性,經濟統計所得到的數據信息要求必須有實用性和真實性,數據挖掘技術的特性正好滿足了經濟統計工作的需要。數據挖掘的過程主要包括以下四種方法:
1.預處理方法首先,要對統計數據進行預處理。由于經濟統計信息在收集過程中存在一些問題,導致收集到的數據存在缺失和模糊現象,這種有缺憾的數據信息不能作為數據挖掘的基礎,因此一定要對數據挖掘對象進行事先的處理。其中包括對基礎數據中不正確、不真實、不準確和偏差較大的數據進行甄別。
2.集成化處理方法其次,要對統計數據進行集成化處理。經濟統計過程中,會出現對多個數據源進行重疊統計的現象,這就要求對數據進行挖掘之前,要有一個統一整理的過程,即數據的集成化處理。數據集成在統計中被廣泛的使用。經過數據集成處理的統計信息更加全面,更加真實,可以作為數據挖掘基礎信息。
3.轉換方法再有,要對統計數據根據需要進行轉換。經濟統計數據的描述形式比較單一,為了滿足數據信息使用者的需要,就要對數據進行轉換,使其的表現形式具有泛化或是更加規范。這里所說的泛化指的是利用更深層次和更加抽象的定義來代替原有的低層數據。
4.決策樹方法除卻上述四種處理方法外,還有決策樹方法,指的是對龐雜的經濟數據進行分類,把有利用價值的統計數據提煉出來,這種數據挖掘形式能夠對分析對象進行體現,并能快速的對信息進行分類處理,能夠解決在經濟統計過程中出現的各種問題。
二、Web數據挖掘技術的工作流程
Web數據挖掘技術的主要工作流程可以分為以下幾個步驟:第一步,確立目標樣本,這一步是用戶選取目標文本,以此來作為提取用戶的特征信息;第二步,提取特征信息,這一步就是根據第一步得到的目標樣本的詞頻分布,從現有的統計詞典中獲取所要挖掘的目標的特征向量,并計算出其相應的權值;第三步,從網絡上獲取信息,這一步是利用通過搜索引擎站點選擇采集站點,然后通過Robot程序采集靜態的Web頁面,最后再獲取這些被訪問站點的網絡數據庫中的動態信息,然后生成WWW資源庫索引;第四步,進行信息特征匹配,通過提取源信息的特征向量,去和目標樣本的特征向量進行匹配,最后將符合閾值條件的信息返回個用戶。
三、Web數據挖掘技術在高校數字圖書館中的應用
高校數字圖書館為師生主要提供以下功能:查找圖書、期刊論文、會議文獻等數字資源;圖書借閱、歸還等服務;圖書信息、管理制度;導航到圖書光盤、視頻資源等數據庫系統。師生時常登錄到網站中查找其需要的信息,根據師生所學專業、研究方向不同,關注目標也不同。通常這類師生會到常用的圖書館網站上,查找自己所需要的特定領域的資源;瀏覽一下有哪些內容發生變化,是否有新知識增加,而且所有改變常常是用戶所關注的內容;另外,當目標網頁所在的位置有所改變或這個網站的組織結構、層次關系有所變動時,所有這些問題只要稍加改動,容易使用戶難以找到所需內容。本課題采用Web挖掘技術與搜索技術相結合。首先允許用戶對感興趣的內容進行定制,構造數據挖掘的先驗知識,然后通過構造瀏覽器插件,捕獲用戶在瀏覽器上的行為數據,采用Web數據挖掘的方法,深入分析用戶的瀏覽行為數據,獲得用戶的信息資料集,最終為用戶提供不同的個性化服務頁面,并提供用戶對站內信息進行搜索功能,同時可以滿足師生對于圖書館資源進行查找訪問的需求,實現高校圖書館網站資源真正意義上的個性化服務。
1、為開發網絡信息資源提供了工具
數字圖書館需要的是一種可以有效的將信息進行組織管理,同時還能夠對信息進行深層的加工管理,提供多層次的、智能化的信息服務和全方位的知識服務,提供經過加工、分析綜合等處理的高附加值的信息產品和知識產品的工具。目前許多高校數字圖書館的查詢手段還只局限于一些基本的數據操作,對數據只能進行初步的加工,不具有從這些數據中歸納出所隱含的有用信息的功能,也使得這些信息不為人知,從而得不到更好的使用,這些都是對網絡信息資源的一種浪費。而通過Web數據挖掘技術科研有效的解決這一問題。這種技術可以用于挖掘文檔的隱含的有用的內容,或者可以在其他工具搜索的基礎上進一步進行處理,得到更為有用和精確的信息。通過Web數據挖掘技術科研對數字圖書關注中的信息進行更加有效地整合。
2、為以用戶為中心的服務提供幫助
通過瀏覽器訪問數字圖書館后,可被記載下來的數據有兩類,一類是用戶信息,另一類是用戶訪問記錄。其中用戶信息包括了用戶名,用戶訪問IP地址,用戶的職業、年齡、愛好等。用戶名師用戶登錄圖書館時輸入,用戶訪問IP地址通過程序獲得,其他的信息都是用戶在注冊時所填寫的,訪問記錄則是在用戶登錄時所記錄的,也是由程序獲得。對這些用戶信息進行分析可以更加有效的了解用戶的需求通過分析服務器中用戶請求失敗的數據,結合聚集算法,可以發現信息資源的缺漏,從而指導對信息資源采集的改進,讓高校數字圖書館的信息資源體系建設的更加合理。對數字圖書館系統的在線調查、留言簿、薦書條等的數據進行收集整理,并使之轉化為標準的結構化數據庫,然后在通過數據挖掘,皆可以發現用戶所感興趣的模式,同時還可以預先發現用戶群體興趣的變遷,調整館藏方向,提前做好信息資源的采集計劃。通過Web數據挖掘,可以對用戶的信息需求和行為規律進行總結,從而為優化網絡站點的結構提供參考,還可以適當各種資源的配置更加的合理,讓用戶可以用更少的時間找到自己所需要的資源。例如可以通過路徑分析模式采掘捕捉確定用戶頻繁瀏覽訪問的路徑,調整站點結構,并在適當處加上廣告或薦書條。
3、Web數據挖掘技術在圖書館采訪工作中的應用
在圖書館的工作中有一步十分的重要,這就是采訪工作,采訪工作的做的好壞程度會直接的對圖書館的服務質量產生影響。通常情況圖書館的工作人員會根據圖書館的性質、服務對象及其任務來決定采訪的內容。但是這種采訪局限性很大,很多時候會受采訪人員的主觀意識的影響,同時這種方式也會顯得死板不靈活。很多時候會出現應該購進的文獻沒有買,不應該買的文獻卻買了很多等與讀者的需求不符的現象。這些現象的產生都是因為缺乏對讀者需求的了解和分析。要解決這些問題就必須對讀者的需求進行全面的了解和分析,而Web數據挖掘則為解決該問題提供了一種較好的方法。通過對各種日志文件和采訪時獲得的數據進行分析,可以很清楚的得到讀者需要的是什么樣的書籍、不需要的又是什么樣的書籍,從而為采購提供各種科學合理的分析報告和預測報告。根據對分析還能幫組圖書館管理人員確定各種所需書籍的比例,從而確定哪些文獻應該及時的進行補充,哪些文獻應該進行剔除,對館藏機構進行優化,真正的為高校里的師生提供所需要的文獻和資料。
4、使用Web數據挖掘技術提供個性化服務
(2)數據準備:首先,對于業務目標相關的內部和外部數據信息進行查找,從中找出可以用于數據挖掘的信息;其次,要對數據信息的內容進行全面細致分析,確定需要進行挖掘操作的類型;然后,結合相應的挖掘算法,將數據轉化稱為相應的分析模型,以保證數據挖掘的順利進行。
(3)數據挖掘:在對數據進行轉化后,就可以結合相應的挖掘算法,自動完成相應的數據分析工作。
(4)結果分析:對得到的數據分析結果進行評價,結合數據挖掘操作明確分析方法,一般情況下,會用到可視化技術。
(5)知識同化:對分析得到的數據信息進行整理,統一到業務信息系統的組成結構中。這個步驟不一定能夠一次完成,而且其中部分步驟可能需要重復進行。
二、數據挖掘技術在水利工程管理中的實施要點
水利工程在經濟和社會發展中是非常重要的基礎設施,做好水利工程管理工作,確保其功能的有效發揮,是相關管理人員需要重點考慮的問題。最近幾年,隨著社會經濟的飛速發展,水利工程項目的數量和規模不斷擴大,產生的水利科學數據也在不斷增加,這些數據雖然繁瑣,但是在許多科研生產活動和日常生活中都是不可或缺的。例如,在對洪澇、干旱的預防以及對生態環境問題的處理方面,獲取完整的水利科學數據是首要任務。那么,針對日益繁雜的海量水利科學數據,如何對有用的信息知識進行提取呢?數據挖掘技術的應用有效的解決了這個問題,可以從海量的數據信息中,挖掘出潛在的、有利用價值的知識,為相關決策提供必要的支持。
1.強化數據庫建設
要想對各類數據進行科學有效的收集和整理,就必須建立合理完善的數據庫。對于水利工程而言,應該建立分類數據庫,如水文、河道河情、水量調度、防洪、汛情等,確保數據的合理性、全面性和準確性,選擇合適的方法,對有用數據進行挖掘。
2.合理選擇數據挖掘算法
(1)關聯規則挖掘算法:關聯規則挖掘問題最早提出于1993年,在當前數據挖掘領域,從事務數據庫中發現關聯規則,已經成為一個極其重要的研究課題。關聯規則挖掘的主要目的,是尋找和挖掘隱藏在各種數據之間的相互關系,通過量化的數據,來描述事務A的出現對于事務B出現可能產生的影響,關聯規則挖掘就是給定一組Item以及相應的記錄組合,通過對記錄組合的分析,推導出Item間存在的相關性。當前對于關聯規則的描述,一般是利用支持度和置信度,支出度是指產品集A、B同時出現的概率,置信度則是在事務集A出現的前提下,B出現的概率。通過相應的關聯分析,可以得出事務A、B同時出現的簡單規則,以及每一條規則的支持度和置信度,支持度高則表明規則被經常使用,置信度高則表明規則相對可靠,通過關聯分析,可以明確事務A、B的關聯程度,決定兩種事務同時出現的情況。
(2)自頂而下頻繁項挖掘算法:對于長頻繁項,如果采用關聯規則挖掘算法,需要進行大量的計算分析,不僅耗時耗力,而且影響計算的精準度,這時,就可以采用自頂而下頻繁項挖掘算法,這種算法是一種相對優秀的長頻繁項挖掘算法,利用了事務項目關聯信息表、項目約簡、關鍵項目以及投影數據庫等新概念與投影、約簡等新方法,在對候選集進行生成的過程中,應該對重復分支進行及時修剪,提升算法的實際效率,從而有效解決了長頻繁項的挖掘問題。結合計算機實驗以及算法分析,可以看出,這種方法是相對完善的,同時也是十分有效的。不過需要注意的是,當支持度較大、頻繁項相對較短時,利用關聯規則挖掘中典型的Apriori方法,可以起到更好的效果。
(3)頻繁項雙向挖掘算法:這種算法是一種融合了自頂向下以及自底向上的雙向挖掘算法,可以較好的解決長頻繁項以及段頻繁項的挖掘問題,主挖掘方向是利用自頂向下挖掘策略,但是結合自底向上方法生成的非頻繁項集,可以對候選集進行及時修剪,提升算法的實際效率。
1.2綜合應用性強如前文所述,數據挖掘技術是一個工具系統而不是單一的工具,能夠實現使用主體的各種信息需求,隨著現代社會經濟的快速發展,當前我國經濟管理的各個部門都需要大量的經濟統計信息來作為經濟管理決策的基礎。但是因為各個管理部門經濟管理的領域不同、經濟管理的方式不同、經濟的管理權限不同,所以相應的經濟統計數據呈現形式的需求就不同。這就為經濟數據統計系統提出了更高的要求,其不僅要對符合各個經濟管理部門需求的數據內容進行統計,同時要將統計完成的數據換算成各種不同的呈現形式,并根據統計信息的來源和統計信息的計算方式對其可靠性進行評估[2]。最終這些數據信息的輸出格式還應該符合所服務的經濟管理部門管理系統的格式要求,保證統計數據能夠在管理部門的管理系統中正常錄入、應用,數據挖掘技術很好地滿足了上述的復雜經濟數據管理要求,其功能的綜合性促進了其應用深度的提高和范圍的擴大。
1.3宏觀數據庫有利于數據挖掘技術的應用當前因為經濟管理部門的職權較為分散,各個經濟管理部門的經濟統計數據需求不盡相同。所以我國的經濟統計活動絕大多數還采用傳統的經濟統計方法,統計收集的經濟信息存在一定的局限性,不能夠服務于經濟管理活動的整體,或者造成一些數據統計工作的重復,對經濟數據統計工作造成了一系列的質量和效率上的影響。經濟數據統計活動急需一個能夠整合各個統計系統,實現統計數據信息融合的新技術。宏觀經濟統計數據庫為數據挖掘技術的開展提供了平臺,數據管理系統的經濟統計信息要正確無誤,然后經過數據挖掘技術的整合,就能得到更加豐富的數據資源[3]。
2數據挖掘技術的應用
在社會經濟管理活動中,管理主體對經濟統計數據的要求主要有兩個。一個是統計數據的真實性、一個是數據統計信息的實用性。單就這兩個經濟統計數據要求而言,數據挖掘技術能夠很好地滿足經濟統計工作的需求,是適用性極強的一種經濟數據統計技術,其在具體的經濟數據統計活動中主要有以下三種應用方法。
2.1預處理方法在經濟數據統計活動中,最為基礎的一種處理方式就是經濟數據的預處理方法,因為數據挖掘本身是一種基于提供基礎信息的智能分析技術。其本身是受基礎經濟信息限制的,不可能無中生有代替經濟數據收集系統的功能。所以所有作為數據挖掘系統數據基礎的經濟統計數據信息都應該進行預處理,處理的內容主要包括對這些數據中不正確、不真實、不準確,以及不同經濟統計數據信息之間差距較大的現象。對這些基礎數據存在的問題進行處理的過程被稱為數據清理,當前數據清理主要采用的方法有均值法、平滑法和預測法。其中均值法是現代分析技術中模糊理念的一種應用形式,當基礎數據中的一個數據點是空值或者噪聲數據的時候,可以采用均值法進行處理,即用數據庫中所有該屬性已知的屬性均值來填補空缺。保證數據挖掘系統對基礎數據的分析和整理能夠正常進行,得出相對而言準確度較高的統計分析數據。其中Ci表示當前數據點的取值,Cj表示當前數據點前后不為空的數據點,K表示當前數據點進行計算所取的參考數據點數量[4]。平滑法依然是對基礎數據中空值和噪聲數據的計算方法,其與均值法的區別是用加權平均數代替了平均數,考慮了計算過程中提取的每一個數據對數據結果的影響權重,所以計算出的結果往往更加接近真實的數值。其中Ci表示當前數據點的取值,Cj表示當前數據點前后不為空的數據點,K表示為對當前數據點進行計算所取的數據點數量。WJ表示Cj數據點的權值。
2.2集成化處理方法在數據挖掘技術的應用活動中,因為相同地區的數據統計主體不同,或者在不同地區對相同經濟數據的統計標準不統一,會產生一系列的數據集成問題,如何對這些調查方向不同或者是呈現方式不同的數據進行有效集成而不影響經濟數據統計的準確性,是數據挖掘技術的重要任務。在具體的數據集成過程中主要考慮以下幾個方面的問題[5]。
2.2.1模式集成當前因為社會經濟活動中經濟數據的統計內容過于廣泛,很多經濟數據統計并不是來自于官方的統計局而是來自一些民間統計組織,或者是由一線社會經濟主體直接提供的經濟數據,在數據挖掘過程中將這些來自多個數據源存在多種數據呈現模式的經濟數據信息進行集成就涉及實體識別的問題。例如在數據挖掘過程中如何確定一個數據庫中“std-id”與另一個數據庫中的“std-no”是否表示同一實體,當前一般使用數據庫與數據庫之間的含元數據對比來保證實體識別高效率和高質量[6]。
2.2.2冗余問題數據挖掘本身是對經濟統計數據的一種深加工技術,經過其加工的經濟統計技術應該在本質上達到最簡狀態。在數據挖掘過程中要將與其他數據呈現某種正相關關系的數據項目進行精簡,以保證數據庫中數據量維持在一個較低的水平,為數據管理和應用提供便利。在經濟數據挖掘活動中人均國民生產總值就是典型的冗余屬性,因為其數值是可以通過國內生產總值和總人口屬性計算出來的,所以類似人均國民生產總值這種冗余屬性在數據挖掘過程中就應該精簡,應用的時候在利用國民生產總值和人口屬性計算得出[7]。對冗余屬性的判斷主要通過相關度對比來實現。其中n表示元組的個數,分別是屬性A和屬性B的平均值,分別是屬性A和屬性B的標準方差,在這一公式中如果則表示A、B兩個屬性是正相關,也就是說A越大B就越大,值越高二者的正相關關系就越密切;如果則表示屬性A、B之間沒有直接關系,是相互獨立的;如果則表示A、B兩個屬性呈負相關,屬性B會隨著屬性A的減小而增大,的絕對值越大,二者的負相關關聯關系就越密切。
2.3決策樹方法在數據挖掘技術應用過程中,經過系統的分析和總結以后,分析數據的輸出是一個關鍵的環節,其輸出的數據形式會對使用者的經濟管理決策產生直接的影響。決策樹是一種較為常見的、直觀的快速分類方法。其應用的關鍵是決策樹的構建,具體而言主要分為兩步:第一步是利用訓練集建立并精簡一棵決策樹,建立輸出分析的模型;第二步是利用構建完畢的決策樹進行輸入數據的分類,這一分類是一個遞歸的過程,從決策樹的根部開始進入到樹干、枝丫,直到輸入數據的分類滿足了某種條件而停止。在具體的應用中停止分割的條件有兩個:一個是當一個節點上的所有數據都屬于同一個類別的時候;另一個是沒有分類屬性可以對輸入數據進行再分割[8]。在決策樹構建完成后,還要根據使用者的具體要求對決策樹進行“剪枝”,剪枝的主要目的是要降低因為使用訓練集而對決策樹本身數據輸出產生的起伏影響。
云計算是并行計算和分布計算以及網格計算的發展,是一種在海量數據大規模的集合中能動態處理各種服務器數據資源的一類計算平臺,在電子商務、商業金融、科研開發等領域能得到廣泛的應用。它具有大規模、虛擬化、高效率、通用性、廉價等特點,能針對不同的用戶的不同需求,動態透明地提供其所需的虛擬化計算和資源儲存,并能及時動態回收當前用戶暫不利用的數據資源以提供給其他用戶,而其廉價、通用的特點,使得一般用戶實現大規模的數據操作成為可能。目前來說,云計算的平臺已得到良好的發展,日益成熟,基于云計算的應用已經可以相當方便的部署和操作其數據資源。
1.2數據挖掘
數據挖掘技術是現代知識發現領域的一個重要技術,它是指一個從隨機的大量而不完整的模糊的實際數據中提取其中某些隱含著的具有潛在價值的實用知識與信息的過程。其具體技術有特征化、聚類、關聯和預測分析等等,涉及到的高級技術領域有統計學、機器學習、模式識別、人工智能等方面。
2基于云計算的數據挖掘平臺構架
網絡云的發展給數據挖掘提出了新的問題和時代的挑戰,同時,也為數據挖掘提供了新的計算平臺和發展機遇。基于云計算的數據挖掘系統平臺的發現,解決了傳統的數據挖掘技術出現的時代滯慢、效率較低、功能落后、成本高昂等問題。云計算是一種商業計算模式,是網格計算與并行計算及分布式計算在一定程度上的商業實現,其動態、可伸縮的計算基于云計算的數據挖掘平臺架構及其關鍵技術探討文/張瑤劉輝云計算是一種在互聯網時代中應運而生的新興的網絡技術,具有高效率、高容量、動態處理的特點,在社會的商業領域和科研領域表現出了其相當高的應用價值。將云計算應用于數據挖掘平臺的構架之中后,將能在很大程度上為現代社會中越來越海量的數據挖掘提供一個高效率的技術平臺。本文將結合云計算和數據挖掘的基本概念和現代意義,對數據挖掘的平臺構架和相應的關鍵技術做出簡要的分析探討。摘要能力使得進行高效的海量數據挖掘的目標不再遙遠。同時,云計算SaaS功能日益被理解和標準化,使得基于云計算SaaS化的數據挖掘有了理論和技術的指導,并具有了企業化與大眾化的發展趨勢。
2.1數據挖掘平臺構架
建立在關系型數據庫之上的傳統的數據挖掘技術構架在現時代數據急劇膨脹和分析需求漸增的發展下已經難以應付社會的數據處理問題。而云計算的分布式存儲與計算形式則接受了當代的數據挖掘難題,促成了適應時代的云計算數據挖掘平臺構架的形成。其包含了面向組件的設計理念和分層設計的思想方法。其構架自下向上總共分為3層,分別為底層的云計算支撐平臺層、中間的數據挖掘能力層和上層的數據挖掘云服務層。
2.2基于云計算的數據挖掘平臺構架各層意義
云計算支撐平臺層:顧名思義,該平臺層是云計算數據挖掘平臺的基礎處理平臺,其主要具有的功能是對分布式文件存儲與數據庫提供資源存儲,以及實行對數據的有關處理和計算功能。數據挖掘能力層:該平臺結構層主要是提供挖掘的基礎能力,是數據挖掘的核心支撐平臺,并對數據挖掘云服務層提供能力支撐。該平臺層包含了算法數據并行處理、調度引起和服務管理的框架,該平臺層可以提供系統內部的數據挖掘處理和推薦算法庫,亦支持第三方的數據挖掘算法工具的進入。數據挖掘云服務層:數據挖掘云服務層的主要功能是對外提供數據挖掘操作的云服務,同時也能提供基于結構化查詢的語言語句訪問,提供相關的解析引擎,以便于自動調用云服務。對外數據挖掘云服務能力封裝的接口形式多樣,包含了基于簡單對象訪問協議下的Webservice、XML、HTTP以及本地應用程序的編程接口等多種形式。另外,在必要的時候,云服務層的各個業務系統可以進行數據挖掘云服務的調用和組裝。
3基于云計算的數據挖掘平臺構架的關鍵技術探討
基于云計算的數據挖掘平臺構架的形成,離不開現代先進的科技技術,其中幾項關鍵的技術應用將在這里進行簡要的闡述:
3.1云計算技術
3.1.1分布式儲存技術
通過采用分布式存儲的方式來存儲數據,是云計算技術保證數據處理高可靠性和經濟性的重要保證。用可靠的軟件來彌補硬件的不足,是分布式存儲技術提供廉價而又海量的數據挖掘支持的重要途徑。
3.1.2虛擬化技術
在云計算的環境下,數據挖掘能實現對大量的可用的虛擬化技術的應用、整合,發展出一套全面虛擬化的運行戰略。云計算和虛擬化的共同組合,使數據挖掘實現了跨系統下的資源調度,將海量的來源數據進行IT資源匯合,動態地實現對用戶的虛擬化資源的供給,從而以高效率、海量動態的特點完成服務任務。
3.1.3并行云計算技術
并行云計算技術是一種對于高效執行數據挖掘計算任務極其重要的技術,并且它對云計算的某些技術細節做出了封裝,例如任務并行、任務調度、任務容錯和系統容錯以及數據分布等。該功能代替了用戶對這些細節的考慮,使得研發效率得到了提高。
3.2數據匯集調度中心
數據匯集調度中心的功能主要是完成對不同類型的數據進行匯集。它實現了對接入該云計算數據挖掘平臺的業務數據收集匯合,能夠解決與不同數據的相關規約問題,并能支持多樣的源數據格式。
3.3服務調度與管理技術
對于基于云計算的數據挖掘平臺,為了使不同業務系統能夠使用本計算平臺,必須要提供相應的服務調度與管理功能。服務調度解決云服務下的并行互斥以及隔離等問題,以保證安全、可靠的平臺的云服務。服務管理功能要實現統一的服務注冊與服務暴露功能,并且支持接入第三方的數據挖掘,以更好地擴展平臺的服務能力。
二、在部隊食品采購系統中的應用以及其價值評價
在部隊食品采購系統實際應用工程中,其實可以運用MicrosoftSQLServerAnalysisServices來對數據進行分析,并且在數據挖掘過程中對多維數據進行描述與查找起到一定作用。因為多維數據比較復雜,增長的也比較快,因此,進行手動查找是很困難的,數據挖掘技術提供的計算模式可以很好的對數據進行分析與查找。在建設部隊食品采購倉庫數據的時候,數據內容主要包括了人員的健康、兵員的飲食以及訓練等,進行數據挖掘主要包括以下內容:第一,把每個主題信息數據進行收集、匯總、分析等,對人員情況、健康、飲食、訓練等進行合理分析;第二,多維分析數據信息。根據部隊的實際情況,利用數據挖掘技術對部隊人員健康、飲食、訓練等數據信息進行多維分析,其中包含上鉆、切片、下鉆等;第三,挖掘健康與飲食之間的內在關系。根據數據庫中許多面向主題的歷史數據,采用數據挖掘技術進行分析與演算得到部隊人員的訓練和健康情況與部隊飲食之間內在關系,以便于為部隊食品采購提供合理的、有效的保障,從而提高部隊整體人員的健康水平、身體素質以及訓練質量,對提高我國部隊戰斗力有著深遠的意義。
2交互式關聯規則挖掘算法
關聯規則挖掘算法在數據庫的記錄或對象中抽取關聯性,展示了數據間位置依賴關系,其目的是尋找在大量的數據項中隱藏著的聯系或相關性。其優越性在于能將用戶的定制信息整合到挖掘過程中,以一種友好的方式引入約束,使挖掘出更加符合用戶需要的信息,并且提高了挖掘的效率和有效性。
2.1目標數據庫的確定
數據挖掘應熟悉對象的背景知識,明確挖掘的目標,根據目標確定相關數據,以此作為目標數據庫,來完成對數據的預處理、挖掘和規則評價。
2.2交互式關聯規則挖掘算法
表示A成立則B成立,其中給出了可信度C和支持度S。可信度C是對關聯規則準確度的衡量,即在出現A的情況下出現B的概率;支持度S是對關聯規則重要性的衡量,即A和B同時出現的概率。
3熔煉機組數據挖掘的實現
本文采用的是冀某工廠于2013年5月運行的數據,采樣頻率為2~3秒/次,采樣模式為實時監測值,得到7595組數據。在分析階段,對影響機組的主要可控參數進行了提取及預處理,參數主要包括:轉速、有功功率、主蒸汽壓力、調節級壓力、中壓缸排汽壓力。以機組轉速設計值為3600r/min為例來分析。對各個可控參數數據進行曲線化處理,作為分析它們之間的關聯規則的數據表。上述關聯規則表示,在三種負荷工況下,工廠熔煉機組有功功率與主蒸汽壓力、調節級壓力、中壓缸排汽壓力三者之間最優變化區間的關聯。經分析,在機組中應用關聯規則的數據挖掘技術與傳統方法相比,優點是其可以對不同的可測參數進行挖掘,方法簡單有效、可操作性強;運用關聯規則進行挖掘,對過程能夠較靈活控制,處理后的目標值直觀,便于操作指導和提高運行效率。
2、國內外文獻綜述
挑選中國知網數據庫,以“知識管理”為主題關鍵詞進行精確檢索,共找到 31,324 篇文獻,其中 2004 年至2014 年間共發表文獻 24,895 篇,近十年是知識管理領域研究的高峰期。以“高校知識管理”或“大學知識管理”為主題關鍵字進行精確檢索,得到 248 篇相關文獻,可發現針對高校的知識管理研究較少。針對結果進行二次檢索,增加主題關鍵詞“數據挖掘”得到相關文獻 3 篇,表明對高校知識管理與數據挖掘技術結合的研究較少,所得文獻主要觀點包括:1.數據挖掘技術可用于高校知識發現;2.數據挖掘對知識管理體系建設有推動作用;3. 高校知識管理成果可通過數據挖掘技術進行評價。對國外學者的研究情況進行分析,挑選 Web ofScience 數據庫。以“knowledge management”為主題關鍵字進行檢索,共得到 62,474 篇文獻,以“knowledgemanagement of college”為主題關鍵字檢索,得到 647篇文獻,再結合關鍵詞“Data mining”,共得到文獻 5 篇。由此可見,國外相關研究比國內多出近一倍,并且研究的程度深、范圍廣。但關于高校知識管理與具體信息技術結合應用的文獻仍較少,且發表日期多為 2010 年后。
3、知識管理與數據挖掘結合的軟件要求
知識管理與數據挖掘技術的結合運用對高校相關設備提出了一定的要求,包括對服務器、客戶端計算機的硬件要求以及對知識管理平臺、數據挖掘工具的軟件要求,本文中將重點敘述軟件要求。
知識管理平臺要求
知識管理平臺是高校知識管理的實施基礎,它為高校人員提供了可視化的操作界面,其應實現的基本功能包括:1.數據接口;2.工具接口;3.數據挖掘(內置或外接);4.知識倉庫;5.知識索引、推薦;6.信息檢索;7.組織內交流;8. 管理評價。一個知識管理平臺應分為:表現層、服務層、處理層、存儲層。表現層是面向用戶的可視化界面,用于人機交互,接受用戶的任務;服務層對任務進行調度、處理,直接執行無需數據挖掘的任務并反饋至表現層,調度需要數據挖掘的任務至處理層;處理層負責數據預處理、數據挖掘、知識發現等功能;存儲層包括校方數據庫及知識倉庫。具體層次如圖 1 所示。根據高校組織的特征,知識管理平臺應在實現基本功能的前提下具有以下特點:1. 接口質量高。高校集行政、科研、社會服務等任務于一體,需要處理海量數據,應提供接口以使用專業處理工具處理復雜任務,保證數據處理的效率與深度;2. 內置數據挖掘功能。高校所含數據種類多、范圍廣,對結構簡單、數據量小的數據可直接使用內置數據挖掘功能處理,節省時間;3. 交流功能強。高校為知識密集型組織,其學科、職能間存在交叉,優秀的交流功能保證了知識的共享及創新。4. 完善的激勵體系。激勵體系不僅體現在平臺的評價功能中,更體現在管理人員的管理中,通過提高人員的積極性促進知識管理進程的實施。
數據挖掘工具要求
高校所含知識從相關對象分類可分為兩類:1. 管理知識,指高校各部門(教學、后勤部門等)用于高校管理的知識;2. 科研知識,指各學科的專業知識。前者主要與高校行政、管理人員相關,后者則與高校學者、教授關系更大。針對不同的用戶,知識管理與數據挖掘的結合運用對數據挖掘軟件提出了不同的要求。高校行政、管理人員所面對的數據多來自高校各類信息系統的記錄,如:校園卡消費信息、機房上機信息,具有量大、范圍廣、結構一致等特點。用于該類數據挖掘的挖掘工具可內置于知識管理平臺中,便于數據存取,提高挖掘速度。常用功能為預測、分類、評價三項,主要方法可選用回歸分析、趨勢外推、特征分類、層次分析、模糊綜合評價法等。結合使用者特點,該類挖掘工具應提供獨立的、具有既定模式的工作界面,減少用戶與算法的接觸,挖掘結果應具有較強可視性,提供圖、表界面,以便用戶理解。高校科研知識主要來自于學者、教授的科學研究,包括:實驗數據、主觀推測描述等,具有專業性強、層次深、結構復雜等特點。針對挖掘要求較低的數據,可使用知識管理平臺中的內置挖掘工具,而針對挖掘要求高的數據,可選用專業數據挖掘軟件,如:Intelligent Miner、QUEST 等,通過知識管理平臺的接口進行對接。
4、知識管理與數據挖掘結合的具體策略
知識管理的基本職能可概括為外化、內化、中介、認知四大部分,其中前三項職能對信息技術的依賴較強,可用數據挖掘技術進行輔助。數據挖掘的過程分為條件匹配、選擇、激活、應用四部分,即對數據進行預處理后,選擇相關數據記錄,根據用戶要求選擇相應技術進行數據挖掘,得出并解釋數據挖掘結果,最終將這些記錄應用于實踐中。兩者的具體結合策略如下:
輔助知識管理體系建設
知識管理本質是一個周期性管理過程,在這一過程中實現組織知識共享、創新等,最終提升組織綜合實力,其中知識管理體系建設是實現知識管理的宏觀條件。知識管理體系建設是一個系統、全面的工程,包括組織結構調整、確定激勵制度、知識管理文化培養、成效評估等任務。數據挖掘技術,可以為知識管理體系建設提供依據,保證相關決策的科學性。數據挖掘對知識管理體系建設的幫助主要體現在以知識主管為主的知識管理部門對高校的管理、決策當中。知識管理部門收集并預處理外校、本校知識管理體系建設的相關數據,完成輔助決策的數據倉庫的建設。管理人員可根據要求,從數據倉庫中選擇數據,利用對應模型完成挖掘,通過挖掘結果對決策做出幫助。以制定激勵制度為例,管理人員選擇與高校人員喜好相關的數據,如至少包含“部門”、“喜好”、“性別”字段,利用關聯算法對其進行計算,即可得出各部門工作人員的喜好,以此為據制定相應激勵制度。
知識外化
知識外化是指組織從組織外部獲取與本組織相關的知識、發現歸集組織內部存在的知識并進行存儲以備用的過程。完成知識外化的關鍵即知識發現,其較為常用的方法包括主觀歸納、隱性知識外顯等。目前學界中較為認可、使用較普遍的方法即數據知識發現(KnowledgeDiscovery in Database, KDD),指從數據集中識別出表明一定模式的、有效的、潛在的信息歸納為知識的過程。這是數據挖掘與知識管理結合應用的最重要部分。同時,數據挖掘技術只給定挖掘目標,不給出假設、前提,因此在使用數據挖掘的過程中可獲取一些計劃外的知識,為知識管理提供一個可靠的知識源。此處存在兩個前提:第一,知識發現不能僅僅依靠信息技術,更需要人員對挖掘結果進行主觀歸納,解釋其語義以完成知識的推理;第二,挖掘對象需進行預處理,并轉化成邏輯數據。利用數據挖掘技術進行知識發現有多種可用方法:利用分類和聚類分析可提供知識索引和發現特殊情況下的離群值和孤立點,知識索引可細化知識所屬領域和確定挖掘范圍,離群值和孤立點可為挖掘人員提供歸納的線索,若其存在一定規律則可得出模型、規則;使用模糊技術、統計方法可得出對高校決策的評測分析,判斷方案的有效性,并得出模式,用于同類決策處理;使用粗糙集和主成份分析法定義知識發現中的主要特征,結合已有知識庫對不確定、不精準的知識進行細化;使用關聯規則發現大量數據集各字段中潛在的聯系。以關聯規則的使用為例,選擇 Apriori 算法,挖掘目的是發現學生學習情況中的潛在知識。首先從數據倉庫中選出與學生課程成績相關的數據集,包括姓名、院系、性別、課程號、課程類別、成績等字段,進行預處理,將字段中的取值轉化為邏輯值,代表不同語義,如:性別字段,男設值 1,女設值 2。操作人員設置最小支持度、置信度,通過數據挖掘工具進行挖掘,得出關聯規則并進行解釋。若結果顯示 XX 院系、男生、A 類別 => 成績優秀構成管理規則,則表示XX院系的男生對于A類別科目較感興趣,學習成績優秀,可在歸納后存入知識倉庫。
知識內化、中介
知識內化是發現特定人員知識需求,并為其提供相應知識的過程,內化的關鍵是對知識的聚類、對人員的興趣挖掘。知識中介是指組織中存在一定量無法編碼儲存的知識,針對這些知識,通過一定手段,將知識的需求者與知識來源進行匹配,為兩者提供交流的途徑。數據挖掘在知識內化、中介中所起的作用主要是對高校人員特征的挖掘。在利用數據挖掘技術發現知識后,通過知識管理平臺進行分類存儲、添加索引,作為備選。對高校人員數據庫中數據進行挖掘,可利用聚類分析、預測模型等,得出特定人員的特長領域、興趣愛好,從而根據先前設置的知識索引為其提供信息。若定期對人員特征數據進行挖掘,并根據結果為高校人員推送相關知識、信息,即可實現個性化推送,其推送內容由人員特征數據決定。高校組織中擁有大量教授、學者,其所擁有的知識是一筆巨大財富,加強相關領域間人員的交流、溝通,可以促進知識共享、創新,提升組織綜合實力,這正是知識管理中介職能的作用。通過上文中相同的挖掘方法,在對教授、學者特征進行挖掘后,對他們的研究方向進行聚類分析,由挖掘結果,為相關人員提供合適的建議、利用知識管理平臺為特征相似或同一聚類中的教授、學者提供交流的途徑,進而促進知識的共享。
數據挖掘技術推動圖書館管理
圖書館是高校組織中的特殊資源,含有大量精確或模糊、成型或不成型的知識,是一種實體的知識倉庫。對圖書館的有效管理有助于高校知識管理的實施。目前,已有不少圖書館專家將數據挖掘技術引入圖書館管理,提出了針對圖書館的數據挖掘應用理論。圖書館數據挖掘對象主要包括三個:1.圖書信息;2.讀者信息 3. 讀者借閱信息。通過對三者挖掘結果的綜合,可為圖書館資源建設、讀者服務、個性化服務提供幫助。根據挖掘結果分析,可做到客觀、合理引入資源,做到讓數據說話而不是讓管理人員說話,減少了管理人員個體的主觀影響,使高校圖書館經費發揮最大效用;提升讀者服務質量,在讀者進行檢索時減少等待時間,改變以往被動檢索的情況,通過用戶數據挖掘為用戶提供主動的信息推送;提供個性化服務,以挖掘結果為依據,針對不同用戶提供不同服務,比如不同的圖書館系統管理界面。
充分發揮管理職能
知識管理是一個系統工程,包含平臺開發、體系構建、文化培養等,其在實踐中設計大量的數據操作。數據挖掘技術可在知識管理的實踐過程中為各項信息處理工作提供支撐,從而為操作人員提供便利,間接縮短知識管理的周期時間。將高校知識管理與數據挖掘技術相結合可有效促進知識管理具體操作中的工作效率。兩者的結合對高校人員管理具有積極作用,數據挖掘與知識管理在實踐中相互影響,提升操作人員素養。數據挖掘需要專業人員進行操作,操作人員的綜合素養將決定挖掘成果的質量。知識管理可有效促進數據挖掘人員對知識的認知,使操作人員對不同要求所對應的挖掘技術、模型的選擇更為準確,提升挖掘成果的質量,使知識更加清晰、獨立、可接受。
摘要:學習成績是評價學生素質的重要方面,也是教師檢驗教學能力、反思教學成果的重要標準。利用大連民族大學統計學專業本科生有關數據(專業基礎課成績、平時成績和回歸分析期末成績),建立多元線性回歸模型,對影響回歸分析期末成績的因素進行深入研究,其結果對今后的教學方法改進和教學質量提高具有十分重要的指導意義。
關鍵詞:多元線性回歸;專業基礎課成績;平時成績;期末成績
為了實現教學目標,提高教學質量,有效提高學生學習成績是很有必要的。我們知道專業基礎課成績必定影響專業課成績,而且平時成績也會影響專業課成績,這兩類成績與專業課成績基本上是呈正相關的,但它們之間的關系密切程度有多大?它們之間又存在怎樣的內在聯系呢?就這些問題,本文主要選取了2016級統計專業50名學生的四門專業基礎課成績以及回歸分析的平時成績和期末成績,運用SPSS統計軟件進行分析研究,尋求回歸分析期末成績影響因素的變化規律,擬合出關系式,從而為強化學生的后續學習和提高老師的教學質量提供了有利依據。
一、數據選取
回歸分析是統計專業必修課,也是統計學中的一個非常重要的分支,它在自然科學、管理科學和社會、經濟等領域應用十分廣泛。因此研究影響統計學專業回歸分析成績的相關性是十分重要的。
選取了統計專業50名學生的專業基礎課成績(包括數學分析、高等代數、解析幾何和概率論)、回歸分析的平時成績和期末成績,結合多元線性回歸的基礎理論知識[1-2],建立多元回歸方程,進行深入研究,可以直觀、高效、科學地分析各種因素對回歸分析期末成績造成的影響。
二、建立多元線性回歸模型1及數據分析
運用SPSS統計軟件對回歸分析期末成績的影響因素進行研究,可以得到準確、科學合理的數據結果,全面分析評價學生考試成績,對教師以后的教學工作和學生的學習會有較大幫助。自變量x1表示數學分析成績,x2表示高等代數成績,x3表示解析幾何成績,x4表示概率論成績,x5表示平時成績;因變量y1表示回歸分析期末成績,根據經驗可知因變量y1和自變量xi,i=1,2,3,4,5之間大致成線性關系,可建立線性回歸模型:
(1)
線性回歸模型通常滿足以下幾個基本假設,
1.隨機誤差項具有零均值和等方差,即
(2)
這個假定通常稱為高斯-馬爾柯夫條件。
2.正態分布假定條件
由多元正態分布的性質和上述假定可知,隨機變量y1服從n維正態分布。
從表1描述性統計表中可看到各變量的平均值1=79.68,2=74.66,3=77.22,4=78.10,5=81.04,1=75.48;xi的標準差分別為10.847,11.531,8.929,9.018,9.221,y1的標準差為8.141;有效樣本量n=50。
回歸分析期末成績y1的多元回歸模型1為:
y1=-5.254+0.221x1-0.4x2+0.154x3
+0.334x4+0.347x5
從表2中可以看到各變量的|t|值,在給定顯著水平?琢=0.05的情況下,通過t分布表可以查出,自由度為44的臨界值t?琢/2(44)=2.015,由于高等代數x2的|t|值為0.651小于t?琢/2(44),因此x2對y1的影響不顯著,其他自變量對y1都是線性顯著的。下面利用后退法[3]剔除自變量x2。
三、后退法建立多元線性回歸模型2及數據分析
從模型1中剔除了x2變量,多元回歸模型2為:
y1=-5.459+0.204x1+0.149x3+0.377x4+0.293x5(5)
在表4中,F統計量為90.326,在給定顯著水平?琢=0.05的情況下,查F分布表可得,自由度為p=4和n-p-1=45的臨界值F0.05(4,45)=2.579,所以F>F0.05(4,45),在表5中,所有自變量的|t|值都大于t?琢/2(45)=2.014,因此,多元回歸模型2的線性關系是顯著的。
四、結束語
通過對上述模型進行分析,即各個自變量對因變量的邊際影響,可以得到以下結論:在保持其他條件不變的情況下,當數學分析成績提高一分,則回歸分析成績可提高0.242分[4-5];同理,當解析幾何成績、概率論成績和平時成績每提高一分,則回歸分析成績分別提高0.149分、0.377分和0.293分。
通過對學生專業基礎課成績、平時成績與回歸分析期末成績之間相關關系的研究,一方面有利于教師把控回歸分析教學課堂,提高教師意識,注重專業基礎課教學的重要性,同時,當學生平時成績不好時,隨時調整教學進度提高學生平時學習能力;另一方面使學生認識到,為了更好地掌握回歸分析知識,應加強專業基礎課的學習,提高平時學習的積極性。因此,通過對回歸分析期末成績影響因素的研究能有效的解決教師教學和學生學習中的許多問題。
統計學畢業論文范文模板(二):大數據背景下統計學專業“數據挖掘”課程的教學探討論文
摘要:互聯網技術、物聯網技術、云計算技術的蓬勃發展,造就了一個嶄新的大數據時代,這些變化對統計學專業人才培養模式的變革起到了助推器的作用,而數據挖掘作為拓展和提升大數據分析方法與思路的應用型課程,被廣泛納入統計學本科專業人才培養方案。本文基于數據挖掘課程的特點,結合實際教學經驗,對統計學本科專業開設數據挖掘課程進行教學探討,以期達到更好的教學效果。
關鍵詞:統計學專業;數據挖掘;大數據;教學
一、引言
通常人們總結大數據有“4V”的特點:Volume(體量大),Variety(多樣性),Velocity(速度快)和Value(價值密度低)。從這樣大量、多樣化的數據中挖掘和發現內在的價值,是這個時代帶給我們的機遇與挑戰,同時對數據分析技術的要求也相應提高。傳統教學模式并不能適應和滿足學生了解數據處理和分析最新技術與方法的迫切需要。對于常常和數據打交道的統計學專業的學生來說,更是如此。
二、課程教學探討
針對統計學本科專業的學生而言,“數據挖掘”課程一般在他們三年級或者四年級所開設,他們在前期已經學習完統計學、應用回歸分析、多元統計分析、時間序列分析等課程,所以在“數據挖掘”課程的教學內容選擇上要有所取舍,同時把握好難度。不能把“數據挖掘”課程涵蓋了的所有內容不加選擇地要求學生全部掌握,對學生來說是不太現實的,需要為統計學專業本科生“個性化定制”教學內容。
(1)“數據挖掘”課程的教學應該偏重于應用,更注重培養學生解決問題的能力。因此,教學目標應該是:使學生樹立數據挖掘的思維體系,掌握數據挖掘的基本方法,提高學生的實際動手能力,為在大數據時代,進一步學習各種數據處理和定量分析工具打下必要的基礎。按照這個目標,教學內容應以數據挖掘技術的基本原理講解為主,讓學生了解和掌握各種技術和方法的來龍去脈、功能及優缺點;以算法講解為輔,由于有R語言、python等軟件,學生了解典型的算法,能用軟件把算法實現,對軟件的計算結果熟練解讀,對各種算法的改進和深入研究則不作要求,有興趣的同學可以自行課下探討。
(2)對于已經學過的內容不再詳細講解,而是側重介紹它們在數據挖掘中的功能及綜合應用。在新知識的講解過程中,注意和已學過知識的融匯貫通,既復習鞏固了原來學過的知識,同時也無形中降低了新知識的難度。比如,在數據挖掘模型評估中,把混淆矩陣、ROC曲線、誤差平方和等知識點就能和之前學過的內容有機聯系起來。
(3)結合現實數據,讓學生由“被動接收”式的學習變為“主動探究”型的學習。在講解每種方法和技術之后,增加一個或幾個案例,以加強學生對知識的理解。除了充分利用已有的國內外數據資源,還可以鼓勵學生去搜集自己感興趣的或者國家及社會大眾關注的問題進行研究,提升學生學習的成就感。
(4)充分考慮前述提到的三點,課程內容計劃安排見表1。
(5)課程的考核方式既要一定的理論性,又不能失掉實踐應用性,所以需要結合平時課堂表現、平時實驗項目完成情況和期末考試來綜合評定成績。采取期末閉卷理論考試占50%,平時實驗項目完成占40%,課堂表現占10%,這樣可以全方位的評價學生的表現。
三、教學效果評估
經過幾輪的教學實踐后,取得了如下的教學效果:
(1)學生對課程的興趣度在提升,課下也會不停地去思考數據挖掘有關的方法和技巧,發現問題后會一起交流與討論。
(2)在大學生創新創業項目或者數據分析的有關競賽中,選用數據挖掘方法的人數也越來越多,部分同學的成果還能在期刊上正式發表,有的同學還能在競賽中取得優秀的成績。
(3)統計學專業本科生畢業論文的選題中利用數據挖掘有關方法來完成的論文越來越多,論文的完成質量也在不斷提高。
(4)本科畢業生的就業崗位中從事數據挖掘工作的人數有所提高,說明滿足企業需求技能的人數在增加。繼續深造的畢業生選擇數據挖掘研究方向的人數也在逐漸增多,表明學生的學習興趣得以激發。