時間:2023-08-20 14:46:43
導言:作為寫作愛好者,不可錯過為您精心挑選的10篇數據分析的方法,它們將為您的寫作提供全新的視角,我們衷心期待您的閱讀,并希望這些內容能為您提供靈感和參考。
中圖分類號:N37 文獻標識碼:B 文章編號:1009-9166(2009)02(c)-0063-02
現代企業的決策往往是在整合大量信息資料的基礎上制定出來的,對數據的理解和應用將是企業決策的基石。與傳統的操作型應用相比,數據利用的應用建設難度更大,它是隨著管理水平而發展,同時又取決于業務人員的主觀意識,這就決定了以數據利用為核心的應用建設不可能一蹴而就,而是一個長期迭展的建設過程。從2003年起工廠開始全面推進數據分析應用工作,經歷過曲折,同時也有收獲。經過多年的努力,工廠的數據分析應用工作開始進入良性發展階段,筆者認為有必要對工廠目前數據分析應用工作作一總結和思考。
一、工廠數據分析應用工作開展現狀
工廠數據分析應用工作推進至今已有四五年的時間,從最初全面調研工廠數據量和數據分析應用狀況,將數據分析應用率指標作為方針目標定量指標來考核,到后來將數據分析應用工作的推進重心從量向質轉移,采用以項目為載體進行管理,著重體現數據分析應用的實效性,再到目前以分析應用的需求為導向,以分析應用點為載體,分層次進行策劃。經過上述三個階段,工廠數據分析應用工作推進機制得到了逐步的完善,形成了廣度深度協同發展的信息資源利用管理框架。截止到目前,工廠數據分析應用率達到96%,四個層次的分析應用點共計100多個,數據分析應用工作在生產、質量、成本、物耗、能源等條線得到廣泛開展,有效推動了工廠管理數字化和精細化。2007年,工廠開始探索細化四個應用層次的推進脈絡,進一步豐富工廠信息資源利用框架,形成層次清晰、脈絡鮮明、職責分明的信息資源利用立體化的推進思路。
1、第一層次現場監控層。第一層次現場監控層,應用主體是一線工人和三班管理干部,應用對象是生產過程實時數據,應用目標是通過加強生產過程控制,輔助一線及時發現生產過程中的異常情況,提高生產穩定性。例如制絲車間摻配工段的生產報警,通過對生產過程中葉絲配比、膨絲配比、梗絲配比、薄片配比、加香配比等信息進行判異操作,對異常情況通過語音報警方式提醒擋車工進行異常處理;例如卷包車間通過在機臺電腦上對各生產機組的工藝、設備參數、實時產量、質量、損耗數據的監控,提高對產品質量的過程控制能力。第一層次應用以上位機和機臺電腦上固化的監控模型為主,制絲車間每個工序、卷包車間每種機型的應用點都有所不同,為此我們建立了制絲車間以工序為脈絡,卷包車間以機種為脈絡的應用點列表,圍繞脈絡對第一層次應用點進行梳理,形成第一層次應用的規范化模板。制絲車間第一層次應用點模板包括工序名稱、應用點名稱、應用模型描述、應用對象、應用平臺、異常處置路徑等基本要素。卷包車間應用點模板橫向根據機種分,縱向按上班及交接班、上班生產過程中、下班及交接班三個時間段分,通過調研分別列出擋車工針對每個機種在三個時間段分別要查看的數據和進行的操作。隨著模板的擴充和完善,一線職工的知識、經驗不斷充實其中,第一層次應用點模板將成為一線工人和三班管理干部日常應用監控的標準,同時可以規避人員退休或調動帶來的經驗、知識流失的風險。2、第二層次日常管理分析層。第二層次日常管理分析層,應用主體是一般管理干部,應用對象是產質損、設備、動能等指標,應用目標是通過加強對各類考核指標的監控和分析,提高工廠整體的關鍵績效指標水平。例如制絲車間的劣質成本數據匯總和分析,通過對車間內各類廢物料、劣質成本的數據進行匯總、對比和分析,尋找其中規律及薄弱環節,并尋根溯源,采取措施,降低劣質成本。例如卷包車間的產量分析,通過對產量數據、工作日安排、計劃產量進行統計和匯總,結合車間定額計劃、作業計劃和實際產量進行分析,尋找實際生產情況與計劃間的差異,并分析原因。第二層次應用以管理人員個性化的分析為主,呈現出分析方法多樣化、應用工具多樣化的特點。但是萬變不離其中的是每個管理崗位的管理目標以及圍繞管理目標開展的分析應用是相對固定的,至少在短期內不會有太大的變化。為此我們建立了一份以重點崗位為脈絡的應用點列表,圍繞脈絡對第二層次應用點進行梳理,形成第二層次應用的規范化模板。模板包括崗位名稱、管理目標、應用點名稱、應用描述、涉及主要考核指標、應用平臺、應用頻次、分析去向等基本要素。通過構建第二層次應用點模板,明確了每個管理崗位應用信息資源支撐管理目標的內容和職責。隨著新的管理目標的不斷提出以及應用的逐步深入,模板每年都會有更新和擴充。3、第三層次針對性分析應用層。第三層次針對性分析應用層,應用主體是項目實施者,應用對象是各類項目的實施過程,例如QC項目、六西格瑪項目、質量改進項目,或針對生產中的特定事件進行的分析和研究。應用目標是通過應用數據資源和統計方法開展現狀調查、因果分析、效果驗證等工作,提高各類項目實施的嚴密性和科學性。第三層次的應用工具在使用初級統計方法的基礎上會大量應用包括方差分析、回歸分析、正交試驗、假設檢驗、流程圖等在內的中級統計方法。以QC活動為例,我們可以看出其實施過程無一不與數據應用之間有密切的聯系[1]。近年來,在質量改進項目和QC項目的評審工作中已逐步將“應用數據說話、運用用正確合理的統計方法,提高解決問題的科學性”作為項目質量考核標準之一。而六西格瑪項目實施的核心思想更是強調“以數據和事實驅動管理”,其五個階段[2]D(定義)、M(測量)、A(分析)、I(改善)、C(控制),每個階段都要求結合如FMEA(失效模式后果分析),SPC(統計流程控制),MSA(測量系統分析),ANOVE(方差分析),DOE(實驗設計)等統計方法和統計工具的應用。4、第四層次主題性應用層。第四層次主題性應用層,應用主體是中層管理者,應用對象是專業性或綜合性的分析主題,應用目標是通過專業科室設計的專題性分析模型或綜合性分析模型,為中層管理層提供決策依據。工廠在實施了業務流程“自動化”之后,產生了大量的數據和報表。如何將工廠的業務信息及時、精煉、明確地陳述給中層管理層,以此來正確地判斷工廠的生產經營狀況,是擺在我們眼前的一個突出問題。大家都有開車的經驗,司機在駕駛車輛的時候,他所掌握的車況基本上是來自汽車的儀表盤,在車輛行使的過程中,儀表盤指針的變化,告知汽車的車速、油料、水溫等的狀況,駕駛員只要有效地控制這些指標在安全范圍之內,車子就能正常地運行。我們不妨將儀表盤的理念移植于工廠,建立工廠關鍵指標及運行管理儀表盤,將工廠的關鍵信息直觀地列在上面,及時提醒各級管理人員工廠生產運營是否正常。
⑴關鍵績效指標監控系統。對分布在各處的當前及歷史數據進行統一展示,以工廠關鍵績效指標為中心,支持統計分析和挖掘,可為中層管理者提供工廠關鍵績效指標一門式的查詢服務,使各業務部門尋找、闡釋問題產生的原因,以有效監控各類關鍵績效指標,及時采取改進措施,提高生產經營目標完成質量。⑵系統運行狀態監控系統。通過數據采集、手工錄入等各種渠道收集各類系統的運行狀態,及時掌握故障情況,采取措施加以閉環,將因系統故障造成對用戶的影響減至最小,確保各類系統的穩定運行和有效應用。通過建立系統運行狀態監控系統,中層管理人員上班一打開電腦進入系統,就能了解到當天及上一天各類系統的運轉情況,發生了什么異常,哪些故障已經得到解決,哪些故障還未解決。⑶第四層次主題性分析應用。在展示關鍵績效指標和系統運行狀態的基礎上,由各專業科室思考專業條線上的分析主題,采用先進科學的理念和方法對數據進行分析和挖掘。近兩年來,工廠充分發揮專業科室的優勢和力量,相繼設計和開發了工藝質量條線的六西格瑪測評系統,設備條線的設備效能分析系統,還有質量成本核算與分析系統。通過這些分析主題的支持,工廠管理人員可以更方便快捷地了解質量、設備、成本等條線上的關鍵信息,及時采取相應措施,從而提升管理效率。
二、數據分析應用工作存在的不足及思考
工廠數據分析應用工作的推進方法從最初的采用數據分析應用率單個指標進行推進發展到目前按上文所述的四個層次進行推進,每個層次的推進脈絡已經逐步清晰和明朗,但事物發展到一定的階段總會達到一個瓶頸口,目前工廠數據分析應用工作存在的問題及措施思考如下:
1、從推進手段上要突破信息條線,充分發揮專業條線的力量。信息條線作為推進工廠數據分析應用的主管條線,其作用往往局限在技術層面上的支撐。雖然信息條線每年都會規劃形成工廠數據分析應用整體的工作思路和具體的實施計劃,但是無論從工廠層面還是從車間層面來講,單純依靠信息條線從側面加以引導和推進,使得數據分析應用工作始終在業務條線的邊緣徘徊,與產量、質量、設備、消耗、成本、動能等各個條線本身工作的結合度有一定的距離。所以工廠要進一步推進數據分析應用工作,調動起業務人員的積極性和主動性,突破現有的瓶頸,應該考慮如何調動起專業條線的力量。一是可以在年初策劃應用點的時候要加強專業條線對車間業務自上而下的指導,引導管理人員加強對缺少數據分析支撐的工序、崗位/管理目標的思考;二是建立平臺加強各車間同性質崗位之間的溝通與交流,均衡各個車間的數據分析應用水平和能力;三是對車間提交的分析報告給出專業性的指導意見。2、要加強對數據中心的應用。數據中心的建立可以使業務系統從報表制作、數據導出等功能中解放出來,專注于事務處理,將數據應用方面的功能完全交給數據中心來解決。目前,數據中心已建立了涉及產量、質量、消耗等各個條線的Universe模型,并對全廠管理干部進行了普及性的培訓。但是從目前應用情況來看,還比較局限于個別管理人員,追尋原因如下:一是業務系統開發根據用戶需求定制開發報表,業務人員通常習慣于從現成的報表中獲取信息。如果要求業務人員使用數據中心工具自行制作報表模板,甚至可能需要將其導出再作二次處理,那么業務人員一定更傾向于選擇第一種方式。二是近幾年來人員更替較多,新進管理人員不熟悉數據中心應用,導致數據中心應用面受到限制。隨著今后MES的建設,業務系統中的數據、報表、臺帳和分析功能將有可能由業務用戶自行通過集成在MES中的數據中心前端開發工具來訪問和靈活定制。因此,要盡快培養工廠業務人員數據中心的應用能力,包括數據獲取以及報表定制方面的技能。筆者認為應對方法如下:一是對于崗位人員變更做好新老人員之間一傳一的交接和培訓;二是適時針對新進管理人員開展集中培訓;三是通過采用一定的考核方法。3、提高新增應用點的質量。工廠每年都會組織各部門審視第一、第二層次應用點列表,圍繞重點工序和重點管理崗位調研有哪些應用上的空白點是需要重點思考的,以新增分析應用點的方式進行申報和實施。同時針對第三層次針對性分析應用,工廠也會要求部門以新增分析應用點的方式將需要數據支撐的項目進行申報。作為一項常規性工作,工廠每年都會組織部門進行應用點的申報,并按項目管理的思想和方法實施,事先確立各個應用點的應用層次、數據獲取方式、實現平臺,并對其實施計劃進行事先的思考和分解,確定每一個階段的活動目標、時間節點以及負責人員,每個季度對實施情況予以總結,并動態更新下一階段的實施計劃。該項工作從2005年起已經連續開展了三年,部門可供挖掘的應用點越來越少,如何調動部門的積極性,保持并提高應用點的實效性,我們有必要對新增分析應用點的質量和實施情況進行考評,考評標準為:一是新增分析應用點是否能體現數據應用開展的進取性、開拓性和創新性;二是新增分析應用點是否能切實提高管理的精細化和科學化水平;三是新增分析應用點是否能采用項目管理的思想和方法實施,按時間節點完成各項預定計劃。
三、結束語。隨著近幾年來技術平臺的相繼成熟以及管理手段的逐步推進,工廠業務人員用數據說話的意識已經越來越強,但是要真正使工廠管理達到“三分技術、七分管理、十二分數據”的水平,還有很長的路要走,這既需要我們的業務人員從自身出發提高應用數據的水平和能力,同時也需要工廠從管理手段和管理方法上不斷拓寬思路、創新手段,真正實現數據分析應用成為工廠管理的重要支撐手段。
作者單位:上海卷煙廠
(一)統計規律分析
就是采用數理統計方法、模糊數學方法以及適用于小同環境要素的數學和物理方程等方法,對所得的監測數據進行深度剖析,做出詳細的分析評價。這種數據分析方法主要適用于環境調查、環境規劃和環評等工作。
(二)合理性分析
實際的環境監測中,影響環境要素變化的因素錯綜復雜,而有效的能用于綜合分析的監測數據十分有限,所以我們需要考慮到各種環境要素之間的相互影響,以及監測項目之間的關系,理論結合實際全面分析數據的合理性,這樣才可能得到準確可靠的、合理的監測數據分析結果。
二、提高環境監測數據分析質量的方法
為了促進環境執法工作的嚴肅和公正,在科學化環境管理政策中,提高環境數據分析質量很有必要。在前人的研究工作基礎之上,我們提出了以下幾種方法來提高數據分析質量。
(一)加強審核
加強各項審核是提高環境監測數據分析質量的重要方法,它主要是指加強對現有數據的綜合審核。在進行例行監測或是年度監測計劃時,我們的工作一般都是連續性的展開的,一年或是好幾年,因此,我們可以建立一個動態的分析數據庫,錄入每次的監測數據,包括每個污染源的詳細信息(污染點的地理位置和排放口的排污狀況等),在以后的審核中,我們可以迅速地在數據審核中對于同一采樣點、同一分析項目進行新舊數據的分析對比。當數據分析結果出現異常時,可以及時的發現并找到原因,這可以對污染應急事故的發生起到提前警示的作用。另外,在數據審核中,也要密切注意到同一水樣、不同的分析項目之間的相關性,比如:同一水體中氟化物和總硬度、色度和pH的關系、氨氮和總氮之間的相關性等,這樣也能及時發現數據分析中出現的誤差。
(二)加強監督機制
通過調研我們發現,目前在傳統的監測數據質量控制系統中依舊存在許多不足,我們可以通過引入反饋和交流機制,加強監督機制來有效提高數據分析的質量。首先,通過強化平面控制,在系統內部全面優化管理的模式,提高工作人員的分析技術水平,盡可能的減少或消除數據誤差,以此來提高監測分析的準確性;其次,我們應該主動接受來自外界的監督,對于外界有異議的監測數據要進行反復的檢測;再次,我們也應該多舉辦技術交流會,讓技術人員可以與各級環境監測部門的人員溝通,學習他們的先進技術和方法,同時進行數據分析結果對比,找到自身的不足,發現問題并能及時更正。
(三)加強采樣及實驗室測量質量的控制
1.采樣控制
工作人員在每次采樣前,都應該根據實際環境情況來制定采樣技術細則,做好采樣控制,比如:需要校準儀器并確保儀器可以正常運轉;使用的采樣管和濾膜要正確安裝,采樣器干凈整潔沒有受到污染源的污染,其放置的位置也能滿足采樣要求等。采集好的樣品,要妥善存放避免污染。如果樣品不能及時進行檢測,考慮到樣品的穩定性,最好將樣品密封并存放在于冰箱中。
2.實驗室測量控制
在實驗室進行樣品測試之前,首先應該對所要用到的玻璃量器及分析測試儀器進行校驗。日常工作中,也應該根據各種儀器保養規定,對儀器定期進行維護和校驗,確保儀器可以正常運轉工作。其次,需要準確調配各種溶液,特別是標準溶液,配置時要使用合格的實驗用蒸餾水。測試數據時,先要測定標準樣品并繪制標準曲線。測定樣品時要檢查相關系數和計算回歸方程,并對實驗系統誤差進行測驗,每一步都不能少。
分析網站流量這是首要工作,如果是網站建設初期,那么此時的流量分析就只要記住網站登陸搜索引擎后的流量基數即可。如果是網站建設中期的話,就要記錄網站流量一周的平均值,如果是網站建設后期的話,就要記錄網站流量的階段性波動值!記錄好了流量值之后,就可以很好的計劃出下一步優化推廣的流量值了。
網站優化數據分析方法二:關鍵詞分析
網站關鍵詞分析也是網站優化的重要工作之一!分析現在網站關鍵詞的布局,分析網站有流量的關鍵詞,分析網站還沒有覆蓋的與網站業務相關的關鍵詞,分析出網站主關鍵詞的排名情況,分析關鍵詞的設計是否合理。分析頂級關鍵詞是否占據了搜索引擎首頁的排名,分析搜索關鍵詞的質量高不高,與網站業務的相關度如何?!分析關鍵詞轉化率如何等等。
中圖分類號:F01 文獻標識碼:A 文章編號:1006-0278(2013)02-024-01
在計量經濟學中,我們一般應用的最多的數據分析是截面數據回歸分析和時間序列分析,但截面數據分析和時間序列分析都有著一定的局限性。在實際經濟研究當中,截面數據回歸分析會遺漏掉數據的時間序列特征,例如在分析某年中國各省的GDP增長數據時,單純的截面數據回歸分析無法找出各省GDP隨時間變化的特征,使得分析結果沒有深度。而如果只用時間序列分析,則會遺漏掉不同截面間的聯系與區別,例如在分析中國單個省市的GDP隨時間增長的數據時,無法找出各個省市之間經濟增長的聯系與區別,因而同樣無法滿足我們的需要。而面板數據,是一種既包括了時間序列數據,也包括了相關截面數據的復合數據,是近年來用得較多的一種數據類型。
下面我們將基于2000-2009年中國各省GDP和財政收入的面板數據的實例來詳細闡述面板數據的分析方法。
一、GDP與財政收入關系的經濟學模型
財政收入是保證國家有效運轉的經濟基礎,在一國經濟建設中發揮著重要作用。隨著中國經濟發展速度的日益加快,財政收入不斷擴大,而擴大的財政收入又以政府支出來調節和推動國民經濟發展。正確認識財政收入與經濟增長之間的長期關系,把握財政收入與經濟增長之間的相互影響,發揮財政收入對經濟發展的調節和促進功能,對于完善財稅政策,深化財稅體制改革,實現財政與經濟之間的良性互動,具有重要的現實意義。文章就將從中國各省的面板數據出發研究,中國不同地域間財政收入和GDP之間的關系。
二、實證分析
(一)單位根檢驗
Eviews有兩種單位根檢驗方法,一種在相同根的假設下的檢驗,包括LLC、Breintung、Hadri。另一種則是在不同根下的假設前提下,包括IPS,ADF-Fisher和PP-Fisher5。檢驗結果表明所有檢驗都拒絕原假設,因此序列GDP和CZSR均為一個2階單整序列。
(二)協整檢驗
如果基于單位根檢驗的結果發現變量之間是同階單整的,那么我們可以進行協整檢驗。協整檢驗是考察變量間長期均衡關系的方法。所謂的協整是指若兩個或多個非平穩的變量序列,其某個線性組合后的序列呈平穩性。此時我們稱這些變量序列間有協整關系存在。
在最終的結果中,Pedroni方法中除了rho-Statistic、PP-Statistic項目外都拒絕GDP和CZSR不存在協整關系的原假設,同樣Kao和Johansen檢驗方法也都拒絕原假設,因此,上述檢驗結果表明,我國各省2000-20009年的GDP和財政收入面板數據間存在著協整關系。既然通過了協整檢驗,說明變量之間存在著長期穩定的均衡關系,其方程回歸殘差是平穩的,因此可以在此基礎上直接對進行回歸分析,此時假設方程的回歸結果是較精確的。
三、建立模型
混合模型:如果從時間上看,不同個體之間不存在顯著性差異;從截面上看,不同截面之間也不存在顯著性差異,那么就可以直接把面板數據混合在一起用普通最小二乘法(OLS)估計參數。
我們根據混合模型的回歸結果,得到財政收入和GDP之間的回歸方程為:
CZSR=227.3123+0.103224*GDP
(26.47637)(0.002839)
R2=0.810995 F=1321.587
顯然從模型的回歸結構來看,R2的值達到了0.81,有了比較好的回歸解釋力,同時,GDP的回歸系數為0.103224,表明各省的財政收入平均占到了國民收入的10.3%左右。
變系數模型:顯然,在中國各省之間由于處在不同的地區,因而擁有不同的區位優勢,那么各省的發展水平顯然就不一樣。正是由于這種不同的地方政策、管理水平、文化差異等會導致經濟變量間出現一些關聯性的變化,此時在進行模型回歸的時候,我們就有必要考慮變系數模型。
在回歸結果中,R2的值達到了0.97,比混合模型擁有更好的回歸解釋力,而在變系數模型回歸結果中,GDP的回歸系數大于0.5的只有、青海、寧夏三個省份,也就是說這三個省份的財政收入占到了GDP的50%以上,他們同處于經濟并不是很發達的西部地區,由此可以看出,處在經濟發達地區的財政收入占GDP的比重要低,而不發達地區則要高。
四、結論
通過以上的分析檢驗,我們發現針對于中國財政收入和GDP的面板數據,我們應建立起變系數模型,并通過模型分析,我們可以得出這樣的結論,中國各省間由于存在著地域經濟發展水平不同、管理水平不同以及國家的相關政策等諸多不同,造成了各省之間在財政收入以及國民收入上面存在著一定的差異。而回歸結果也告訴我們,我國西部地區的財政收入占GDP的比例要明顯高于東部地區,地區發展落后地區的財政收入占GDP的比例也要明顯高于東部地區。因此,這為我們改善我國落后地區的經濟發展提供了一定的新思路,就是對一地區的稅收征收可以適當放緩,而將GDP中以前政府占用的部分歸還于民眾和企業,因為,按照發達地區的經驗表明,財政收入所占比重過高,經濟發展的活力或者就不會很高,對于進一步刺激財政收入的增加也沒有任何幫助。因此,我們應該適度降低財政收入占GDP的比重,從而增加經濟活力,使西部地區以及落后地區及早的跟上東部發達地區的發展步伐,從而消除我國經濟發展的地域不平衡。
參考文獻:
[1]謝識予,朱洪鑫.高級計量經濟學[M].復旦大學出版社,2005.
這就是為什么行業越來越傾向于使用特定的玩家反饋和可執行的分析結果來指導游戲設計調整。
了解真實的玩家觀點并不容易。對發行商和開發者而言,玩家、平臺和設備類型多樣化導致分析學的數據追蹤成了一大挑戰。
那就是為什么我們最近發表了《Analytics Driven Game Design》白皮書,旨在使這個過程更加簡單和有效。
以下是一些重要的設計和執行建議:
1、提前收集數據
人們往往不會把執行分析學的數據標注當作優先任務。
這是錯誤的,因為數據收集一般要貫穿整個開發過程,需要的時間是執行的三到五倍。
2、盡早收集事件數據
當事件及其參數定義好時,開發者就可以確定什么時候需要什么數據了。
一開始就把這樣的數據結構結合到代碼中,可以保證當代碼需要這些數據時就能有現成的數據。
如果把事件收集放在開發過程的末尾,通常只能收集到60%有價值的數據,這說明沒有充分利用分析學。
3、統一視角
復雜的游戲通常涉及多個系統。例如,登錄系統可能不同于支付系統,這意味著數據來源通常有兩個:服務器和游戲客戶端。
因此,有必統一視角,即使戶ID與登錄活動保持一致。
這樣,分析時就可以忽略數據來源,把所有信息放在一起。
4、同步時間標記
類似地,因為事件數據來自多個來源、時區和應用商店,有必要使用同步時間標記,以確保觀察玩家行為的視角能夠保持一致。
發送客戶端數據時通常使用本地時間標記,而服務器數據記錄的通常是保存數據的時間。
如果兩個時間標記不一樣,就會很難知道真正的事件順序,從而不利于建立玩家行為檔案。
5、創建單一登錄ID
將這個獨特的ID與一次登錄中發生的所有事件聯系在一起,對高效分析特別重要。
如果事件發生后才關聯數據,必然會導致誤差和錯誤。
考慮到大量初次玩家留存分析學專注于第一次游戲,統一而準確地定義你的登錄活動是很重要的。
6、總是記錄結果
事件的目標應該是記錄結果而不是變化。
換句話說,記錄任務的結果比記錄任務中的各種變化更好。例如,記錄當玩家完成任務時獲得了什么,即得到多少經驗點或殺敵數,比記錄每一次射擊更實用。
一、數據統計分析的內涵
數據分析是指運用一定的分析方法對數據進行處理,從而獲得解決管理決策或營銷研究問題所需信息的過程。所謂的數據統計分析就是運用統計學的方法對數據進行處理。在實際的市場調研工作中,數據統計分析能使我們挖掘出數據中隱藏的信息,并以恰當的形式表現出來,并最終指導決策的制定。
二、數據統計分析的原則
(1)科學性。科學方法的顯著特征是數據的收集、分析和解釋的客觀性,數據統計分析作為市場調研的重要組成部分也要具有同其他科學方法一樣的客觀標準。(2)系統性。市場調研是一個周密策劃、精心組織、科學實施,并由一系列工作環節、步驟、活動和成果組成的過程,而不是單個資料的記錄、整理或分析活動。(3)針對性。就不同的數據統計分析方法而言,無論是基礎的分析方法還是高級的分析方法,都會有它的適用領域和局限性。(4)趨勢性。市場所處的環境是在不斷的變化過程中的,我們要以一種發展的眼光看待問題。(5)實用性。市場調研說到底是為企業決策服務的,而數據統計分析也同樣服務于此,在保證其專業性和科學性的同時也不能忽略其現實意義。
三、推論性統計分析方法
(1)方差分析。方差分析是檢驗多個總體均值是否相等的一種統計方法,它可以看作是t檢驗的一種擴展。它所研究的是分類型自變量對數值型因變量的影響,比如它們之間有沒有關聯性、關聯性的程度等,所采用的方法就是通過檢驗各個總體的均值是否相等來判斷分類型自變量對數值型因變量是否有顯著影響。(2)回歸分析。在數據統計分析中,存在著大量的一種變量隨著另一種變量的變化而變化的情況,這種對應的因果變化往往無法用精確的數學公式來描述,只有通過大量觀察數據的統計工作才能找到他們之間的關系和規律,解決這一問題的常用方法是回歸分析。回歸分析是從定量的角度對觀察數據進行分析、計算和歸納。
四、多元統計分析方法
(1)相關分析。相關分析是描述兩組變量間的相關程度和方向的一種常用的統計方法。值得注意的是,事物之間有相關關系,不一定是因果關系,也可能僅僅是伴隨關系;但如果事物之間有因果關系,則兩者必然存在相關關系。(2)主成分分析。在大部分數據統計分析中,變量之間是有一定的相關性的,人們自然希望找到較少的幾個彼此不相關的綜合指標盡可能多地反映原來眾多變量的信息。所謂的主成分分析就是利用降維的思想,把多指標轉化為幾個綜合指標的多元統計分析方法,很顯然在一個低維空間識別系統要比在一個高維空間容易的多。(3)因子分析。因子分析的目的是使數據簡單化,它是將具有錯綜復雜關系的變量綜合為數量較少的幾個因子,以再現原始變量與因子之間的相互關系,同時根據不同因子,對變量進行分類。這些因子是不可觀測的潛在變量,而原先的變量是可觀測的顯在變量。(4)聚類分析。在市場調研中,市場細分是最常見的營銷術語之一,它按照一定的標準將市場分割為不同的族群,并使族群之間具有某種特征的顯著差異,而族群內部在這種特征上具有相似性。聚類分析就是實現分類的一種多元統計分析方法,它根據聚類變量將樣本分成相對同質的族群。聚類分析的主要優點是,對所研究的對象進行了全面的綜合分析,歸類比較客觀,有利于分類指導。(5)判別分析。判別分析是判別樣品所屬類型的一種多元統計方法。若在已知的分類下,遇到新的樣本,則可利用此法選定一種判別標準,以判定將該新樣品放置于哪個類中。由定義我們可以知道判別分析區別于聚類分析的地方,而在判別分析中,至少要有一個已經明確知道類別的“訓練樣本”,從而利用這個數據建立判別準則,并通過預測變量來為未知類別的觀測值進行判別。與聚類分析相同的地方是,判別分析也是利用距離的遠近來把對象歸類的。
參考文獻
一、數據統計分析的內涵
數據分析是指運用一定的分析方法對數據進行處理,從而獲得解決管理決策或營銷研究問題所需信息的過程。所謂的數據統計分析就是運用統計學的方法對數據進行處理。在實際的市場調研工作中,數據統計分析能使我們挖掘出數據中隱藏的信息,并以恰當的形式表現出來,并最終指導決策的制定。
二、數據統計分析的原則
(1)科學性。科學方法的顯著特征是數據的收集、分析和解釋的客觀性,數據統計分析作為市場調研的重要組成部分也要具有同其他科學方法一樣的客觀標準。(2)系統性。市場調研是一個周密策劃、精心組織、科學實施,并由一系列工作環節、步驟、活動和成果組成的過程,而不是單個資料的記錄、整理或分析活動。(3)針對性。就不同的數據統計分析方法而言,無論是基礎的分析方法還是高級的分析方法,都會有它的適用領域和局限性。(4)趨勢性。市場所處的環境是在不斷的變化過程中的,我們要以一種發展的眼光看待問題。(5)實用性。市場調研說到底是為企業決策服務的,而數據統計分析也同樣服務于此,在保證其專業性和科學性的同時也不能忽略其現實意義。
三、推論性統計分析方法
(1)方差分析。方差分析是檢驗多個總體均值是否相等的一種統計方法,它可以看作是t檢驗的一種擴展。它所研究的是分類型自變量對數值型因變量的影響,比如它們之間有沒有關聯性、關聯性的程度等,所采用的方法就是通過檢驗各個總體的均值是否相等來判斷分類型自變量對數值型因變量是否有顯著影響。(2)回歸分析。在數據統計分析中,存在著大量的一種變量隨著另一種變量的變化而變化的情況,這種對應的因果變化往往無法用精確的數學公式來描述,只有通過大量觀察數據的統計工作才能找到他們之間的關系和規律,解決這一問題的常用方法是回歸分析。回歸分析是從定量的角度對觀察數據進行分析、計算和歸納。
中圖分類號:TP391 文獻標志碼:A 文章編號:1006-8228(2017)03-62-03
Abstract: This paper puts forward a method of analyzing public opinion and satisfaction on the evaluation data of scenic spots based on tourist demand template. By means of keywords template library building and expansion based on the template of tourism demand, the paper analyses and builds the model of the public opinion and satisfaction on the evaluation data. It solves the problem that unstructured content such as tourists' travels and evaluation cannot be efficiently searched and utilized by other tourists. It can not only provide tourists with scenic spots' comprehensive satisfaction value, but also satisfaction values in the specific area of cuisine, housing, transportation, travelling, shopping, and entertainment, and even more specific related content of the satisfaction value in those six aspects. Thus it helps visitors quickly understand the evaluation of the various parameters of the area.
Key words: template library; public opinion of scenic spots; satisfaction; evaluation data
0 引言
隨著經濟的發展,現在已經進入旅游智能化階段和大數據的時代,游客通常通過查看媒體互動分享評價來決定自己旅游計劃。然而,傳統游客在游記中對景區景點的評價內容是非結構化、離散的,即難以采用一定的算法對其進行有規律地提取和組織,從而導致不能采用計算機智能對其提取分類。然而游客對“吃、住、行、游、購、娛”的評價獲取需求頗為急切,因此需要采用一種新的技術來實現游客評價的自動化提取并對大量的數據進行高效的有價值的分析[1-3]。
1 本文提出的方法步驟及特征
本文提出一種基于旅游需求模板的景區評價數據分析輿情滿意度方法,主要有基于旅游需求模板的關鍵詞模板庫構建(見圖1)、關鍵詞模板庫的擴充(見圖2)和針對景區評價數據的輿情滿意度分析計算三個步驟。該方法的特征在于:所述的旅游需求模板主要由內容大類關鍵詞、內容子類關鍵詞和情感關鍵詞構成,每個內容大類關鍵詞下分屬有其對應的內容子類關鍵詞,每個內容子類關鍵詞下分屬有其對應的情感關鍵詞[4-5]。
1.1 基于旅游需求模板的關鍵詞模板庫構建
主要由基于旅游需求模板引導評價的內容大類關鍵詞、內容子類關鍵詞和情感關鍵詞構成,每個內容大類關鍵詞下分屬有其對應的內容子類關鍵詞,每個內容子類關鍵詞下分屬有其對應的情感關鍵詞。
關鍵詞模板庫初始由列舉而成,所述的內容大類關鍵詞包括吃、住、行、游、購、娛的六個類別;所述的內容子類關鍵詞是在內容大類關鍵詞的基礎上構建的;所述情感關鍵詞是對內容子類關鍵詞的描述性詞語。
1.2 關鍵詞模板庫的擴充
關鍵詞模板庫的擴充具體是采用以下方式對內容子類關鍵詞和情感關鍵詞進行擴充:
⑴ 在已構建的關鍵詞模板庫基礎上,通過網絡爬蟲工具在內容大類關鍵詞所在段落文字附近搜索內容子類關鍵詞,將找到的在已構建關鍵詞模板庫中不存在的內容子類關鍵詞作為新的內容子類關鍵詞,并加入到關鍵詞模板庫中;
⑵ 在已構建的關鍵詞模板庫基礎上,通過網絡爬蟲工具在內容子類關鍵詞所在段落文字附近搜索情感關鍵詞,將找到的在已構建關鍵詞模板庫中不存在的情感關鍵詞作為新的情感關鍵詞,對新的情感關鍵詞賦權值后加入到關鍵詞模板庫中。
1.3 針對景區評價數據的輿情滿意度分析計算
所述針對景區評價數據的輿情滿意度分析計算具體是:由擴充后的關鍵詞模板庫通過網絡爬蟲工具搜索景區下的文字數據,抽取出內容大類關鍵詞所在段落文字附近的內容子類關鍵詞,再搜索抽取出每個內容子類關鍵詞所在段落文字附近的情感關鍵詞,從而獲得所有情感關鍵詞及其每個情感關鍵詞對應的內容子類關鍵詞和內容大類關鍵詞,然后構建景區輿情與滿意度的分析模型,通過景區輿情與滿意度的分析模型獲得以平均滿意度值作為該景區的輿情滿意度值。
2 景區輿情與滿意度的分析模型
⑴ 先采用以下公式計算獲得文字數據中所有評論中的關于某一個內容子類關鍵詞的滿意度值:
其中,表示第i個內容大類關鍵詞下第j個內容子類關鍵詞的平均滿意度值,t是分值(1~5),表示i個內容大類關鍵詞下第j個內容子類關鍵詞對應分值為t的情感關鍵詞的數量,Bij表示第i個內容大類關鍵詞下第j個內容子類關鍵詞,B{B11,B12,B13…B21,B22,B23…}代表內容子類關鍵詞集合。
⑵ 再采用以下公式計算獲得文字數據中一個內容大類關鍵詞的滿意度值:
其中,表示第i個內容大類關鍵詞的滿意度值,表示第i個內容大類關鍵詞下第j個內容子類關鍵詞的權值,n表示第i個內容大類關鍵詞下內容子類關鍵詞的數量,A{A1,A2,…,A6}代表內容大類關鍵詞集合。
⑶ 再采用以下公式計算獲得該景區的綜合滿意度值:
其中,Y表示景區的綜合滿意度值,i表示內容大類關鍵詞的序號,i取值范圍是1~6,表示第i個內容大類關鍵詞下的的權值。
3 具體實施方式
3.1 基于旅游需求模板的關鍵詞模板庫構建
⑴ 內容大類關鍵詞構建,主要包括吃、住、行、游、購、娛幾個大類。
⑵ 內容子類關鍵詞構建,主要是在內容大類關鍵詞的基礎上構建,比如和內容大類關鍵詞吃相關的內容子類關鍵詞有飯店、餐館、快餐店、小吃街等。
⑶ 情感關鍵詞構建,主要是在內容子類關鍵詞基礎上構建,比如和內容子類關鍵詞‘吃’對應的情感關鍵詞有味道很好,價格實惠,環境優美等。
3.2 關鍵詞模板庫的擴充
⑴ 基于需求模板引導評價的內容子類關鍵詞庫擴充,通過網絡爬蟲工具在內容大類關鍵詞附近搜索相關的內容子類關鍵詞并與已有的模板庫進行對比,遇到新的內容子類關鍵詞后,自動加入到模板庫,比如遇到與內容大類關鍵詞吃相關的新的內容子類關鍵詞野味店等。
⑵ 基于需求模板引導評價的情感關鍵詞庫擴充,通過網絡爬蟲工具八爪魚采集器,在內容子類關鍵詞附近搜索相關的情感關鍵詞并與已有的模板庫進行對比,遇到新的情感關鍵詞后,自動加入到模板庫。
⑶ 情感關鍵詞均已由用戶進行賦分,給出分值(1~5),比如非常好/棒極了/美妙極了,這三個情感詞表達的滿意度是相同的,對應的分值都是5分,一般/湊合/還行對應的分值則都是3分;差極了/難受死了/簡直就是受罪/再也不會去了,對應的分值則是1分。
3.3 針對景區評價數據的輿情滿意度分析計算
⑴ 根據已有模版庫構建評價體系表。內容大類關鍵詞和內容子類關鍵詞的權重和情感關鍵詞的分值以及相同分值評論數量如表1所示,表中{}表示第i個內容大類關鍵詞下第j個內容子類關鍵詞對應分值為t的情感關鍵詞的集合。
⑵ 通過網絡爬蟲工具搜索景區網頁的每個帖子,按內容子類關鍵詞,搜索所有相關的情感關鍵詞,根據表1進行分類統計,把相應的情感關鍵詞的數量記錄到對應到中。
比如:通過網絡爬蟲工具搜到網頁得到1000個情感關鍵詞,有600個是與內容大類關鍵詞‘吃A1’有關的,其中300個是與內容子類關鍵詞‘味道B11’有關的,對應的情感關鍵詞集{}及數量如表2所示。
由內容子類關鍵詞滿意度計算公式可知該景區關于吃的味道的滿意度值為:
即:該景區關于吃的味道的滿意度值為3.6,同理可以計算其他內容子類的關鍵詞的滿意度值。
4 結束語
通過這種方法得到滿意度值,解決了以往游客的游記、評價等非結構化內容難以被其他游客高效搜索利用的問題,除了可以向游客提供某個景區的綜合滿意度值外,還可以向游客提供該景區具體的關于吃、住、行、游、購、娛六個方面的滿意度值,以及比吃、住、行、游、購、娛更具體的相關內容子類關鍵詞的滿意度值,讓游客快速了解該景區的各個評價參數。
參考文獻(References):
[1] 維克托.邁爾舍恩伯格著,盛楊燕,周濤譯.大數據時代:生活、工作與思維的大變革[M].浙江人民出版社,2013.
[2] 馬建光,姜巍.大數據的概念、特征及其應用[J].國防科技,2013.2:10-11
所謂的交通事故預測是根據已發生交通事故的數據進行統計,在對事故原因進行分析的基礎上,探尋事故規律,以針對交通事故做出更為合理的推測和判斷。當前,交通事故預測方法相對較為多樣,如回歸分析、時間序列等,雖然都能對交通事故做出科學合理的決策性指導,但各具優缺點和適用條件,因而有關人員應在遵循交通事故預測思想的基礎上,對幾種主要預測方法進行分析,確保交通部門人員能夠根據實際情況而合理選擇交通事故預測方法。
1 交通事故預測思想
交通事故對人類造成的危害相對較大,對人類產生嚴重的威脅。從我國發展實踐中可知,交通事故在一定程度上制約我國經濟的發展進程,尤其對人類社會福利、醫療保險等方面的影響較大。據不完全統計,2015年全年間,我國交通事故約為10597358起,死亡人數約為68432人,財產損失高達10億元以上。可見,交通事故威脅隱患相對較大。交通事故預測能夠根據已發生交通事故進行統計、分析、處理,在遵循規律的基礎上,對未來可能發生的交通事故作出科學合理的預測,該預測結果以科學邏輯推斷為基礎。就交通事故原因而言,道路環境、交通條件、車輛、駕駛員等都是影響因素。通過交通事故預測,我國交通部門人員能夠對交通事故作出科學合理的判斷和制定有效的預防策略,以最大限度降低和消除交通事故隱患。
2 交通事故主要預測方法
2.1 回歸分析預測法
回歸分析預測法在交通事故預測中的有效應用,主要分為線性回歸和非線性回歸兩種方法。首先,背景交通工程研究所人員提出線性回歸分析預測法,通過對自變量和因變量之間關系問題的探討,對因變量趨勢加以預測,其模型為:
Y=3577.79+93.3028lgX1+824.921lgX3+326.777lgX4+800.454lgX5-1149.051lgX6-224.902lgX8-45.0499lgX9-152.6081lgX10-287.191lgX11。
其中X1-X11分別表示臨時人口、常住人口、機動車輛、自行車、道路長度、道路面積、燈控路口、交通標志、交通標線、失控部位、交警人數。
其次,英國倫敦大學SemeedR.J教授對歐洲國家十余載的交通事故資料進行研究,提出非線性回歸分析預測法。對此,他建立冪函數曲線事故模型,
即:D=0.0003。其中D為交通事故死亡人數;N是機動車保有量;P為人口數量。
回歸分析預測法能夠對交通事故影響因素間的因果關系加以反應,以達到預測結果的目的,但對變化趨勢的反應可能較為遲鈍。該預測方法適用于樣本量較大、數據波動小和極具規律性的預測實踐中。
2.2 時間序列預測法
時間序列預測法主要有兩種類型,分別為移動平均預測法和指數平滑預測法。首先,移動平均預測法是比較簡單的平滑預測技術,通過計算項數時序平均值,對長期發展趨勢變化做出科學合理的預測。內蒙古科技大學韋麗琴、徐勇勇利用時間序列ARIMA模型做出科學合理的預測分析,對交通事故加以預測。其次,指數平滑預測法的通式為:
Ft+1=αxt+(1-α)Ft
時間序列預測法屬于定量預測方法,擬合效果良好,但在短期預測中,受諸多因素干擾影響較大,使預測結果具有不確定性。該方法適用于國內縣區等區域范圍較小的預測實踐中。
2.3 灰色馬爾科夫鏈預測法
道路交通系統屬于動態時變系統,但影響交通安全的因素多且復雜。在灰色馬爾科夫鏈預測法的指導下,相關人員能夠通過灰色預測模型,做出短期預測,以縮小預測區間,提高預測效率。云南交通職業技術學院王剛對灰色馬爾科夫鏈預測法而建立模型,對交通事故進行預測,根據實踐可知,基于該模型的預測精確度十分高,取得良好的預測成效。
灰色預測以短期預測為主,馬爾科夫鏈預測以長期預測為主,通過二者結合,可提高預測精度,但如若數據變化大,則灰色模型的吻合度和精度下降。借助該預測方法,能夠對狀態下的轉移規律加以預測,并揭示交通事故時序變化總趨勢。
2.4 貝葉斯預測法
貝葉斯預測法主要相對于交通事故中的車速問題而言。在交通事故中,車速是重要影響因素,如若車輛速度過快,則駕駛員反應的時間較少,其應急策略不足,造成重大交通安全隱患。貝葉斯預測法能夠對未來交通事故發生的可能性進行預測。該預測方法應用中,必須建立在交通事故和車速有關聯的基礎之上,有助于交通部門人員更好開展數據統計和交通流進行觀測。
2.5 灰關聯分析及神經網絡預測法
就灰關聯分析及神經網絡預測法而言,哈爾濱工業大學交通研究所和中國城市規劃設計研究院的裴玉龍與張宇提出該方法,旨在通過交通事故影響因素分析,對事故進行進一步解析,并建立合理的模型理論和確定預測指標,對未來交通事故發展趨勢加以預測。該預測方法的適應性較強,在我國交通事故預測工作實踐中有著較為有效的運用,可解決傳統預測方法難以解決的問題,建立在BP網絡基礎之上,并利用計算機開展輔計算活動。
2.6 多層遞階預測方法
多層遞階預測方法能夠規避傳統統計預測方法的缺陷,以現代控制理論“系統辨識”為重要基礎,對對象的未來狀態做科學的預測。動態系統數學模型為:y(k)=。在交通事故預測中,多層遞階預測方法是大數據時代背景下的重要處理方式,有利于增強預測效果。
3 結論
交通部門對交通事故進行合理的預測,有利于提高道路交通系統的安全系數。所以,相關人員合理選擇交通事故預測方法具有必要性,為規避交通事故而做出科學合理的決策。目前,使用較多的交通事故預測方法主要有:回歸分析預測法、時間序列預測法、灰色馬爾科夫鏈預測法、貝葉斯預測法、灰關聯分析及神經網絡預測法等,因其各具優缺點和適用條件,因而要求相關人員必須對系列問題進行深入探究,確保公路交通事故預測的有效性。
參考文獻
[1]李景文,高桂清.交通事故預測分析[J].中國安全科學學報,2015,6(01):20-23.
[2]劉志強.道路交通事故預測方法比較研究[J].交通與計算機,2013,19(05):7-10.
【中圖分類號】G64 【文獻標識碼】A 【文章編號】2095-3089(2015)06-0155-02
大數據,或稱巨量資料,指的是需要新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的信息資產[2]。大數據技術的戰略意義不在于掌握龐大的數據信息,而在于對那些含有意義的數據進行專業化處理。本文將以東北地區數學專業教師大數據為基礎,通過“加工”實現數據的“增值”,使其為決策與預測服務。
一、東北地區數學專業教師大數據來源及準備
通過查閱資料與調查,收集到東北三省各高校數學教師相關大數據,包括教師教齡(?S年)、收入(?S元)、稅收(?S元)和職業病情況等方面的實際數據。由于得到的數據信息量大,輕重各異,所以首先需要進行數據預處理,即清除異常數據、錯誤糾正、格式標準化等,再通過數據挖掘技術,利用一系列相關算法和數據處理技術從大量的數據中提取人們所需要的重要信息,也就是上面所提到的實現信息的“增值”,同時大大提高數據處理效率,下面具體介紹本項目所采用的模型和計算方法。
二、東北地區數學專業教師大數據分析與結果
收集并處理好教師教齡、收入、稅收和職業病情況等方面的數據后,本文主要針對三個方面進行了詳細的分析:
1.教師收入隨年份的變化
(1)數據范圍:1994年-2014年東三省各高校數學教師收入(單位:元);
(2)計算條件:matlab軟件,最小二乘回歸分析,高性能計算工作站;
(3)求解過程:年份作為自變量x,收入為因變量y,從總體上看,二者統計關系大致符合一元線性的正態誤差模型[3],即對給定xi的有最小二乘一元線性回歸公式yi=b0+b1xi+εi,其中:
b■=■, ■=■■x■b0=■-b■■, ■ =■■y■
其中εi是由變量可能的內在隨機性、未知影響因素等隨機擾動造成的誤差。總之,它可看成是眾多細小影響因素的綜合代表。最后,由Matlab提供polyfit函數實現回歸函數擬合[4];
(4)結果分析:計算結果表明,隨著年份的增加,教師收入也在不斷增加。估計的因變量的系數b1約為191,也就是說,每過一年,教師收入大致可增加近191元。
2.教師職業病情況與教齡的關系
(1)數據范圍:1994年―2014年東三省各高校數學教師教齡(單位:年)、職業病情況;
(2)結果分析:首先利用matlab軟件,以橫軸為某年東三省數學教師教齡,縱軸反映相應教齡的平均職業病情況(為方便,規定越接近縱軸正方向,職業病越嚴重)利用matlab軟件繪制圖形[5],發現教師教齡越長,職業病也愈加嚴重。每一年的教師職業病情況均可繪制一張圖表,通過將這11張圖表的最高值(即每一年職業病的最高值)做比較,發現其趨勢是先逐年下降,最后趨于穩定。
3.對教師專業發展階段的研究
(1)數據范圍:2014年東三省各高校數學教師收入、教齡、稅收和職業病大數據;
(2)計算條件:IBM處理器、大數據挖掘分類算法;
(3)求解過程:用神經網絡研究方法(即模擬生物上神經元工作的方法)。圖中每個橢圓形節點接受輸入數據,將數據處理后輸出,輸入層節點接受教師信息的輸入,然后將數據傳遞給隱藏層,隱藏層將數據傳給輸出層,輸出層輸出教師專業發展處于哪一專業成熟階段;
(4)結果分析:若將教師專業成熟過程分為三個階段:形成期、發展期和成熟期。那么利用IBM處理器和以上算法,在所調查的教師中,約70%處于發展時期,是其基本適應教育教學工作的時期;約20%處于形成期,是形成良好心理素質和正確教育思想的關鍵時期;約10%處于成熟期,是掌握教學主動權,成為學校教學骨干的時期;
(5)研究意義:研究東三省高校數學教師專業發展成熟階段,可以基本掌握教師資源結構,從而能夠遵循不同發展階段的不同特征、觀念、心理、發展需求,制定相應教研活動、政策和制度,促進教師全面持續發展[6]。
三、結果討論
1.數據呈現以上結果的原因
(1)隨著國家科教興國戰略的深入實施,教師的工資和待遇將被逐步納入國家工作人員統一管理,教師的收入將得到很大的提高。另一方面,數學能力的培養是學習各專業、走入各行業的基礎,國家將加大數學知識的教育力度,進而數學專業教師所付出的辛苦也更加不可小覷,綜合以上幾個重要原因,教師收入隨年份增加而增加也是符合經濟理論的。
(2)教齡越長,職業病也越嚴重的依存關系,我們容易理解。但隨著時間的推移,職業病的嚴重性呈現下降趨勢正是反映了我國科技的革新:環境的改變、教學設備和教學技術的更新使得教師的課堂教學更加高效和輕松便捷,如多媒體、電子白板使得課堂不再“塵土飛揚”。
(3)在對教師專業發展階段的研究中,處于專業發展時期的教師所占比例最高,達到近70%。實際上,他們多數處于青壯年的人生階段,是社會的中堅力量,又曾在高等教育多樣化與綜合化的背景下受到過良好的教育,并具有較豐富的教學經驗和緊跟新時代的創新思想,自然在專業發展的角度也占有較大比例。
2.合理的相關預測
大數據最有價值的特點就是其“預見性”。上述數值結果表明,在經濟平穩發展和社會穩定的前提下,東三省數學專業教師的收入在未來的幾十年依舊處于增長趨勢,教師職業病總體減輕,專業發展越來越成熟,使得教師隊伍整體素質越來越高,而未來教師的考核獎勵制度也會變得更加嚴格和全面。
3.建議
(1)無論是對教師行業還是其他行業感興趣,都要關注其變化,分析其形勢及趨勢,以便對此行業的認知更加科學合理。
(2)本文采用的大數據處理所用模型和方法,可以進一步推廣到其它相關領域,使之成為研究大數據的更通用的工具。
本文利用matlab軟件、最小二乘法模型及IBM處理器分析了東北地區數學專業教師大數據,得出的結果對于掌握該地區數學教師基本情況并預測其發展趨勢有著重要的作用,還為熱心同類問題的研究者提供高效的方法和技術。當我們不能有效處理所獲取的大數據,它們就是一些平凡的數字和符號。如果我們能夠很好地駕馭大數據,它們必定會為我們帶來諸多的方便。
最小二乘法模型在處理大數據時有一定的優勢[7],統計分析,神經網絡算法和遺傳算法都是處理大數據的有效方法,如果能將這些方法有機的結合起來,將更能獲得許多滿意的數值分析結果。當大數據超過計算條件的時空允許時,不僅耗時費力,甚至使得計算成為不可能,通常需要采用并行算法等高效計算手段。在高性能計算方面,我們并沒有用到并行算法,如果能利用并行算法,所處理的數值結果容量會更大更有參考價值。
參考文獻:
[1]蔡鎖章主編.數學建模:原理與方法.北京:海洋出版社,2000.
[2]維克托邁爾舍恩伯格.大數據時代.浙江:浙江人民出版社,2012.
[3]吳翊,吳孟達,成禮智編著.數學建模的理論與實踐.長沙:國防科技大學出版社,1999.
[4]張德豐編著.Matlab數值分析與仿真案例.北京:清華大學出版社,2011.10(21世紀高等學校規劃教材計算機應用)IBSN 978―7―302―26254―1.