數(shù)據(jù)報(bào)告心得體會(huì)
大數(shù)據(jù)的初衷就是將一個(gè)公開、高效的政府呈現(xiàn)在人民眼前。你知道數(shù)據(jù)報(bào)告心得體會(huì)是什么嗎?接下來就是學(xué)習(xí)啦小編為大家整理的關(guān)于數(shù)據(jù)報(bào)告心得體會(huì),供大家閱讀!
數(shù)據(jù)報(bào)告心得體會(huì)篇1
介紹數(shù)據(jù)分析/挖掘的圖書有很多,這些圖書分為很多等級(jí),有的是直接面向應(yīng)用(business, academy or interplay between both two),有的是介紹理論背景(個(gè)人認(rèn)為很重要,如果以20/80規(guī)則,這些圖書將有助于解決剩余20%的問題,不過你可能要付出80%精力),有的是結(jié)合各類計(jì)算工具(例如SAS,Excel,R etc)。相信很多人對(duì)此都很頭疼,到底應(yīng)該如何選擇呢?
現(xiàn)在先談?wù)勎覀€(gè)人在數(shù)據(jù)分析的經(jīng)歷,最后我將會(huì)做個(gè)總結(jié)。
大學(xué)開設(shè)了兩門專門講授數(shù)據(jù)分析基礎(chǔ)知識(shí)的課程:“概率統(tǒng)計(jì)”和“高等多元數(shù)據(jù)分析”。這兩門選用的教材是有中國(guó)特色的國(guó)貨,不僅體系完整而且重點(diǎn)突出,美中不足的是前后內(nèi)在的邏輯性欠缺,即各知識(shí)點(diǎn)之間的關(guān)聯(lián)性沒有被闡述明白,而且在應(yīng)用方面缺少系統(tǒng)地訓(xùn)練。當(dāng)時(shí),我靠著題海戰(zhàn)術(shù)把這兩門課給混過去了,現(xiàn)在看來是純忽悠而已。(不過,如果當(dāng)時(shí)去應(yīng)聘數(shù)據(jù)分析職位肯定有戲,至少筆試可以過關(guān))。
抱著瞻仰中國(guó)的最高科研圣地的想法,大學(xué)畢業(yè)后我奮不顧身的考取了中科院的研究生。不幸的是,雖然頂著號(hào)稱是高級(jí)生物統(tǒng)計(jì)學(xué)的專業(yè),我再也沒有受到專業(yè)的訓(xùn)練,一切全憑自己摸索和研究(不過,我認(rèn)為這樣反而挺好,至少咱底子還是不錯(cuò)的,一直敏而好學(xué))。首先,我盡全力搜集一切資料(從大學(xué)帶過來的習(xí)慣),神勇地看了一段時(shí)間,某一天我突然“頓悟”,這樣的學(xué)習(xí)方式是不行的,要以應(yīng)用為依托才能真正學(xué)會(huì)。然后呢,好在咱的環(huán)境的研究氛圍(主要是學(xué)生)還是不錯(cuò)滴,我又轟轟烈烈地跳入了paper的海洋,看到無數(shù)牛人用到很多牛方法,這些方法又號(hào)稱解決了很多牛問題,當(dāng)時(shí)那個(gè)自卑呀,無法理解這些papers。某一天,我又“頓悟”到想從papers中找到應(yīng)用是不行的,你得先找到科學(xué)研究的思路才行,打個(gè)比方,這些papers其實(shí)是上鎖的,你要先找到鑰匙才成。幸運(yùn)的是,我得到了笛卡爾先生的指導(dǎo),盡管他已經(jīng)仙游多年,他的“談?wù)劮椒?rdquo;為后世科研界中的被“放羊”的孤兒們指條不錯(cuò)的道路(雖然可能不是最好地,the better or best way要到國(guó)外去尋找,現(xiàn)在特別佩服毅然出國(guó)的童鞋們,你們的智商至少領(lǐng)先俺三年)。好了,在咱不錯(cuò)的底子的作用下,我掌握了科研方法(其實(shí)很簡(jiǎn)單,日后我可能會(huì)為“談?wù)劮椒?rdquo;專門寫篇日志)??上?,這時(shí)留給咱的時(shí)間不多了,中科院的碩博連讀是5年,這對(duì)很多童鞋們綽綽有余的,但是因本人的情商較低,被小人“陷害”,被耽擱了差不多一年。這時(shí),我發(fā)揮了“虎”(東北話)的精神,選擇了一個(gè)應(yīng)用方向,終于開始了把數(shù)據(jù)分析和應(yīng)用結(jié)合的旅程了。具體過程按下不表,我先是把自己掌握的數(shù)據(jù)分析方法順次應(yīng)用了,或者現(xiàn)成的方法不適合,或者不能很好的解決問題,當(dāng)時(shí)相當(dāng)?shù)拿悦Q?,難道是咱的底子出了問題。某一天,我又“頓悟”了,毛主席早就教育我們要“具體問題具體分析”,“教條主義”要不得,我應(yīng)該從問題的本質(zhì)入手,從本質(zhì)找方法,而不是妄想從繁多的方法去套住問題的本質(zhì)。好了,我辛苦了一段時(shí)間,終于解決了問題,不過,我卻有些糾結(jié)了。對(duì)于數(shù)據(jù)發(fā)分析,現(xiàn)在我的觀點(diǎn)就是“具體問題具體分析”,你首先要深入理解被分析的問題(領(lǐng)域),盡力去尋找問題的本質(zhì),然后你只需要使用些基本的方法就可以很好的解決問題了,看來“20/80法則”的幽靈無處不在呀。于是乎,咱又回到了原點(diǎn),趕緊去學(xué)那些基礎(chǔ)知識(shí)方法吧,它們是很重要滴。
這里,說了一大堆,我做過總結(jié):首先,你要掌握扎實(shí)的基礎(chǔ)知識(shí),并且一定要深入理解,在自己的思維里搭建起一橋,它連接著抽象的數(shù)據(jù)分析方法和現(xiàn)實(shí)的應(yīng)用問題;其次,你要有意識(shí)的去訓(xùn)練分析問題的能力;最后,你要不斷的積累各方面的知識(shí),記住沒有“無源之水”、“無根之木”,良好的數(shù)據(jù)分析能力是建立在豐富的知識(shí)儲(chǔ)備上的。
數(shù)據(jù)報(bào)告心得體會(huì)篇2
有人說生活像一團(tuán)亂麻,剪不斷理還亂;我說生活像一團(tuán)亂碼,盡管云山霧罩惝恍迷離,最后卻總會(huì)撥云見日雨過天晴。維克托邁爾舍恩伯格就把這團(tuán)亂碼叫做大數(shù)據(jù),在他的這本書里,試圖給出的就是撥開云霧見青天的玄機(jī)。
這玄機(jī)說來也簡(jiǎn)單,就是放棄千百年來人們孜孜追求的因果關(guān)系轉(zhuǎn)而投奔相關(guān)關(guān)系。說來簡(jiǎn)單,其實(shí)卻顛覆了多少代人對(duì)真理探求的夢(mèng)想。我覺得作者是個(gè)典型的實(shí)用主義者,在美帝國(guó)主義萬惡的壓迫和洗腦下,始終追逐性價(jià)比和利益最大化,居然放棄了追求共產(chǎn)主義真理最基本的要求!不像我們?cè)谔斐饷⒌幕\罩下,從小就開始學(xué)習(xí)和追求純粹的共產(chǎn)主義唯心科學(xué)歷史文化知識(shí)啦!這或許就是我們永遠(yuǎn)無法獲得諾貝爾獎(jiǎng)、永遠(yuǎn)無法站在科技最前沿的根本原因吧。其實(shí)小學(xué)時(shí)候,我就想過這個(gè)問題,相信所有的人都問過類似的問題,例如現(xiàn)在仍然很多人在問,媽的從來沒人知道我每天擺攤賺多少錢,你們他媽的那人均收入四五千是怎么算出來的。中國(guó)是抽樣的代表,因?yàn)橹袊?guó)人最喜歡用代表來表現(xiàn)整體,最典型的例子莫過于公布的幸福指數(shù)滿意指數(shù)各種指數(shù)永遠(yuǎn)都高于你的預(yù)期,你完全不清楚他是怎么來的,一直到最后匯總成三個(gè)代表,真心不清楚它到底能代表了啥。說這么多顯得自己是個(gè)憤青,其實(shí)只是想表達(dá)“樣本=總體”這個(gè)概念在科技飛速發(fā)展的今天,在世界的不同角落,還是會(huì)體現(xiàn)出不同的價(jià)值,受到不同程度的對(duì)待及關(guān)注。在大數(shù)據(jù)觀念的沖擊下,我們是不是真的需要將平時(shí)關(guān)注的重點(diǎn)從事物內(nèi)在的發(fā)展規(guī)律轉(zhuǎn)移到事物客觀的發(fā)生情況上。
大數(shù)據(jù)的出現(xiàn),必然對(duì)諸多領(lǐng)域產(chǎn)生極大的沖擊,某些行業(yè)在未來十年必將會(huì)得到突飛猛進(jìn)的發(fā)展,而其他一些行業(yè)則可能會(huì)消失。這是廢話,典型的三十年河?xùn)|三十年河西的道理,就像三十年前的數(shù)理化王子們,現(xiàn)在可能蜷縮在某工廠的小角落里顫顫巍巍的修理機(jī)器;就像三十年前職業(yè)高中的學(xué)生才學(xué)財(cái)會(huì)學(xué)銀行,如今這幫孫子一個(gè)個(gè)都開大奔養(yǎng)小三攢的樓房夠給自己做墓群的了;當(dāng)然也不乏像生物這種專業(yè),三十年前人們不知道是干啥的,三十年后人們都知道沒事別去干,唯一可惜的是我在這三十年之間的歷史長(zhǎng)河中卻恰恰選了這么一個(gè)專業(yè),這也是為什么我現(xiàn)在在這寫讀后感而沒有跟姑娘去玩耍的原因。其實(shí)乍一看這個(gè)題目,我首先想到的是精益生產(chǎn)的過程控制,比如六西格瑪,這其實(shí)就是通過對(duì)所有數(shù)據(jù)的分析來預(yù)測(cè)產(chǎn)品品質(zhì)的變化,就已經(jīng)是大數(shù)據(jù)的具體應(yīng)用了。
而任何事物都會(huì)有偏差,會(huì)有錯(cuò)誤,也就是說,這全部的數(shù)據(jù)中,肯定是要出現(xiàn)很多與總體反應(yīng)出的規(guī)律相違背的個(gè)體,但是無論如何這也是該事件中一般規(guī)律的客觀體現(xiàn)的一種形式,要遠(yuǎn)遠(yuǎn)好過從選定的樣本中剔除異常值然后得到的結(jié)論。換句話說,也大大減少了排除異己對(duì)表達(dá)事物客觀規(guī)律的影響。就好比是統(tǒng)計(jì)局統(tǒng)計(jì)中國(guó)人民的平均收入一樣,這些數(shù)怎么這么低啊,這不是給我們國(guó)家在國(guó)際社會(huì)上的形象抹黑么,刪掉刪掉;這些數(shù)怎么這么高啊,這還不引起社會(huì)不滿國(guó)家動(dòng)蕩啊,刪掉刪掉。所以說,大數(shù)據(jù)至少對(duì)反應(yīng)客觀事實(shí)和對(duì)客觀事實(shí)做預(yù)測(cè)這兩個(gè)方面是有非常積極地意義的。而這個(gè)新興行業(yè)所體現(xiàn)的商機(jī),既在如何利用數(shù)據(jù)上,又在如何取得數(shù)據(jù)上。
先說數(shù)據(jù)的利用,這里面表達(dá)的就是作者在通書中強(qiáng)調(diào)的對(duì)“相關(guān)關(guān)系”的挖掘利用。相關(guān)關(guān)系與因果關(guān)系便不再贅述,而能夠?qū)ο嚓P(guān)關(guān)系進(jìn)行挖掘利用的企業(yè)其實(shí)缺不多,因?yàn)榭梢韵嘈盼磥淼拇髷?shù)據(jù)庫(kù)就像現(xiàn)在的自然資源一樣,必將因?yàn)閷?duì)利益的追逐成為稀缺資源,而最終落在個(gè)別人或企業(yè)或部門的手中。想想無論當(dāng)你想要做什么事情的時(shí)候,都有人已經(jīng)提前知道并且為你做好了計(jì)劃,還真是一件甜蜜而又令人不寒而栗的事情。
而對(duì)于數(shù)據(jù)的獲取,我覺得必然是未來中小型企業(yè)甚至個(gè)人發(fā)揮極致的創(chuàng)造力的領(lǐng)域。如何在盡可能降低成本的情況下采集到越多越準(zhǔn)確的數(shù)據(jù)是必然的發(fā)展趨勢(shì),鑒于這三個(gè)維度事實(shí)上都無法做到極致,那么對(duì)于數(shù)據(jù)獲取方式的爭(zhēng)奪肯定將成就更多的英雄人物。
現(xiàn)在回頭從說說作者書中的觀點(diǎn)中想到的,P87中關(guān)于巴斯德的疫苗的事件,描述了一個(gè)被瘋狗咬傷的小孩,在接種了巴斯德的狂犬疫苗后成功幸存,巴斯德成了英雄的故事。這是個(gè)非常有意思的案例,因?yàn)樾『⒈还芬疾〉母怕蕛H為七分之一,也就是說,本事件有85%的概率是小孩根本就不會(huì)患病。那么小孩的生命到底是不是巴斯德救的,而這疫苗到底是有效沒效,通過這個(gè)事件似乎根本就沒有辦法得到驗(yàn)證。這就好比某人推出個(gè)四萬億計(jì)劃,但實(shí)際上國(guó)際經(jīng)濟(jì)形勢(shì)就是好轉(zhuǎn),哪怕你只推出個(gè)二百五計(jì)劃,GDP都會(huì)蹭蹭的往上漲,而且又不會(huì)帶來四萬億導(dǎo)致的嚴(yán)重通脹、產(chǎn)能過剩、房?jī)r(jià)泡沫等問題。那你說這四萬億到底是救了國(guó)還是誤了國(guó)?回到我自己的工作領(lǐng)域上來,安全工作,我們一直遵循的方向都是尋找因果關(guān)系,典型的從工作前的風(fēng)險(xiǎn)評(píng)估,到調(diào)查事故的Taproot或者五個(gè)為什么,無一不是邏輯推理得到結(jié)果的產(chǎn)物。而事實(shí)上,如果能做到信息的豐富采集和匯總的話,找出事物之間的相關(guān)性,對(duì)提高工作環(huán)境的安全系數(shù)是極為有利的。這個(gè)點(diǎn)留著,看看可不可以在未來繼續(xù)做進(jìn)一步研究。
數(shù)據(jù)報(bào)告心得體會(huì)篇3
關(guān)于軟件
分析前期可以使用EXCEL進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)結(jié)構(gòu)調(diào)整、復(fù)雜的新變量計(jì)算(包括邏輯計(jì)算);在后期呈現(xiàn)美觀的圖表時(shí),它的制圖制表功能更是無可取代的利器;但需要說明的是,EXCEL畢竟只是辦公軟件,它的作用大多局限在對(duì)數(shù)據(jù)本身進(jìn)行的操作,而非復(fù)雜的統(tǒng)計(jì)和計(jì)量分析,而且,當(dāng)樣本量達(dá)到“萬”以上級(jí)別時(shí),EXCEL的運(yùn)行速度有時(shí)會(huì)讓人抓狂。
SPSS是擅長(zhǎng)于處理截面數(shù)據(jù)的傻瓜統(tǒng)計(jì)軟件。首先,它是專業(yè)的統(tǒng)計(jì)軟件,對(duì)“萬”甚至“十萬”樣本量級(jí)別的數(shù)據(jù)集都能應(yīng)付自如;其次,它是統(tǒng)計(jì)軟件而非專業(yè)的計(jì)量軟件,因此它的強(qiáng)項(xiàng)在于數(shù)據(jù)清洗、描述統(tǒng)計(jì)、假設(shè)檢驗(yàn)(T、F、卡方、方差齊性、正態(tài)性、信效度等檢驗(yàn))、多元統(tǒng)計(jì)分析(因子、聚類、判別、偏相關(guān)等)和一些常用的計(jì)量分析(初、中級(jí)計(jì)量教科書里提到的計(jì)量分析基本都能實(shí)現(xiàn)),對(duì)于復(fù)雜的、前沿的計(jì)量分析無能為力;第三,SPSS主要用于分析截面數(shù)據(jù),在時(shí)序和面板數(shù)據(jù)處理方面功能了了;最后,SPSS兼容菜單化和編程化操作,是名副其實(shí)的傻瓜軟件。
STATA與EVIEWS都是我偏好的計(jì)量軟件。前者完全編程化操作,后者兼容菜單化和編程化操作;雖然兩款軟件都能做簡(jiǎn)單的描述統(tǒng)計(jì),但是較之SPSS差了許多;STATA與EVIEWS都是計(jì)量軟件,高級(jí)的計(jì)量分析能夠在這兩個(gè)軟件里得到實(shí)現(xiàn);STATA的擴(kuò)展性較好,我們可以上網(wǎng)找自己需要的命令文件(.ado文件),不斷擴(kuò)展其應(yīng)用,但EVIEWS就只能等著軟件升級(jí)了;另外,對(duì)于時(shí)序數(shù)據(jù)的處理,EVIEWS較強(qiáng)。
綜上,各款軟件有自己的強(qiáng)項(xiàng)和弱項(xiàng),用什么軟件取決于數(shù)據(jù)本身的屬性及分析方法。EXCEL適用于處理小樣本數(shù)據(jù),SPSS、STATA、EVIEWS可以處理較大的樣本;EXCEL、SPSS適合做數(shù)據(jù)清洗、新變量計(jì)算等分析前準(zhǔn)備性工作,而STATA、EVIEWS在這方面較差;制圖制表用EXCEL;對(duì)截面數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析用SPSS,簡(jiǎn)單的計(jì)量分析SPSS、STATA、EVIEWS可以實(shí)現(xiàn),高級(jí)的計(jì)量分析用STATA、EVIEWS,時(shí)序分析用EVIEWS。
關(guān)于因果性
做統(tǒng)計(jì)或計(jì)量,我認(rèn)為最難也最頭疼的就是進(jìn)行因果性判斷。假如你有A、B兩個(gè)變量的數(shù)據(jù),你怎么知道哪個(gè)變量是因(自變量),哪個(gè)變量是果(因變量)?
早期,人們通過觀察原因和結(jié)果之間的表面聯(lián)系進(jìn)行因果推論,比如恒常會(huì)合、時(shí)間順序。但是,人們漸漸認(rèn)識(shí)到多次的共同出現(xiàn)和共同缺失可能是因果關(guān)系,也可能是由共同的原因或其他因素造成的。從歸納法的角度來說,如果在有A的情形下出現(xiàn)B,沒有A的情形下就沒有B,那么A很可能是B的原因,但也可能是其他未能預(yù)料到的因素在起作用,所以,在進(jìn)行因果判斷時(shí)應(yīng)對(duì)大量的事例進(jìn)行比較,以便提高判斷的可靠性。
有兩種解決因果問題的方案:統(tǒng)計(jì)的解決方案和科學(xué)的解決方案。統(tǒng)計(jì)的解決方案主要指運(yùn)用統(tǒng)計(jì)和計(jì)量回歸的方法對(duì)微觀數(shù)據(jù)進(jìn)行分析,比較受干預(yù)樣本與未接受干預(yù)樣本在效果指標(biāo)(因變量)上的差異。需要強(qiáng)調(diào)的是,利用截面數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,不論是進(jìn)行均值比較、頻數(shù)分析,還是方差分析、相關(guān)分析,其結(jié)果只是干預(yù)與影響效果之間因果關(guān)系成立的必要條件而非充分條件。類似的,利用截面數(shù)據(jù)進(jìn)行計(jì)量回歸,所能得到的最多也只是變量間的數(shù)量關(guān)系;計(jì)量模型中哪個(gè)變量為因變量哪個(gè)變量為自變量,完全出于分析者根據(jù)其他考慮進(jìn)行的預(yù)設(shè),與計(jì)量分析結(jié)果沒有關(guān)系??傊?,回歸并不意味著因果關(guān)系的成立,因果關(guān)系的判定或推斷必須依據(jù)經(jīng)過實(shí)踐檢驗(yàn)的相關(guān)理論。雖然利用截面數(shù)據(jù)進(jìn)行因果判斷顯得勉強(qiáng),但如果研究者掌握了時(shí)間序列數(shù)據(jù),因果判斷仍有可為,其中最經(jīng)典的方法就是進(jìn)行“格蘭杰因果關(guān)系檢驗(yàn)”。但格蘭杰因果關(guān)系檢驗(yàn)的結(jié)論也只是統(tǒng)計(jì)意義上的因果性,而不一定是真正的因果關(guān)系,況且格蘭杰因果關(guān)系檢驗(yàn)對(duì)數(shù)據(jù)的要求較高(多期時(shí)序數(shù)據(jù)),因此該方法對(duì)截面數(shù)據(jù)無能為力。綜上所述,統(tǒng)計(jì)、計(jì)量分析的結(jié)果可以作為真正的因果關(guān)系的一種支持,但不能作為肯定或否定因果關(guān)系的最終根據(jù)。
科學(xué)的解決方案主要指實(shí)驗(yàn)法,包括隨機(jī)分組實(shí)驗(yàn)和準(zhǔn)實(shí)驗(yàn)。以實(shí)驗(yàn)的方法對(duì)干預(yù)的效果進(jìn)行評(píng)估,可以對(duì)除干預(yù)外的其他影響因素加以控制,從而將干預(yù)實(shí)施后的效果歸因?yàn)楦深A(yù)本身,這就解決了因果性的確認(rèn)問題。
關(guān)于實(shí)驗(yàn)
在隨機(jī)實(shí)驗(yàn)中,樣本被隨機(jī)分成兩組,一組經(jīng)歷處理?xiàng)l件(進(jìn)入干預(yù)組),另一組接受控制條件(進(jìn)入對(duì)照組),然后比較兩組樣本的效果指標(biāo)均值是否有差異。隨機(jī)分組使得兩組樣本“同質(zhì)”,即“分組”、“干預(yù)”與樣本的所有自身屬性相互獨(dú)立,從而可以通過干預(yù)結(jié)束時(shí)兩個(gè)群體在效果指標(biāo)上的差異來考察實(shí)驗(yàn)處理的凈效應(yīng)。隨機(jī)實(shí)驗(yàn)設(shè)計(jì)方法能夠在最大程度上保證干預(yù)組與對(duì)照組的相似性,得出的研究結(jié)論更具可靠性,更具說服力。但是這種方法也是備受爭(zhēng)議的,一是因?yàn)樗鼘?shí)施難度較大、成本較高;二是因?yàn)樵诟深A(yù)的影響評(píng)估中,接受干預(yù)與否通常并不是隨機(jī)發(fā)生的;第三,在社會(huì)科學(xué)研究領(lǐng)域,完全隨機(jī)分配實(shí)驗(yàn)對(duì)象的做法會(huì)涉及到研究倫理和道德問題。鑒于上述原因,利用非隨機(jī)數(shù)據(jù)進(jìn)行的準(zhǔn)試驗(yàn)設(shè)計(jì)是一個(gè)可供選擇的替代方法。準(zhǔn)實(shí)驗(yàn)與隨機(jī)實(shí)驗(yàn)區(qū)分的標(biāo)準(zhǔn)是前者沒有隨機(jī)分配樣本。
通過準(zhǔn)實(shí)驗(yàn)對(duì)干預(yù)的影響效果進(jìn)行評(píng)估,由于樣本接受干預(yù)與否并不是隨機(jī)發(fā)生的,而是人為選擇的,因此對(duì)于非隨機(jī)數(shù)據(jù),不能簡(jiǎn)單的認(rèn)為效果指標(biāo)的差異來源于干預(yù)。在剔除干預(yù)因素后,干預(yù)組和對(duì)照組的本身還可能存在著一些影響效果指標(biāo)的因素,這些因素對(duì)效果指標(biāo)的作用有可能同干預(yù)對(duì)效果指標(biāo)的作用相混淆。為了解決這個(gè)問題,可以運(yùn)用統(tǒng)計(jì)或計(jì)量的方法對(duì)除干預(yù)因素外的其他可能的影響因素進(jìn)行控制,或運(yùn)用匹配的方法調(diào)整樣本屬性的不平衡性——在對(duì)照組中尋找一個(gè)除了干預(yù)因素不同之外,其他因素與干預(yù)組樣本相同的對(duì)照樣本與之配對(duì)——這可以保證這些影響因素和分組安排獨(dú)立。
隨機(jī)實(shí)驗(yàn)需要至少兩期的面板數(shù)據(jù),并且要求樣本在干預(yù)組和對(duì)照組隨機(jī)分布,分析方法就是DID(倍差法,或曰雙重差分法);準(zhǔn)實(shí)驗(yàn)分析用截面數(shù)據(jù)就能做,不要求樣本在干預(yù)組和對(duì)照組隨機(jī)分布,分析方法包括DID(需兩期的面板數(shù)據(jù))、PSM(傾向性得分匹配法,需一期的截面數(shù)據(jù))和PSM-DID(需兩期的面板數(shù)據(jù))。從準(zhǔn)確度角度來說,隨機(jī)實(shí)驗(yàn)的準(zhǔn)確度高于準(zhǔn)實(shí)驗(yàn)和非實(shí)驗(yàn)分析。關(guān)于分析工具的選擇
數(shù)據(jù)報(bào)告心得體會(huì)篇4
轉(zhuǎn)眼間實(shí)習(xí)已去一月,之前因?yàn)楣ぷ髟蛐枰獝貉a(bǔ)大量的專業(yè)知識(shí)并加以練習(xí),所以一直抽不開身靜下心來好好整理一下學(xué)習(xí)的成果。如今,模型的建立已經(jīng)完成,剩下的就是枯燥的參數(shù)調(diào)整工作。在這之前就先對(duì)這段時(shí)間的數(shù)據(jù)處理工作得到的經(jīng)驗(yàn)做個(gè)小總結(jié)吧。
從我個(gè)人的理解來看,數(shù)據(jù)分析工作,在絕大部分情況下的目的在于用統(tǒng)計(jì)學(xué)的手段揭示數(shù)據(jù)所呈現(xiàn)的一些有用的信息,比如事物的發(fā)展趨勢(shì)和規(guī)律;又或者是去定位某種或某些現(xiàn)象的原因;也可以是檢驗(yàn)?zāi)撤N假設(shè)是否正確(心智模型的驗(yàn)證)。因此,數(shù)據(jù)分析工作常常用來支持決策的制定。
現(xiàn)代統(tǒng)計(jì)學(xué)已經(jīng)提供了相當(dāng)豐富的數(shù)據(jù)處理手段,但統(tǒng)計(jì)學(xué)的局限性在于,它只是在統(tǒng)計(jì)的層面上解釋數(shù)據(jù)所包含的信息,并不能從數(shù)據(jù)上得到原理上的結(jié)果。也就是說統(tǒng)計(jì)學(xué)并不能解釋為什么數(shù)據(jù)是個(gè)樣子,只能告訴我們數(shù)據(jù)展示給了我們什么。因此,統(tǒng)計(jì)學(xué)無法揭示系統(tǒng)性風(fēng)險(xiǎn),這也是我們?cè)诶媒y(tǒng)計(jì)學(xué)作為數(shù)據(jù)處理工具的時(shí)候需要注意的一點(diǎn)。數(shù)據(jù)挖掘也是這個(gè)道理。因?yàn)閿?shù)據(jù)挖掘的原理大多也是基于統(tǒng)計(jì)學(xué)的理論,因此所挖掘出的信息并不一定具有普適性。所以,在決策制定上,利用統(tǒng)計(jì)結(jié)果+專業(yè)知識(shí)解釋才是最保險(xiǎn)的辦法。然而,在很多時(shí)候,統(tǒng)計(jì)結(jié)果并不能用已有的知識(shí)解釋其原理,而統(tǒng)計(jì)結(jié)果又確實(shí)展示出某種或某些穩(wěn)定的趨勢(shì)。為了抓住寶貴的機(jī)會(huì),信任統(tǒng)計(jì)結(jié)果,僅僅依據(jù)統(tǒng)計(jì)分析結(jié)果來進(jìn)行決策也是很普遍的事情,只不過要付出的代價(jià)便是承受系統(tǒng)環(huán)境的變化所帶來的風(fēng)險(xiǎn)。
用于數(shù)據(jù)分析的工具很多,從最簡(jiǎn)單的Office組件中的Excel到專業(yè)軟件R、Matlab,功能從簡(jiǎn)單到復(fù)雜,可以滿足各種需求。在這里只能是對(duì)我自己實(shí)際使用的感受做一個(gè)總結(jié)。
Excel:這個(gè)軟件大多數(shù)人應(yīng)該都是比較熟悉的。Excel滿足了絕大部分辦公制表的需求,同時(shí)也擁有相當(dāng)優(yōu)秀的數(shù)據(jù)處理能力。其自帶的ToolPak(分析工具庫(kù))和Solver(規(guī)劃求解加載項(xiàng))可以完成基本描述統(tǒng)計(jì)、方差分析、統(tǒng)計(jì)檢驗(yàn)、傅立葉分析、線性回歸分析和線性規(guī)劃求解工作。這些功能在Excel中沒有默認(rèn)打開,需要在Excel選項(xiàng)中手動(dòng)開啟。除此以外,Excel也提供較為常用的統(tǒng)計(jì)圖形繪制功能。這些功能涵蓋了基本的統(tǒng)計(jì)分析手段,已經(jīng)能夠滿足絕大部分?jǐn)?shù)據(jù)分析工作的需求,同時(shí)也提供相當(dāng)友好的操作界面,對(duì)于具備基本統(tǒng)計(jì)學(xué)理論的用戶來說是十分容易上手的。
SPSS:原名Statistical Package for the Social Sciences(社會(huì)科學(xué)統(tǒng)計(jì)軟件包),現(xiàn)在已被IBM收購(gòu),改名后仍然是叫SPSS,不過全稱變更為Statistical Product and Service Solutions(統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案)。SPSS是一個(gè)專業(yè)的統(tǒng)計(jì)分析軟件。除了基本的統(tǒng)計(jì)分析功能之外,還提供非線性回歸、聚類分析(Clustering)、主成份分析(PCA)和基本的時(shí)序分析。SPSS在某種程度上可以進(jìn)行簡(jiǎn)單的數(shù)據(jù)挖掘工作,比如K-Means聚類,不過數(shù)據(jù)挖掘的主要工作一般都是使用其自家的Clementine(現(xiàn)已改名為SPSS Modeler)完成。需要提一點(diǎn)的是SPSS Modeler的建模功能非常強(qiáng)大且智能化,同時(shí)還可以通過其自身的CLEF(Clementine Extension Framework)框架和Java開發(fā)新的建模插件,擴(kuò)展性相當(dāng)好,是一個(gè)不錯(cuò)的商業(yè)BI方案。
R:R是一個(gè)開源的分析軟件,也是分析能力不亞于SPSS和Matlab等商業(yè)軟件的輕量級(jí)(僅指其占用空間極小,功能卻是重量級(jí)的)分析工具。官網(wǎng)地址:支持Windows、Linux和Mac OS系統(tǒng),對(duì)于用戶來說非常方便。R和Matlab都是通過命令行來進(jìn)行操作,這一點(diǎn)和適合有編程背景或喜好的數(shù)據(jù)分析人員。R的官方包中已經(jīng)自帶有相當(dāng)豐富的分析命令和函數(shù)以及主要的作圖工具。但R最大的優(yōu)點(diǎn)在于其超強(qiáng)的擴(kuò)展性,可以通過下載擴(kuò)展包來擴(kuò)展其分析功能,并且這些擴(kuò)展包也是開源的。R社區(qū)擁有一群非常熱心的貢獻(xiàn)者,這使得R的分析功能一直都很豐富。R也是我目前在工作中分析數(shù)據(jù)使用的主力工具。雖然工作中要求用Matlab編程生成結(jié)果,但是實(shí)際分析的時(shí)候我基本都是用R來做的。因?yàn)樵谡Z法方面,R比Matlab要更加自然一些。但是R的循環(huán)效率似乎并不是太高。
Matlab:也是一個(gè)商業(yè)軟件,從名稱上就可以看出是為數(shù)學(xué)服務(wù)的。Matlab的計(jì)算主要基于矩陣。功能上是沒話說,涵蓋了生物統(tǒng)計(jì)、信號(hào)處理、金融數(shù)據(jù)分析等一系列領(lǐng)域,是一個(gè)功能很強(qiáng)大的數(shù)學(xué)計(jì)算工具。是的,是數(shù)學(xué)計(jì)算工具,這東西的統(tǒng)計(jì)功能只不過是它的一部分,這東西體積也不小,吃掉我近3個(gè)G的空間。對(duì)于我來說,Matlab是一個(gè)過于強(qiáng)大的工具,很多功能是用不上的。當(dāng)然,我也才剛剛上手而已,才剛剛搞明白怎么用這個(gè)怪物做最簡(jiǎn)單的Garch(1,1)模型。但毫無疑問,Matlab基本上能滿足各領(lǐng)域計(jì)算方面的需求。
以上這些軟件算是主流了,數(shù)據(jù)分析軟件遠(yuǎn)不止這些,還有Eviews、S-plus等工具,因?yàn)闆]用過,所以也就不說了
猜你感興趣:
3.大數(shù)據(jù)時(shí)代讀書心得體會(huì)
數(shù)據(jù)報(bào)告心得體會(huì)
下一篇:數(shù)控維修心得