試論數(shù)據挖掘在化學研究生產中的應用論文
近年來,數(shù)據挖掘引起了信息產業(yè)界的極大關注,其主要原因是存在大量數(shù)據,可以廣泛使用,并且迫切需要將這些數(shù)據轉換成有用的信息和知識。獲取的信息和知識可以廣泛用于各種應用,包括商務管理,生產控制,市場分析,工程設計和科學探索等。以下是學習啦小編為大家精心準備的:試論數(shù)據挖掘在化學研究生產中的應用相關論文。內容僅供參考,歡迎閱讀!
試論數(shù)據挖掘在化學研究生產中的應用全文如下:
1 引言
化學是一門研究化合物組成、性質以及變化的一門學科。在長期的化學、化工實驗中產生了大量的數(shù)據,但是數(shù)據的海量增加卻造成了諸如信息過量、信息安全隱患、信息真假難辨等困難。同時,這些海量的數(shù)據內部存在著很多有價值的信息和規(guī)律,如何從這些數(shù)據中發(fā)現(xiàn)更多更有價值的信息和規(guī)律也成為化學、化工專家關注的焦點,需要是發(fā)明之母,面對這一要求,數(shù)據挖掘技術在化學、化工中的應用也就應運而生,并顯示了強大的生命力。在化學領域內,數(shù)據挖掘理論和算法的發(fā)展,極大地促進了計算機化學、化學計量學和化學信息學等新學科的發(fā)展。本文就針對數(shù)據挖掘方法在化學、化工各方面的應用進行簡述。
2 數(shù)據挖掘的概述
數(shù)據挖掘(Data mining),是數(shù)據庫知識發(fā)現(xiàn)(KDD, Knowledge-Discovery in Databases)中的一個步驟。數(shù)據挖掘一般是指從大量的數(shù)據中通過算法搜索發(fā)現(xiàn)隱藏于其中的規(guī)律和信息的過程。近十年來,數(shù)據挖掘技術不管是在理論上還是在實際應用上,都已取得了很大的進展[1],同時也出現(xiàn)了各種專用或商用的數(shù)據挖掘軟件。
數(shù)據挖掘領域利用的主要思想有:統(tǒng)計學的抽樣、估計和假設檢驗;人工智能、模式識別和機器學習的搜索算法、建模技術和學習理論。數(shù)據挖掘同時也迅速地接納了最優(yōu)化、進化計算、信息論、信號處理、可視化和信息檢索等領域方面的思想。目前,常用的數(shù)據挖掘方法主要有以下幾種:數(shù)學統(tǒng)計方法、決策樹、模式識別方法、人工神經網絡方法、遺傳算法、粗糙集方法、支持向量機方法等。
3 數(shù)據挖掘在化學與化工生產中的應用
數(shù)據挖掘利用多學科領域的知識從全新的角度以及更深層次中發(fā)掘存在于海量信息內部有效的、新穎的模式。在化學與化工生產中利用這種數(shù)據挖掘技術可從化學和化工生產數(shù)據中尋找潛在的規(guī)律,同時利用這些規(guī)律指導企業(yè)的生產過程,最終實現(xiàn)生產過程的優(yōu)化以及企業(yè)效益的最大化。
3.1 中草藥成分分析中的數(shù)據挖掘
方兆華等對化妝品專利中草藥成分利用關聯(lián)規(guī)則進行分析,得出化妝品中有當歸、白芷和蘆薈等高頻單味藥,有當歸-川芎等高頻藥對,有蘆薈-芝麻-向日葵子等高頻藥組;基于置信度和支持度分析,得到了化妝品中中草藥應用的13 條強關聯(lián)規(guī)則,如向日葵子-芝麻等。陸愛軍等利用關聯(lián)規(guī)則對中醫(yī)藥效、植物科屬、化學的成分活性、中藥提取物和現(xiàn)代藥理之間的相互關系進行研究,在分析之前對數(shù)據進行預處理,然后再對處理后的數(shù)據進行挖掘,從而得到一些有趣的關聯(lián)規(guī)則,比如中藥藥效和植物科分類的關聯(lián)規(guī)則,都是因為在該科下面的植物很多具有相應的中藥藥效。
3.2 化學研究中的數(shù)據挖掘
朱建國分析了數(shù)據的具體特征,采用ID3 的決策樹算法將數(shù)據的離散化和屬性選擇進行預處理,使決策樹樹狀結構的分類器對數(shù)據能進行更有效的分類。通過二苯乙烯系列化合物實驗數(shù)據的建樹過程,以及對所得到的規(guī)則進行分析,將決策樹有效地運用在二苯乙烯系列化合物研究過程中,并開發(fā)方案實現(xiàn)系統(tǒng)讓研究者能夠清晰地表達分類規(guī)則,從而給研究者帶來了極大的方便。
李峰等將數(shù)據挖掘應用在稀土摻雜納米TiO2結構與光催化活性的關系中,用多元逐步回歸分析對數(shù)據樣本間的聯(lián)系進行挖掘,從而發(fā)現(xiàn)結構參數(shù)與光催化劑的表觀速率常數(shù)間之間存在著良好的相關性,其相關系數(shù)大于0.99,說明該模型具有良好的穩(wěn)定性和預測能力。溶膠-凝膠法制備的不同稀土摻雜納米TiO2不管是實驗結果還是計算機模擬結果都表明其納米結構相似,光催化活性是相近的,對于系列光催化劑制備及其動力學性質研究都能較好地建立起定量構效關系,進而通過XRD參數(shù)測試,發(fā)現(xiàn)活性相近的催化劑,為選擇高效的光催化劑節(jié)約資源。
Ru等人提出了一種稱為BSVR(Boosting support vector regression)的方法,該方法支持向量回歸,以Boosting 結合支持向量回歸(SVR)為分類器,繼而用它來處理硝基苯類,并且將其用作5-脂肪氧化酶抑止劑的1-phenyl[2H]-tetrahydro-triazine-3-one類化合物的QSAR數(shù)據預測毒性,實驗結果表明這種方法在病毒性預測的準確性方面有明顯的提高。
Cai 與Feng 等人提出了一種稱為LogistBoost 的算法,該算法基于對數(shù)回歸策略,可以對蛋白質結構數(shù)據(基于氨基酸序列)的二類、多類分類問題進行預測,實驗結果表明這種算法具有很好的預測結果。Boosting 算法在蛋白質結構分類方面的預測應用是以構成蛋白質的氨基酸種類、排列順序作為主要屬性對蛋白質的二級結構進行判斷。隨著數(shù)據挖掘在化學中的應用,Boosting算法有望能夠對蛋白質的3D結構進行預測。Friedman 等人提出了梯度Boosting 算法,該方法在回歸問題上直接應用Boosting 算法,從而有效解決了數(shù)據挖掘中在化學應用中回歸問題上常見的問題,而Tao 等人提出的新Boosting算法則能夠有效解決數(shù)據挖掘在化學應用中異常值的檢測問題。
3.3 化工生產中的數(shù)據挖掘
張泉靈等利用多支持度關聯(lián)規(guī)則的挖掘算法,開發(fā)了化工生產過程的數(shù)據挖掘軟件,通過數(shù)據挖掘軟件對操作參數(shù)和配方進行優(yōu)化,使產品的收率和有效成分得到提高,并將該系統(tǒng)應用在三唑磷的合成過程中,使三唑磷提高了1.5%的收率,同時三唑磷的含量也提高了三個百分點,從80%提高到83%,為企業(yè)帶來了較好的經濟的效益和社會效益。
陸治榮等利用數(shù)據挖掘方法開發(fā)了適用于生產過程優(yōu)化、故障診斷、優(yōu)化新產品研制和配方設計的系列軟件DMOS,該軟件為化工、煉油等行業(yè)生產過程優(yōu)化的工程化運營創(chuàng)造了條件,并將該系統(tǒng)應用到某石化廠,主要解決丙烯的收率不能滿足下游生產的問題,更重要的是回收的丙烯收率的提高可以提高經濟效益,結果表明經過DMOS數(shù)據挖掘后提出了新的生產參數(shù),對原來正常的生產狀態(tài)進行優(yōu)化后提高了丙烯的收率,優(yōu)化后丙烯的收率從14.7%提高到了19.11%。
基于合成氨生產效益的數(shù)據挖掘,用于解決氨合成裝置DMOS合成氨優(yōu)化系統(tǒng),用于解決合成氨工業(yè)生產參數(shù)的優(yōu)化,實現(xiàn)氨合成裝置生產時實時工況診斷、實時趨勢瀏覽、優(yōu)化操作指導、報表生成等功能。通過對云維集團有限公司氨合成裝置合成塔生成數(shù)據的數(shù)據挖掘,找出了影響裝置目標變量的主要工藝參數(shù),建立目標變量與有關工藝參數(shù)間的數(shù)學模型,通過實驗表明所建模型的可靠性強,能夠優(yōu)化裝置工藝操作,提高合成氨產量,全面提高企業(yè)的經濟效益。
3.4 化學分類中的數(shù)據挖掘
李琳等[15]利用決策樹對玻璃和葡萄酒進行分類,玻璃有9 個屬性作為衡量指標,葡萄酒為意大利某地的三種酒、含有13 個屬性作為分類指標。他們首先使用MDLP(最小長度描述方法)進行離散化,再用LVF(LasVegas Filter)方法進行屬性選擇,剔除冗余數(shù)據后,再由C4.5 方法構建決策樹。通過實驗表明:由決策樹建成的分類模型具有良好的預報性能,適合于化學分類知識模式的挖掘?;陬A處理的決策樹克服了一般決策樹方法難以處理連續(xù)型數(shù)據集的缺點,又具有其它方法所不具備的優(yōu)勢,可從大量數(shù)據中挖掘出潛在的分類知識,并具有簡沽直觀的表達形式,易為專業(yè)人員理解和分析。
4 結論
本文對數(shù)據挖掘方法在化學和化工生產過程中如何利用海量數(shù)據、發(fā)現(xiàn)和挖掘出新的規(guī)律和信息,為化學研究和化工生產提供有效準確的依據。雖然數(shù)據挖掘技術在化學和化工生產過程中獲得了大量應用,但是,目前應用的范圍不是很廣。在化學和化工生產過程中的應用是數(shù)據挖掘當前的一個研究熱點,受到越來越多研究人員的青睞。數(shù)據挖掘技術能夠根據大量的化學和化工生產領域中的數(shù)據挖掘出有價值且隱藏的知識。因此,在化學研究過程中、化工生產過程的建模、控制、優(yōu)化、故障診斷等方而有非常重要研究的價值,并且越發(fā)顯示其重要作用。
【試論數(shù)據挖掘在化學研究生產中的應用論文】相關文章: