數據從信息技術行業產生的那一刻起就一直存在,信息技術是基于信息的,而信息是來自于數據的。數據挖掘,數據倉庫,商務智能已經被眾多企業實施了很多年,并且在很多年以前就承諾要幫助業務獲得更多的價值。但是我們也聽到了很多企業在實施商業智能和數據倉庫過程中的挑戰。我們經常聽到企業實施數據倉庫和商業智能項目的失敗率超過50%甚至70%。就像JeffSmith(IBM的首席信息官所說)“數據倉庫和商業智能系統占據了CIO預算中的巨大的部分,并沒有產生對應的業務價值”是什么導致數據倉庫和商業智能解決方案不適用于現在的情況了呢?我們可以從行業經典的數據挖掘的方法論(CISP-DM)開始探討。
CRISP-DM是一種廣泛采用的數據挖掘分析方法論,由SPSS、Teradata等公司起草于1999年發布第一版。該方法將一個數據分析項目分為業務理解(Business Understanding)、數據理解(DataUnderstanding)、數據準備(Data Preparation)、建模(Modeling)、驗證(Evaluation)、部署(Deployment)等6個階段(如下圖所示)的迭代過程。
對多數數據分析工作來說,人們并不希望上述反復交替的過程,因為反復交替意味著工作的重復和低效。而這種現象出現在公認的標準中,是因為分析過程存在極大的不確定性,這樣的反復往往是不可避免的。
長期以來,很多人用 CRISP-DM 指導工業大數據分析的過程。在很多場景下,這個模型的原理是可行的、行之有效的,但是當我們把它用于工業過程數據分析時,卻發現問題的復雜度會急劇上升,各個步驟中反復的次數大大增加,驗證評估不合格導致從頭再來的情況非常普遍。這些現象,導致工業大數據分析工作的效率顯著下降。
CRISP-DM 模型在工業領域的應用遇到一些問題,造成了該模型落地困難,主要的難點表現在以下三個方面:
1)工業數據關聯關系復雜
無論是生產產品的工廠還是作為工業產品的設備,本質上都是多個要素互相作用所組成的系統,而它們的運行環境,也可以看成更大的系統。所以,我們可以用系統的觀點,統一地看待工業大數據所針對的工業對象。
研究一個工業系統,要把注意力集中在多個要素互相影響、互相作用,否則只會得到片面甚至錯誤的結論。正如列寧所言:“如果不是從整體上、不是從聯系中掌握事實;如果事實是零碎和隨意挑出來的,那它們就只能是一種兒戲,或者連兒戲也不如。”
2) 工業數據質量差
從某種意義上說,工業大數據是工業系統在數字空間的映像。要想通過數據認識工業對象或過程,數據本身應該體現對象的系統性。然而受到現實條件的約束,數據往往是工業對象不完整的體現。而且很多數據來源于某些特定的工作點上,參數波動中包含大量檢測誤差、數據的信噪比低。這就給數據分析過程帶來了極大的不確定性、并容易對分析過程產生誤導。
3) 工業場景的分析要求高
工業界對不確定性的容忍度很低,這就要求數據分析結果盡可能地準確可靠。分析要求高而數據條件差、對象復雜性高是分析過程中必須面對的矛盾。在數據分析的過程中,這一矛盾表現為容易出現各種假象和干擾、分析結果總是難以滿足用戶的使用需求等。要解決這些矛盾,必須將工業過程的領域專業知識、業務機理與數據分析過程有機地融合起來,貫穿于數據分析的每一個階段,這也使得工業大數據對業務理解的深度有較高的要求。
CRISP-DM 方法基本適合工業大數據分析,但必須補充進新的內涵才能讓方法有效、讓工業大數據分析成為有效的經濟活動。如前所述,工業大數據分析過程的效率低下,很可能是大量無效的循環往復導致的。所以,工業大數據分析方法的關鍵,是如何減少不必要的反復、提高數據分析的效率。
在工業大數據分析過程中用好 CRISP-DM,關鍵是減少上下步驟之間的反復、避免單向箭頭變成雙向,還尤其是要盡量減少模型驗證失敗后重新進入業務理解這樣大的反復。
減少無效反復的重要辦法是采用工程上常見的“以終為始”的思維方式。在進行深入研究之前,要進行一個相對全面的調研,從如何 應用、如何部署開始,反推需要進行的研究。
“反復”是探索過程的特點以及知識和信息不足導致的。數據分析是一個探索知識的過程,不可能徹底消除這種現象。所以,我們需要追求的,是減少不必要的探索。其中,“不必要的探索”一般是由于數據分析人員沒有充分掌握已有的領域知識和相關信息導致的。所以,要減少不必要的探索,關鍵是數據分析知識和領域知識、相關信息的有機結合。
實際分析工作中又不能假設或者要求數據分析人員事先對這些知識和信息有著充分的理解。所以,要解決這個問題,關鍵是設法讓分析師在分析的過程中,更加主動、有針對性地補充相關知識,即所謂“人在環上”。
最后,要努力提高數據分析的自動化程度,充分利用計算機的計算和存儲能力、減少人為的介入。由于人的介入能夠使得分析效率大大降低,減少人的介入,也就能大大提高工作的效率。
CRISP-DM 模型在工業大數據的中的應用推進,主要分以下幾個階段:
1) 業務理解階段:該階段的目標是明確業務需求和數據分析的目標,將模糊的用戶需求轉化成明確的分析問題,必須清晰到計劃采取什么手段、解決什么問題,要將每一個分析問題,細化成明確的數學問題,同時基于業務理解制定分析項目的評估方案。
2) 數據理解階段:該階段是目標建立數據和業務的關聯關系,從數據的角度去深度的解讀業務。包括發現數據的內部屬性,或是探測引起興趣的子集去形成隱含信息的假設;識別數據的質量問題;對數據進行可視化探索等。
3) 數據準備階段:該階段的目標是為數據的建模分析提供干凈、有效的輸入數據源。首先基于業務目標篩選有效數據,篩選的數據能夠表征業務問題的關鍵影響因素;其次對數據的質量進行檢查和處理,處理數據的缺失情況、異常情況等;最后對數據進行歸約、集成變換等,輸出建模可用的數據源。
4) 數據建模階段:該階段是基于業務和數據的理解,選擇合適的算法和建模工具,對數據中的規律進行固化、提取,最后輸出數據分析模型。首先基于業務經驗、數據建模經驗、對業務問題進行邏輯化描述,探索解決問題的算法,反復迭代選擇一個最優算法方案;其次基于輸入數據來加工關鍵的因子的特征變量,作為建模輸入變量,建立有效可靠的數據模型。
5) 模型的驗證和評估階段:首先從業務的角度評估模型的精度問題,是否能夠滿足現有業務的要求;其次分析模型的中影響因子的完備性,為模型的下一步迭代指明優化路徑;最后考察模型的假設條件,是否滿足實際落地的條件,為模型的部署進行可行性驗證。
6) 模型的部署階段:在該階段中,首先要基于分析目標,制定模型的使用方案和部署方案,并提前為模型的部署做好環境的準備工作;其次為模型部署過程中出現的質量問題、運行問題、精度問題等,提前做好預備方案;
最后基于模型試運行后的結果,制定模型的持續優化方案。
寄語
隨著國家政策激勵以及工業大數據應用模式的逐步成熟,工業大數據進入快速發展時期,未來中國工業大數據市場將持續快速增長。
工業大數據技術產品創新正逐漸從技術驅動轉向應用驅動,廣闊的市場空間和大量的應用需求為工業大數據發展提供了強大的驅動力。
工業大數據將成為推動制造業創新發展的重要基礎,為中國的工業升級和轉型注入強大動力。企業在新技術條件下,實現貫穿于產品設計、生產、管理、倉儲、物流、服務等全部流程和環節的大數據采集、存儲、管理和分析,從大數據中挖掘出其中的隱含價值,達到提升生產效率、提高產品質量、增強管理能力、降低生產成本等目的,提升了企業生產力、競爭力和創新力。
伴隨著工業大數據分析技術的逐漸成熟、產業領域的逐漸成型、應用場景的不斷延伸、觀念意識的不斷深化,工業大數據必將迎來高速發展的歷史階段。我們抓住發展機遇,努力推動中國工業大數據的發展,針對企業的個性需求,結合中國工業發展的自身特點,走出中國特色的工業大數據創新路線。