精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
大數據治理:支撐新一代AI應用落地的基石

2016 年,谷歌 AlphaGo 機器人在圍棋比賽中擊敗了世界冠軍李世石,引爆了人工智能,開啟人工智能的新紀元。2017年,國務院發(fā)布實施了《新一代人工智能發(fā)展規(guī)劃》,對中國面向2030年的人工智能產業(yè)進行了整體規(guī)劃與部署。一時間,人工智能AI成為炙手可熱的風口,幾乎所有的IT互聯(lián)網企業(yè),以及那些還在推動互聯(lián)網+、數字化轉型的傳統(tǒng)企業(yè),也試圖尋求借助人工智能實現自身的轉型升級。

但如同這些年來,大數據先是被神化,然后又被妖魔化的技術概念炒作路線一樣,本輪AI熱潮也必然會經歷從過度神化走向落地的過程。在狂熱之余,也有必要分析本輪AI熱潮的實質:本輪火熱的人工智能在算法或模型方面并無革命性的重大突破。深度學習早在上世紀八十年代就已經出現。近年來人工智能的突然爆發(fā),主要有兩個關鍵因素:一是大數據,為深度學習算法提供海量的訓練數據作支撐;二是高性能計算,尤其是通用計算GPU給予了神經網絡和深度學習強大的計算力支持,使得以前無法完成的計算或者無法在短時間內完成的計算成為了可能。

正因為有了兩個關鍵因素作支撐,使得本輪人工智能呈現與以往不同的特征:在特定領域,學習的主體真正由人變成了機器,人工智能正式進入了2.0時代。這也是試圖尋求借助人工智能實現自身轉型升級的傳統(tǒng)企業(yè),最為關注的焦點:即如何借助人工智能技術,通過機器自主學習從海量的文本、視頻、圖像等大數據中每天24小時、永不停息地探尋規(guī)則、模式、預測、趨勢、關聯(lián)關系等隱性知識,實現知識創(chuàng)新服務與決策支持,釋放“智能紅利”,而使公司獲得更早的發(fā)展先機和更強的競爭力。因此,本文的關注重點并非研究某項具體的人工智能技術,而是探討如何在傳統(tǒng)企業(yè)內部建立從大數據到知識的一套工作機制或方法,即行業(yè)數據+AI元素,促成AI技術在行業(yè)知識轉化過程中更好的發(fā)揮創(chuàng)新引領作用。

1. 從大數據到知識的轉化過程

本文提出通過大數據治理工作,在企業(yè)內部建立起一套支撐大數據深化應用、AI2.0(即機器自主學習)常態(tài)化運轉,涵蓋大數據、組織架構、技術平臺等在內的創(chuàng)新工作機制,將隱性知識的轉化主體逐漸由人向機器轉變。如下圖所示。

企業(yè)大數據包括社交媒體數據、機器對機器數據、大體量交易數據、生物計量學數據和人工生成數據,分為文本、視頻、圖像、語音等承載形態(tài)。大數據到知識的轉化可以分為兩個階段:

在大數據深化應用階段,企業(yè)主要由數據科學家、數據分析師等大數據專業(yè)人員運用機器學習、探索分析、實時數據服務等大數據深化應用技術,從大數據中提取出規(guī)則、趨勢、關聯(lián)關系等各類知識,基于相關的應用方向結合實際需求,構建應用場景,從而產生業(yè)務價值;這個階段的主要特征是以人為學習主體,大數據專業(yè)人員全程掌控,基于自身經驗去獲取所需的各類數據、選擇合適的算法、技術、工具平臺去發(fā)掘隱含在大數據中的隱性知識,完全離不開“人”。

在新一代人工智能應用階段,由數據科學家、數據分析師等大數據專業(yè)人員利用各種深度學習算法,放棄對結果的可解釋性、不限定問題假設、不訓練樣本、也不人工標記數據集,只追求學習的有效性,僅結合人類的先驗常識、隱性直覺等知識為引導,基于海量大數據,整體圍繞“以機器為學習主體”這一目標,建立注意力模型、記憶網絡、遷移學習、強化學習、半監(jiān)督/無監(jiān)督學習等算法模型,實現從淺層計算到深度神經推理,“永不停息”自主驅動學習,去發(fā)掘隱含在大數據中的隱性知識,最終使機器自身具備數據收集、整理、分析的能力,并自主對算法進行調整和優(yōu)化,自主將大數據轉變?yōu)橹R,實現高階人工智能,更好地支撐知識創(chuàng)新服務與各級決策。

2. 大數據治理

為了更好地支撐大數據到知識轉化過程,應將傳統(tǒng)數據治理升級到大數據治理,如同大數據是數據一樣,大數據治理本質上也是數據治理,數據治理方法論同樣也適用于大數據治理,但是考慮到大數據的特性,需要作出適當的調整,本文重點闡述大數據治理與傳統(tǒng)數據治理差異性較大的內容,以及大數據治理對于深化大數據應用、支撐新一代人工智能落地的基石作用。

通過大數據治理,將推動“以人為學習主體”的大數據深化應用階段逐步向“以機器為學習主體”的新一代人工智能應用階段轉變,推進治理的數據類型由傳統(tǒng)的、占比不到15%的結構化數據向原生態(tài)格式、多結構、占比超過85%的非結構化數據轉變;推進治理的數據范圍由專注企業(yè)內部數據向行業(yè)上下游、跨行業(yè)、社會輿情等數據轉變;推進數據治理工作目標由體現間接價值向直接推動價值創(chuàng)造轉變。

2.1 大數據治理組織

在現有數據治理組織架構中增加大數據治理相關的職責和角色:將數據科學家、AI算法專家等大數據專家納入到決策層——數據治理委員會(或知識創(chuàng)新領導小組,名字不限于此),大數據專家從驅動數據到知識的轉化視角、知識指導實踐的洞察視角,輔助作出各種決策,有助于從組織高階層面為驅動大數據轉化知識爭取更多資源。按大數據類型分設大數據主管[1],負責本類型大數據的收集(不限本公司)、內部提供、外部交換及質量、安全等管理工作。數據主管向業(yè)務部門匯報,憑借其專業(yè)性,負責提升數據資產的可信度和隱私性,同時確保開展大數據深化應用、深化學習時,各項保障工作能支撐到位。

2.2 大數據質量管理

大數據質量管理相比傳統(tǒng)數據質量管理更加復雜,主要表現在數據來源復雜且多樣性、組織內外數據含義存在差異性、外部數據難以有效控制質量且錯誤數據無法溯源等等。同時,機器學習、深度學習算法對數據質量要求極高,否則可能會導致機器無法自主學習、或產生錯誤知識,影響決策,造成資源浪費。大數據質量評估維度需要重新定義。目前在大數據質量的可度量性方面以麻省理工學院Richard Y.Wang等提出的數據質量度量維度為典型代表,將大數據質量維度分為四大類、19個維度[2],如下表所示:

2.3 大數據架構管理

當前,各大型企業(yè)都已啟動或即將完成大數據平臺建設,基本上都規(guī)劃了本企業(yè)的大數據架構,在此不再重復。在本處強調三點:

一是需要建立面向多源異構數據、尤其是非結構化數據的自動采集機制,數據來源可能是合作企業(yè),也有可能是熱點網站,需針對不同類型數據定制化開發(fā)不同的采集程序,如包裝器、抽取程序等;

二是文本、圖像、視頻等非結構化數據,必須與人員、組織、產品等主數據進行關聯(lián),從而通過索引、分析等技術,挖掘非結構化數據的潛在價值;

三是大數據架構應逐漸向“以機器為學習主體”的目標架構階段性演進。與傳統(tǒng)的數據倉庫建設方法類似,前期可根據應用需求,選擇知識圖譜、智能機器人等應用方向,基于特定領域設計應用場景,逐步建立起針對內外部數據自動采集、整合、分析以及自動學習優(yōu)化算法的能力,通過場景驅動逐漸推動大數據應用架構向大數據智能化架構演進。

2.4 大數據生命周期管理

大數據生命周期管理與傳統(tǒng)數據生命周期管理在流程上比較相似,但大數據環(huán)境下的數據清理,與傳統(tǒng)數據清理區(qū)別較大。對于傳統(tǒng)數據而言,數據質量是一個很重要的特性,但對于大數據,數據可用性則更為重要,傳統(tǒng)意義上的垃圾數據,也有可能變廢為寶。對于不同的可用性數據,應建立不同的數據質量標準,如應用于財務統(tǒng)計的數據和應用于分析的數據,在質量標準上有所不同,有的需求注重數據全面性但對質量要求不是特別高;有些需求,如審計與風險,則嚴格關注垃圾數據并從中發(fā)現問題。因此,大數據應用中不建議直接清理垃圾數據,可通過數據質量分級,不同質量等級的數據滿足不同層次的應用需求。

2.5 大數據服務創(chuàng)新

大數據治理與數據治理最大的區(qū)別在于兩者的關注點不同,數據治理主要是為了保證數據能夠反映并還原真實業(yè)務,促進數據與業(yè)務的一致性,使企業(yè)能基于真實的數據環(huán)境更好的開展各項業(yè)務活動,產生間接價值。但大數據治理更多關注發(fā)揮大數據的應用價值,通過大數據深化應用、深度學習算法模型去發(fā)掘隱藏在海量大數據中的規(guī)則、模式、關系等知識,從而指導業(yè)務部門開展領先于市場競爭對手的高價值、低風險的業(yè)務活動;通過支撐新產業(yè)和新業(yè)態(tài)的跨界深度融合,甚至為企業(yè)開辟全新的市場空白地帶,促進公司業(yè)務的全面創(chuàng)新與高速發(fā)展。

3.總結

本文從大數據視角將新一代人工智能定位為相對于大數據深化應用更高階段的知識提取過程,并指出了兩者的明確區(qū)別:以人為學習主體的大數據深化應用階段和以機器為學習主體的新一代人工智能應用階段;兩者的共同之處都是從大數據到知識轉化過程。在大數據轉化為知識的過程中,以應用場景為驅動,通過大數據治理各項業(yè)務活動,促進大數據、人工智能技術的深度融合,釋放“智能紅利”,推動新一代人工智能應用逐漸落地。

引用:

[1]桑尼爾.索雷斯. 大數據治理[M]. 匡斌譯. 北京:清華大學出版社,2014.

[2]張紹華,潘蓉,宗宇偉. 大數據治理與服務. 上海科學技術出版社,2016.

【作者簡介】

楊科學,御數坊高級咨詢顧問,2006年碩士畢業(yè)于中南大學計算機專業(yè),獲得數據管理專業(yè)認證(CDMP)、信息系統(tǒng)項目管理師認證,主要從事數據治理、數據標準、數據質量、數據模型設計等咨詢和設計工作。先后為金融、電力等行業(yè)的多家大型企業(yè)提供數據治理咨詢和企業(yè)數據模型設計服務工作。

會員專欄

會員專欄是針對會員企業(yè)的高質量原創(chuàng)內容與精彩觀點的分享欄目,為會員企業(yè)提供深度思考、創(chuàng)新理念、案例經驗、專業(yè)成就等內容分享的平臺,旨在擴大會員企業(yè)先進思想的影響,傳播AI大數據的正確理念,促進AI大數據落地應用,助力傳統(tǒng)產業(yè)智能化轉型升級。
會員專欄歡迎廣大會員企業(yè)積極參與、踴躍投稿,投稿請注意須為原創(chuàng)。

本站僅提供存儲服務,所有內容均由用戶發(fā)布,如發(fā)現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
兩張流程圖解釋什么是機器學習/人工智能
數據變現,背后的技術思路在改變?
AI知識圖譜:機器學習、深度學習、數據分析、數據挖掘「附腦圖」
周宏春:人工智能重塑未來社會
賽迪觀點:人工智能在工業(yè)互聯(lián)網平臺的四大應用場景
一覽群智胡健:大知識驅動的人工智能將在五到十年內到來
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服

主站蜘蛛池模板: 万年县| 南城县| 洛扎县| 板桥市| 林口县| 织金县| 乐亭县| 宜城市| 河南省| 岳池县| 清苑县| 勃利县| 合肥市| 大余县| 邛崃市| 新绛县| 包头市| 铁岭市| 诸暨市| 凤凰县| 石屏县| 巫山县| 湟中县| 资中县| 攀枝花市| 武宁县| 连平县| 潜江市| 临颍县| 随州市| 凤山市| 大厂| 登封市| 永和县| 宜宾县| 太和县| 富宁县| 顺昌县| 麻栗坡县| 龙门县| 山丹县|