全文共7065字,預計學習時長22分鐘
圖源:unsplash
你是否想過亞馬遜、甚至Netflix是如何做到不停地為用戶推薦產品的?與大眾認為的截然不同,它們不適用于Skynet,隨時遇到故障是不太可能的。
相反,它們依賴于最受歡迎的人工智能技術之一——機器學習。隨著技術進步,人們對機器學習和數據分析的需求一直居高不下。幾乎沒有哪個行業在交易中不涉及機器學習,機器學習算法應用范圍極其廣泛。
從使計算機與人類交流成為可能,到撰寫和發表體育報告,機器學習可以做很多事情。
先下面看看這些年來它的發展歷程。
· 1950: 艾倫·圖靈提出了“圖靈測試”,以判斷計算機能否真正比人類“智高一籌”。
· 1952: 亞瑟·塞繆爾用一臺IBM 計算機研究和發展棋盤游戲,發明了首個計算機學習程序。
· 2006:杰弗里·辛頓詮釋了讓計算機在圖像和視頻中“查看”和區分對象和文本的新算法,“深度學習”這一術語也應運而生。
· 2012: 通過瀏覽油管識別其中有貓的視頻,Google’s X Lab 成為最大的貓咪追蹤器。
· 2015年及之后: 隨著人工智能技術日益發達,其數據可在公開網站上獲得,斯蒂芬·霍金、埃隆·馬斯克、史蒂夫·沃茲尼亞克、馬克·扎克伯格等人對正直和信任在社會影響層面的真正意義上進行爭論。
在人工智能時代,我們有機器人、自動駕駛汽車、可以進行口頭交流的自動撥號電話、管控我們房屋的智能IoT(物聯網)服務,以及在做飯時突然問我們問題的Alexa智能助理。
一天,13歲的妹妹問我:“為什么我還需要駕駛證?這既浪費時間也浪費錢。等到我能夠駕駛的時候,汽車已經能夠自動駕駛了。”我意識到她說的可能沒錯,同時也有些向往汽車能實現自動駕駛的生活,那時我將永遠不會浪費時間或者錢來學習駕駛。
現在,當我們試圖將數據應用于可消費和可生產的產品中時,數據成為了前所未有的新“石油工業”和“淘金熱”。這也確實是機器學習發揮作用的地方。
機器學習有機會改善許多行業!
《福布斯》表明,到2020年,機器學習有可能在市場營銷和銷售中創造額外的2.6萬億美元,這還不包括制造業的2萬億美元。
如果這還不足以震驚你,這兒還有不斷發展的市場和數據量。公司一直在尋找成本更低且功能更強大的計算處理方式,更不用說具有成本效益的數據存儲了。
通過分析數據和構建精確的模型,企業若不能將其增長翻三番,也至少可以翻倍。機器學習具有強大的能力,可以幫助組織識別有利可圖的機會并避免風險。
微軟需求優化主管Anirban Sengupta談到了機器學習的重要性:
“隨著我在亞馬遜職業生涯的發展(所面臨的問題),與傳統的統計和計量經濟學建模法相比,機器學習是更為明顯的解決方法。例如,使用參數統計模型很難實時檢測欺詐行為。其功能數量繁多,并且它們之間存在相互作用。
圖源:unsplash
同樣,在這些情況下,預測準確性/精確性/召回率比模型可解釋性更重要,這使得機器學習成為更為明智的選擇。
機器學習將會發展下去。同樣,數據投資正在增長且將繼續增長下去。對于數據和數據基礎架構投資的目標是挖掘這些數據,從中獲取可操作性見解,以推動業務價值。對于能夠真正進行如此復雜的數據分析和大規模模型構建的人才的需求也將只增不減。”
機器學習如何影響多個行業
醫療保健
圖源:Indiatoday
實際上,機器學習的使用已成為醫療保健領域的一種增長趨勢,并帶來了一些極具吸引力的應用。
位于美國馬薩諸塞州的PathAI借助機器學習,提出了一項新技術,這將幫助病理學家更快地進行診斷。
別小瞧它,它可以解決醫院人滿為患的情況,并使患者更快地接受治療。尤其是患有癌癥等疾病的患者,早期診斷能夠使結果大有不同。
金融業
隨著我們逐漸轉向在線交易方式,金融行業的銀行和其他企業對機器學習可以提供的實時數據分析的需求也越來越大網絡監控和欺詐預防應用程序可以為投資者提供安全保障,使他們能夠輕松地進行交易。
IdentityMind Global是一家人工智能公司,可幫助金融機構和企業打擊在線欺詐行為。該公司已建立50多個數據點,可幫助驗證人的身份。此外,他們還提供打擊洗錢和反恐融資的服務。
圖源:ft
能源部門
多年來,環保主義者一直在要求更清潔的能源。更不用說,每當我們轉身時,都會出現另一場天然氣危機。
石油和天然氣是機器學習擁有無限可能的另一個領域。從創建更高效的精煉廠到分析礦物,機器學習可以被應用于其中的無數領域。
美國能源業界著名咨詢公司提供的天然氣和石油數據可通過開發基于多元模型的資源來改善鉆井作業
它們不僅可以為公司提供精確的地質和地球物理數據,而且還可以減少公司在石油業務中所需要的財力和人力資源。
人才需求持續增加!許多工程師患上錯失恐懼癥(F-O-M-O)
正如我剛開始所說,機器學習不會很快過時。事實是,許多求職網站上與機器學習相關的職位發布數量躍升了90%。
但困難之處在于,整整兩個月后,至少有40%的職位依然空缺。由此得知,盡管對機器學習工程師的需求很大,但人才供應是問題所在。
工程師對通用化與專業化存在爭論。但需要知道的是,我們采訪的大多數行業領導者都希望他們的候選人具有廣泛的經驗,而不僅僅具備專業領域知識。
大多數經理、董事和CTO都非常明確地表明,他們希望員工能主動將機器學習經驗應用到各種項目中,而不必局限于個人擅長的領域。
如果你專門研究對象識別和計算機視覺,請不要拒絕NLP(自然語言處理)項目,因為它僅與前者略有不同。大多數機器學習領導者都認為經典技術在不同項目中都可使用。
公司可能希望其員工偶爾轉換一次職位,但并非總是如此。不過,如果能在自己擅長的領域以外獲得一些經驗,是不會有損失的。
專業化的一些熱門領域包括推薦系統(由Facebook等技術巨頭使用)、計算機和機器視覺(由Snap、Inc.團隊使用)和自然語言處理(蘋果的Siri)。
請聽聽醫療技術公司Change Healthcare 的AI主管Alex Ermolaev所說:“…我認為這有助于一次專注于一個領域,但是每隔幾年在不同領域之間切換仍然會帶來一些樂趣。一次只專注于一個領域是件好事,因為要花些時間才能精通它,掌握工具使用方法并學習細微差別……”
公司正在尋找在擅長領域表現出色且勇于迎接新挑戰的候選人。接受新的挑戰并了解公司中的不同領域,這將使你能夠跨領域開展不同的項目。最終,你將對多個項目有更多的見解,并了解核心用戶和客戶。
因此,如果決定踏入機器學習行業,那無疑是朝著正確方向邁出的一步。這是一個快速發展的領域,擁有著不斷發展的應用程序。實際上,Google趨勢報告表明,機器學習即將在搜索結果領域中取代AI。
不要糾結于陷入過多細節。這確實是一個競爭激烈的市場,每個人都想采取行動,但最終,取決于工作的水準。
將精力集中于獲取跨領域的經驗,你就能主動學習自我交流。磨練頭腦,理性看待整個世界,并提出創新的解決方案,這將使你、你的雇主乃至整個社會受益。
如何成為一名機器學習工程師
看看好萊塢流行的參考詞如“Hal”,也難怪人們對機器學習可以提供的可能性有些擔憂。值得慶幸的是,當今世界上機器學習的現實與一臺具有自尊心問題的殺手式感知計算機差得很遠。
機器學習可以極大地改變我們的生活,以至于有些人甚至將其比作工業革命。說到工業革命,你是否知道機器學習使外包焊接等危險工作變得更加容易。工業級焊接中產生的熱量、噪音和有毒煙霧,這對工人是巨大的風險。
但是,配備了計算機視覺和深度學習功能的機器人焊機具有更強的靈活性來完成工作,且不會危及生命。
圖源:sproutsocial
而且這只是機器學習對我們的生活方式產生的積極影響之一。無論是中小型企業還是大型企業,都表現出將向數字化轉型納入其關鍵計劃的意愿。
作為技術招聘人員,我最近有機會采訪了機器學習行業的領導者,了解他們對求職者能力的要求。后來我想要知道的是他們加入該領域的動機。是對創新的熱愛,還是他們想成為可能改變數百萬人生活方式的一份子?
下面是Geocaching數據科學與數據分析負責人LeeSherry關于他為何投身機器學習領域的原因。
“對我來說,沒有什么比沉浸于數據和了解新事物的感覺更好了。這要與數字背后的現實聯系起來。我喜歡通過數據研究世界,并將復雜的信息提煉成最簡單的事實而獲得的理解。數據可以是變革性的;它可以被用來克服我們已經學會過,去盡可能簡單處理的障礙。”
對我來說,這就是為何許多人發現自己被機器學習吸引的本質。并沒有多少人有能力擺脫混亂,但這就是職位描述中包含的內容。
我知道我們都聽過這個笑話,“數據已經足夠長了,它會告訴你任何事情”,但信任統計數據而不是“直覺”的企業往往會表現更好,這是有緣由的。
像國際數據公司(IDC)這樣的公司預測AI支出到2021年將超過500億美元,這也是有原因的。機器學習已經成為預測未來的方式。
沒有任何時代能像現在這樣使人們參與其中了。而且,我知道許多人都有興趣進入機器學習行業,只是他們不是很確定該怎么做。
本文為此可以提供幫助。從所需的教育到面試中的常見錯誤,我們將揭秘成為ML工程師所需要了解的知識。
碩士學位還是博士學位——哪個更重要?
對ML感興趣的每個人總是會問一個問題——碩士學位還是博士學位?讓我們從這個問題開始。
圖源:unsplash
機器學習工程師學歷的不確定性是真實存在的。人們通常想知道碩士學位是否足以使他們找到合適的工作,還是需要獲得博士學位作為儲備。
理學碩士可以幫助你在許多實際情況下積極貢獻。ML的大多數碩士課程都有一種通用的方法,可以幫助學生準備計算機視覺編程、軟件設計、語音識別、自然語言處理等主題。該學位課程的重點是提高學生的分析技巧和統計、數學和編程能力。
此時,你可能正在思考,一名理學碩士涉獵已如此廣泛,那博士學位能帶來什么呢?
盡管博士學位有時會受到抨擊,但他們可以在職業生涯中發揮決定性作用。通常,培養博士生不采取通用的方法,它們可以成為基于研究的職業起點。
擁有博士學位,可以推動ML的前沿發展,并專注于開發下一代算法。或者可以將機器學習應用于社會上重要的問題并提出可行的解決方案。
對于AI社區的許多領導者來說,機器學習巨大的一個好處就是能夠參與研究和出版,并幫助開源社區開發將要發展到下一代的模型。如果你正在攻讀博士學位,畢業前需要先參與到多個出版工作中。對于專注于研發的企業,這是一個非常大的優勢。
與我交談過的不少行業領導者并不要求候選人擁有碩士學位或博士學位。但是,Softmax Data的執行合伙人Jia Chen非常清楚他為什么傾向團隊中的人員有較強的學術背景。
他發現具有較強學術背景的人能更好地處理論文和進行研究,豐富的數學經驗可以幫助他們實現ML所需的突破。
在ML中,數學直覺和研究技能的重要性不可忽視。像博士學位這樣的資格證書是獲得此類經驗并深入掌握算法內部工作原理的絕佳方法。
訓練數據
機器學習是一個不斷發展的領域,因此,必備的基本技能涉獵廣泛。盡管如此,具有豐富經驗的扎實學術背景仍可作為加分項。機器學習的主要技能是統計、概率、編程和數據建模。
這也正是Softmax Data的執行合伙人Jia Chen的想法。當被問及機器學習工程師應具備哪些技能時,陳先生說:“…數據工程、軟件開發、數學技能和溝通技能。”
要了解ML中數據建模的重要性,可以看看Geocaching數據科學與數據分析主管Lee Sherry的看法:
“…盡管編程經驗很有用,但我認為建模非常重要:機器學習工程師應該知道如何有效地解決問題。這意味著識別一種情況的主要特征,弄清楚如何構建一個能夠產生所需答案的問題,確定何種近似方法有意義,并知道適用于當前問題的算法和方法。”
這只是冰山一角。數字、日期和字符串等結構化數據可以輕松地被存儲為行和列。而視頻、圖像和電子郵件等非結構化數據卻無法輕松指定。
但是,非結構化數據是數據建模的基礎。根據Gartner的數據,它構成了80%的企業數據。在機器學習算法中使用非結構化數據可提供至關重要的見解。它在業務運營策略中具有極大的可適用性。
它可以提高準確性,促進新的思維方式和信息使用方式。
最后,還必須全面了解監督學習和無監督學習。這是兩種最流行的機器學習方法。讓我們從有監督的學習開始。它是可以使用輸入和輸出變量的系統,通常你會使用一種算法從數據中確定映射函數。
目標是提出一種精確的映射函數,以便算法在進行新的輸入時可以預測結果。
如果技術術語有些沉重,可以這樣想——監督學習非常有價值,其中數據在預測未來事件中起著至關重要的作用。金融機構如何利用監督學習來預測可能具有欺詐性的信用卡交易便是一個很好的實例。
另一方面,無監督學習的功能更像是訓練集。系統獲得輸入數據,但沒有可比較的輸出值,目的是探索數據并發現結果。
在市場營銷等領域,無監督學習非常有用,它可以幫助識別客戶行為模式。然后,企業可以使用這些模式來建立營銷策略,其準確性幾乎令人瞠目(如Facebook)。
基本編程技能和經驗
朋友可能會告訴你,你所需要的只是一些必要的編程技能,便可以成為一名合格的ML工程師。但是,即使學習基礎知識可以幫助您適應ML特定的編程技能,成為一名工程師也可能需要豐富的編程經歷。
圖源:unsplash
Change Healthcare的AI主管AlexErmolaev建議ML工程師需要具有構建高性能/可擴展產品的經驗、數據管理技能以及構建AI / ML模型或工具的經驗。
全球最流行的編程語言是Python、JavaScript和C ++等。通常,Python是首選的數據分析工具,而C ++是深度學習和計算機視覺的必備工具。選擇使用的編程語言在一定程度上會影響你的體驗。
收集有關語言語法、分析庫和合適的集成開發環境(IDE)的信息也將有所幫助。您還需要關注諸如部署和擴展模型之類的內容。
可能還需要部署和擴展模型方面的經驗。部署是機器學習生命周期中最重要的部分之一,它與擴展一起有助于簡化大規模消耗的過程。
有些公司擁有軟件工程師團隊來處理此類細節,但有些公司則沒有。這是為什么最好在面試日期之前解決這些細節。對于那些對編碼實踐感興趣的人,可以查看我的文章——“我沒有通過該死的編碼面試”。
盡管如此,無論特定工作是否需要編碼,大多數ML領導者都希望潛在應聘者了解將模型交付給工程師所涉及的內容。能夠根據數據量、運行時間和復雜性等因素對模型是否值得生產進行現實評估是非常重要的。
ML中的建模
ML中的術語“模型”是指來自訓練過程中的產品或人工制品。
圖源:unsplash
建模是一組數學參數和表達式,它們以給定數據集的不同元素的類和動作的形式,與輸入和輸出鏈接在一起。建模的任務是處理數據的回歸、分類和增強。
或簡單來說,建模需要大量的數學運算。通常不是在學校教授的那類。這既是ML工程師的數學造詣非常重要的原因,也是為何博士學位這樣的資格證書可以帶來優勢的原因。
在機器學習中使用“學習”的人并不是在開玩笑,因為你需要熟悉幾種學習類型(甚至是子領域)。盡管我十分樂意在這里談論它們,但我打算在機器真正發揮作用之前結束這篇文章。
錯誤的面試和應避免的錯誤
面試中應該避免的三大錯誤是什么?
微軟需求優化負責人AnirbanSengupta表示,潛在候選人的三大致命錯誤,就是用復雜術語使面試官加深印象,把重點放在工作量而不是質量上,并且無法描述過去的項目。
還有其他錯誤——面試者慌慌張張,沒有花時間正確地回答問題。恕我直言,如果你不是萬事通,也沒關系,只要精通某些領域即可。始終注重質量。如果不了解某一事物,請直接承認,并表現學習的熱情。
圖源:unsplash
在整個過程中向潛在的雇主證明,只要你想,就可以學習到新知識。在與一些機器學習領導者的對話中,我發現機器學習工程師有一種趨勢,表現出他們快速學習新事物的能力,能夠顯示出學習的高度
此外,不要機械式地回答問題。例如,如果你不確定面試官想要什么,不要回避提出關于自己的問題。對知道或不知道的事物保持樂觀態度。面試官想體驗的是與你共事一天的感覺。如果在面試中缺乏協作或澄清問題的能力,那么他們自然會假設你在工作時也會避免澄清問題。
面試官通常喜歡判斷你的分析能力以及處理問題的方式。他們想評估你的思考過程。這就是為什么面試時應保持誠實和一絲不茍的原因。夸大簡歷是大禁忌,千萬不要這樣做。如果你撒謊,很快會被察覺出來。一旦面試官深入探討你不完全理解的主題,發表自己的想法時便會露餡。
成功候選人表現的共同特征
成功的人總有一些共同點,以下是大多數成功候選人擁有的特質。
圖源:unsplash
具有協作精神。機器學習不是單人游戲。它更像是一項團隊運動。當你開啟ML工程師職業生涯時,可能會與技術人員和非技術人員一起工作。你應該具有出色的溝通能力和領導才能,從而與團隊共事并領導團隊。
要有自知之明。能夠從錯誤中吸取經驗尤為重要。為犯錯而狡辯則不會走得太遠。這只是一種告訴全世界你無法接受失敗的方式。
最后一點也很重要,保持謙虛,并對自己的工作充滿熱情,因為這是你將能夠積極貢獻的方式。送給你Xyonix創始人Deep Dhillon的一句名言:“人才難遇。現在,他們的勞動報酬過高卻且未發揮充分作用。”
Facebook、Google和Amazon正在招聘所有頂尖人才。去這些公司的博士畢業生正在努力改善市場營銷活動、廣告收入和點擊率,以便他們可以像在Xyonix一樣從事其他項目。我們永遠專注于AI。其中一些項目包括:
· 醫院單位患者人口普查預測指標
· 基于智能手機和音頻的異常心跳檢測器
· 體內手術的自動視頻注釋和分段引擎
· 搖滾明星聽眾自然語言文本對話解析器和輕生意念檢測器
· 用于情緒分析和自動化觀點提取的 醫學手術文本審查解析器
如果想在大型公司工作,使用大型數據集,這也不錯。他們的某些項目不只是營銷和銷售。
圖源:unsplash
關鍵是確定你真的對此充滿熱情嗎?機器學習工程師和數據科學家的需求量很大。無論在哪里工作和從事什么都無所謂。你都將獲得豐厚的報酬。其區別只在于影響世界的方式以及在日常生活中技術的用途。
如轉載,請后臺留言,遵守轉載規范