【中國智能制造網 專訪�“數據分析師與數據科學家的區� 就像本科與博士做研究一樣:本科生是老師手把手教題目,而博士生是自己找題目�”
鄭宇:大數據時代缺的不是數據 而是開放的思維
作為人群聚集區,城市是一個天然的數據集中池�
社交媒體、交通流量、氣象、地理等多種大數據都在這里匯聚,物聯網、傳感器的發展,也讓這些數據得以被追蹤存儲。當這些時空數據集被組合起來,并與人工智能結合,這似乎是一條解決交通擁堵、環境惡化、能耗增加等城市問題的新的角度�
“我們都生活在城市中,城市跟我們的生活密切相關。我是做計算機科學的人,那為什么不能想辦法解決身邊的那些常見的問題呢?”在一次公開采訪中,鄭宇如此描述自己鐘情城市計算的一個原因�
近年來,城市計算(Urban Computing)逐漸走入公眾視野,并且越來越受到社會關注。這是是計算機科學以城市為背景,與城市規劃、交通、能源、環境、社會學和經濟等學科融合的新興領域。城市計算通過不斷獲取、整合和分析城市中不同領域的大數據來解決城市所面臨的挑戰�
�2013年,鄭宇因為在城市計算方面的杰出研究被《MIT科技評論評》評為全球杰出青年創新者�
雅虎創始人楊致遠、谷歌聯合創始人拉里•佩奇、Facebook創始人馬�•扎克伯格、Twitter聯合創始人杰�•多西以及蘋果設計師喬納森•艾維等多位互聯網明星都曾入選TR35。而鄭宇是當年入選者中僅有的兩位來自中國機構的創新者之一�
微軟研究院鄭宇帶領團隊主�“城市計算”以來,通過分析和融合城市中的各種大數據,實現了一系列關于智能交通、城市規劃、環境和能源的實際案例。相關技術不僅被應用于微軟的產品,并且還在多個城市服務于中國政府�
3�20日,微軟亞洲研究�“城市計算”領域負責人鄭宇博士近期在清華大數據講座上分享了題�“大數據驅動城市計�”的講座�
演講后,我們有幸針�“數據科學團隊建設問題”對鄭宇博士補充了相關采訪問題,針對這樣一個時空數據交雜的分析領域,鄭宇在組建數據團隊和數據人才培養方面有著自己的獨到見解,此外,針對技術和研究方向上,他也給出了基于自己經驗的看法�
以下為問答實�——
數據分析師與數據科學家的區�
就像本科與博士做研究一�
�
Q:數據分析師和數據科學家有什么區別?
鄭宇:很多公司的招聘廣告上面寫招聘數據科學家其實都不是招真正的數據科學家,而是數據分析師。數據分析師有明確的任務,明確的數據,結果也明確,他會用一些分析工具去跑一些報表,然后提交結果。而數據科學家要有能力自己找題目,首先要懂得行業問題,其次懂得數據背后的隱含信息,然后還要知道這個行業問題之后你要知道用什么數據如何解決這個問題。除此以外,還要對各種模型都很清楚,不光是機器學習,還有數據管理以及可視化,把很多模型要組合在一起。后要對云計算平臺有一定的了解,要學會怎么用,甚至要學會怎么改它,一個好的數據科學家是站在云平臺上面看問題、想數據、關聯模型,把這些模型有機組合起來部署到云平臺上面,產生鮮活的知識,解決行業問題,這個才是大數據。其中的區別就像本科與博士做研究一樣,本科生是老師手把手教題目,博士生是自己找題目�
我通過兩個例子講述一下什么叫數據科學家,什么叫數據分析師:
先舉一個數據分析師的例子:銀行向用戶發信用卡,用戶提交的表格上有他的年齡、職業、收入等信息,需要分析師判斷是否給這個用戶發信用卡。這是一個YES or NO的問題,分析師要做的是拿個人的信用記錄去訓練一個分類模型。任務明確,數據明確,決定也很明確�
再說一個政府向數據科學家提出的需求:“徐匯區有一條路灰很多,怎么用大數據去處理?”�“北京市建副中心到通州以后對北京整個的經濟、環境、交通有什么影響?”這個問題不是因果問題,不是預測問題,也不是關聯問題,需要你去想找什么樣的數據,怎么展現怎么實施。沒有具體問題也沒有具體數據,這就是數據科學家應該解決的問題�
Q:您的團隊大致有多少人組�?與數據相關的團隊有多少人,有哪些不同的職位劃�?
鄭宇:我的核心團隊其實沒有大家想象的那么大。有2位研究員�4名軟件工程師和八、九名研究助理組成。根據城市計算的四個層�(城市感知、城市數據管理、城市數據的分析和挖掘、服務提�)以及每個人的特長和興趣,我會給這些組員分配不同的工作。其中一位研究員帶領幾名研究助理和工程師,負責數據管理層靀另一位研究員帶領幾名研究助理和工程師,負責城市數據的挖掘和分析層靀另外幾名研究助理會分布在城市感知以及服務提供兩個層靀我會參與到城市計算各個層面的項目中去。此外,我們會跟一些合作伙伴展開合作,比如,會有一些高校的團隊在某些項目中幫助我們做一些可視分�. 另外,我們也會經常跟市場部門的合作伙伴一起跟客戶溝通,了解他們的需求,協調數據并終部署技術�
Q:數據相關團隊在微軟及您的整個團隊中所處地位如何?
鄭宇:數據團隊在一個項目的始終都扮演者及其重要的作用。從開始的市場接入環節,我們的數據團隊就要開始參與到其中,了解用戶的需求和掌握的數據情況,甚至要幫助用戶分析和提出他們的需求。在現在這些數據驅動和人工智能主導的項目中,單純依靠銷售和市場團隊很難打開局面,也很難形成跟客戶的有效配合。后期,我們還要對第三方運維企業做有效的培訓,確保他們能夠維護我們部署的系統�
[MTpage]
大數據時代我們真的不再缺數據�
缺得是我們的思維不夠開放
�
Q:一個好的數據科學家關鍵的品質是什么?
鄭宇:你會發現在大數據時代我們真的不再缺數據了,缺得是我們的思維不夠開放,思考問題A的時候不要一直看問題A的數據,其實會發現問題B和C的數據都可以拿來用,而且這個數據完全可以不是你這個領域的數據。只有你對這個問題理解深刻以后才能把別的數據背后的知識拿過來做融合。很多時候項目推動不了不是人數不夠,而是因為缺乏中間靈魂的頭腦,培養這樣的人其實是非常困難的。以我個人的經驗至少七到十年才能培養出這樣一個真正的數據科學家來,這樣一個人可以解決很多問題。所以我鼓勵大家,你至少讀一個五年PHD加兩年的實戰經驗,基本上可以來做這樣的事情�
Q:那么算法的理論知識和實際項目的實踐經驗哪個更重要�
鄭宇:兩個方面都很重要,但是后者的學習和獲取過程更困難�
數據挖掘的模型你可能拿本書學個兩三年基本能學會一些模型,但是很多項目的經驗,你的真的很少有機會接觸到這樣的項目。只有把系統部署到真實世界中用起來,拿到新的反饋,再改進模型,經過這幾次迭代過程你會學到很多東西,但是這個機會特別少,特別難得。而且你從后者怎么吸取和提煉這種經驗也很重要,如果沒有總結能力和提取能力的話,換個新問題你還是不會做。所以我覺得這兩者都重要,后者培養起來更加困難一點�
Q:您怎么看待數據驅動?數據驅動在一個企業可以輔助商業決策,請列舉在過去幾年利用數據解決研究問題/發現觀點的一個有趣的例子�
鄭宇:從商業選址到空氣質量預測,數據驅動的方法已經多次作出了有效的決策。比如,合理的為商業店面選址可以帶來更多的人氣,提升商業的收益并降低企業的投入。通過數據驅動的方法為充電樁選址,可以讓有限的資源為更多車服務,并且避免過度擁堵。另外,在住宅地產選址的過程中,我們發現除了學區房,影響小區價值的另一個重要因素是該小區通向近高速公路入口的路網距離(或者通行時間)。位置很近的兩個小區,其價�(根據同一市場環境下的漲幅比來確定)可以相差很遠�
關于數據模型資產的復�
有兩個東西可以轉�
�
Q:北上廣這些城市的數據化基礎設施比較好,那么在這些地區做城市研究會相對可操作,但是,在其他的比較落后的地區如何開展相關城市計算研究呢?
鄭宇:我們在研究中,會遇到有兩個類似的模型應用場景的情況,但是我們不能直接把在A場景做的模型應用到B場景去,這時候,我建議基于遷移學習的方法來做不同場景間的知識的轉移。有兩個東西可以轉移:
,數據和數據之間的關系可以轉移:比如說出現擁堵的時候空氣質量會變壞,當濕度比較高的時候容易形成霧霾。這種數據和數據之間的關系在很多地方都是普遍存在的,可以在A 城市里面用豐富的數據訓練出一些字典,然后以此為基準復用到B、C、D城市去�
第二,利用隱含空間:數據本身可能不能轉移,但是把數據投影到隱含空間以后,不同城市的數據就可以共享。我舉個隱含空間的例子,比如北京市的交通流量和寧波市的交通流量肯定很不一樣,但是它們投影到隱含空間里面可能都是早高峰堵、晚高峰堵中間不堵,如果都能投影到類似的隱含空間以后,不同城市的數據就可以共享和利用�
Q:如何選擇模型特征?
鄭宇:在做模型特征選擇時,數據質量比特征重要,特征比模型重要�
,如果你根本都沒這個數據的話你可能費很大勁設計各種模型才能得到一點好的結果,如果你的數據質量很好,你有這個數據了,就很容易得到結果�
第二,業務理解深度和對數據的敏感度決定了你能找到的特征好壞。如果提了很好的特征,可能根據兩三個特征就能得到別人十幾個特征的不得結果。我們提取什么特征完全取決于我們對問題本身的理解,所以我著眼在與行業知識結合,數據挖掘其實是一個發現知識的過程,我們需要有從數據里面提煉知識解決問題的能力�
第三,數據越大、質量越好,特征的選擇的必要性越低。在傳統的數據挖掘里往往有很多參數但訓練樣本又很少,所以不得不進行特征優選,使得訓練樣本還是那么多,但是參數變少,這樣可以保證訓練效果跟以前不差甚至更好。而現在我們擁有海量數據了,哪怕多選了一些冗余的特征,也可以依靠后面模型的力量來通過權重參數的做約束,越來越多的機器學習算法本身就考慮了特征的冗余性問題,所以在你擁有足夠大的高質量數據之后,是沒必要花費太多的精力在特征剔除上�
有問題的時候不�
先去看別人怎么做的
重要的是你是否真�
對用數據解決問題感興�
�
Q:怎么決定研究方向�
鄭宇:我們基本上所有的工作都來源對生活的觀察。重要的一點是你是否真的對用數據解決問題感興趣,你真正能夠體會到這種樂趣的時候就進入狀態了�
通常我們在看到現實生活中真的有很難的題目后,會在設計完方法以后再看有沒有相關的工作做過了,這避免了我們的思路跟別人重復。再此我也建議大家,如果你有問題的時候不要先去看別人怎么做的,很多學生喜歡這么想,看到一個題目馬上就去搜別人怎么做的,然后馬上跟著別人思路走進去了,很難有創造性的思維�
Q:對于希望進入數據領域的工程師,分析師們,您希望他們加強哪方面的技能培�?
,加強數據科學的基本技能培養,包括數據管理、機器學習和可視化技術以及云計算平臺的使用�
第二,加強對要解決問題所在行業的了解,借助行業現有的知識來設計合理的數據模型,明確行業傳統方法為什么不行,并懂得跟行業專家有效溝通�
第三,培養溝通和表達能力。現在的數據科學家不再是關起門來在家里閉門造車的工匠或者學者,他需要把深奧的問題和理論用淺顯的語言講出來,讓政府以及傳統行業的客戶能夠明白�
后,培養自己的創作力。很多時候客戶是提不出需求的,作為一個數據科學家要有超前的想象力和犀利的創造力。這點難培養,跟一個人的成長經歷有關,甚至要從娃娃抓起�
我正在為MIT Press撰寫一本《城市計算》的英文專著,里面涉及了數據科學家需要掌握的各種技能,以及實戰案例。該書將作為美國該專業的本教材,預計年底出版,有興趣的朋友可以關注�”
(原標題:專訪微軟鄭宇:這個時代不缺數據,缺得是不夠開放的思維)