日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

億信ABI

一站式數據分析平臺

ABI(ALL in one BI)是億信華辰歷經19年匠心打造的國產化BI工具,技術自主可控。它打通從數據接入、到數據建模與處理、再到數據分析與挖掘整個數據應用全鏈路,可滿足企業經營中各類復雜的分析需求,幫助企業實現高效數字化轉型。

億信ABI

一站式數據分析平臺

億信華辰深耕商業智能十多年,
打造一體化的填報、處理、可視化平臺。

不再性感,不再賺錢,數據科學的時代變了

時間:2019-03-07來源:數據分析瀏覽數:264

當你看到“數據科學”這個詞時,會想到什么?你可能會覺得它是統計學、機器學習、深度學習和“21 世紀最性感的工作”等關鍵詞的組合,或者你的腦海里會浮現出一個數據科學家的形象,她坐在電腦旁,將 AB 測試得到的結果拼接在一起,又或者你聽很多人說過干這行有賺不完的錢(根據權威部門統計:入門級數據科學家的平均年薪約人民幣 744253 元)。無論是哪一種,它都是迷人、聰明和復雜的。

從本文作者 Vicki Boykis 十年前進入這一領域以來,數據科學一直給人這樣的印象,但現在,數據科學已經不再是當初的樣子了。

我最初是一名數據分析師。

我是否曾經提到過我有多討厭 Excel 默認的數字字符串格式?

我經常是一邊苦等 SQL 的運行結果、整理亂糟糟的 Excel 文件,一邊看著 Hacker News 上有關海量數據挖掘的文章、Facebook 數據科學團隊的新聞和谷歌首席經濟學家 Hal Varian 寫的文章,然后一邊做著白日夢。

2012 年,我很幸運地被分配到了一個數據分析工程團隊,他們正在將一些 ETL 作業從 Oracle 遷移到 Hadoop 上,以便滿足不斷增長的數據吞吐量要求。

有沒有“給白癡用的 Hadoop”? 給小白用的 Hadoop 并不適合我。

我自愿成為第一個使用 Pig 和 Hive 的分析師,主要是因為我不想等到工程工作完成后才能訪問我的數據。而且,我沉迷于數據科學家的光環——這些人開展很酷的實驗,提出很酷的分析想法,并可以使用 MacBook。

我也想成為這樣的人!所以,我在線學習了 Python,重溫了我在大學學習過的統計學。在早期,并沒有真正形式化的方法來學習“數據科學”,最多只能看看其他人在做什么、去參加聚會或者試著從人力資源招聘的職位描述中讀出點什么。


在獨自摸索了很長一段時間之后,我在過去的六年時間里已經在“數據科學”領域站穩了腳跟。并且,作為一名導師(但我之前并沒有導師),我一直在回復電子郵件,和那些希望進入數據科學領域的人喝咖啡會面。

自 2012 年以來,數據科學行業發展極其迅速。它幾乎經歷了甘特炒作周期的每個階段。

我們已經經歷了早期采用階段、有關人工智能和偏見的負面新聞、Facebook 等公司的第二輪和第三輪風險投資,現在正處于高采用增長階段:銀行、醫療保健公司和其他財富 100 強企業(這些公司已經落后市場五年)也在為機器學習招聘數據科學家。

很多東西都變了。大數據(記得 Hadoop 和 Pig 嗎?)已經出局了,R 語言的采用率急劇上升,Python 成為經濟學家的寵兒,而云計算再次改變了一切。

然而,媒體針對數據科學領域的炒作卻沒有變,一直在鼓吹數據科學家是“21 世紀最性感的職業”。但我現在認為這是一個很嚴重的問題,需要引起社區的注意。希望進入這個行業的初級數據科學家供過于求,而一旦他們獲得了夢寐以求的“數據科學家”頭銜,他們能夠得到的東西與他們的期望其實是不匹配的。

新數據科學家的供過于求

首先,我們來談談初級數據科學家的供過于求。針對數據科學的持續媒體炒作導致過去五年中市場上的初級人才數量激增。

這純粹是道聽途說的東西,所以不要太當真。但是,基于我自己作為簡歷篩選者、數據科學家導師、面試官、面試者,以及與從事類似職業的朋友和同事的對話,我有一種直覺,每個給定的數據科學職位(特別是入門級的科學職位)的候選人數量從 20 個增加到 100 個或更多。我最近了解到,我的一位朋友在招聘一個職位時收到了不止 500 份簡歷。

這都很正常,類似的情況還有很多。機器學習教父吳恩達的 AI 創業公司每周要求工作 70 到 80 個小時,但仍然收到了大量申請,甚至有人愿意免費做志愿者。在寫這篇文章時,他們的辦公室已經容不下更多的人。

對 4 月份招聘廣告的研究發現,美國有超過 10,000 個針對人工智能或機器學習的職位空缺。

超過 10 萬人參加了 Fast.ai(一家專注于推廣人工智能的創業公司)的深度學習課程。

假設平均 MOOC 完成率約為 7%,那意味著有 7000 人可以填補這 10,000 個工作崗位。但是,今年是這樣,那么明年呢?我們是否在假設數據科學創造的就業率是穩定的?如果實際情況不是這樣的,那么數據科學就業市場有可能會萎縮。

LinkedIn 提供的數據表明,市場上有 151,717 個數據科學人才空缺。雖然目前還不清楚它們是不是就是指數據科學家,或者是只擁有部分技能的人,但我們假設是前者。因此,我們可以說美國現在有 150,000 多個數據科學家職位空缺。

我們假設有 100,000 個人已經參加了數據科學課程,并且其中有 7,000 個人會完成課程。

但是,上面這數字并沒有考慮到其他的數據科學候選人計劃和途徑:Fast.ai 之外的 MOOC,比如 Coursera、Metis(超過 10 個全國性訓練營)和 General Assembly(每 12 周就有 25 人參加)、來自加州大學洛杉磯分校等地的遠程學位、分析和數據科學的本科學位、YouTube,等等。還有很多博士正在從學術界轉向數據科學領域,但卻無法在競爭極其激烈的就業市場中找到工作。

這篇文章指出,在 2015 年有 4 萬個數據科學家職位空缺。總體而言,到 2018 年,分析技能的市場供應將超過市場容量。

??參加數據科學計劃的初級人才數量,再加上數百個開設數據科學課程的訓練營,你將看到一場完美的風暴。

除了我從工作中了解到的以及與 100 多名同事進行的交談之外,下面的兩條推文讓我確信目前存在真正的數據科學供應泡沫。

@Cal 的數據科學入門課程 Data 8 非常受歡迎。它位于有澤勒巴大劇院。2018 年秋季開學。

UVA(美國弗吉尼亞大學)很自豪地宣布開設數據科學學院的計劃,它將滿足社會對數據科學不斷增長的需求。

由于學術界在跟上新趨勢方面通常會滯后,因此,對于所有希望在數據科學領域找到職位的初級數據科學家來說,這確實令人感到擔憂。對于一個擁有數據科學新學位的人來說,要找到一個數據科學的職位是非常困難的,因為他們要在市場上與許多新人展開競爭。

但在三、四年前,情況并非如此。而現在,數據科學已經從流行語變成了連硅谷之外的公司都在招聘的職位,職位的準入門檻更高了,而且偏愛具備數據科學經驗的人,數據科學面試仍然很難通過。

正如很多文章指出的那樣,你不一定會在第一次嘗試時就能找到你夢寐以求的工作。市場可能非常殘酷,并且對于大量初入者來說非常令人沮喪。

數據科學是一個具有誤導性的崗位需求

第二個問題是,一旦這些初級人員進入市場,他們會對數據科學工作產生不切實際的期望。每個人都認為他們將從事與機器學習、深度學習和貝葉斯模擬相關的工作。

這不是他們的錯,這就是數據科學課程和技術媒體所宣揚的。

但現實的情況卻是,“數據科學”大多數時候是關于如何清理和整理數據以及將數據從一個地方移動到另一個地方。

我最近進行的一次非科學調查證實了這一點:

一段時間以來,我一直對此感到好奇,所以決定做一個民意調查。

“作為一個 2019 年被稱為’數據科學家’的人,我花了大部分時間(60%以上):”

也歡迎“其他”選項,請在回復中添加。

還有很多行業專家發來的推文也是如此:

對于我最近的幾個 ML 項目,復雜性并不在于建模或訓練,而在于輸入預處理。我發現在一個項目中耗盡了 CPU(而不是 GPU),我不確定如何進一步優化 Python(我正在考慮使用 C++)。

我看到初級 ML/CV 工程師對構建數據集完全缺乏興趣。雖然這是一項無聊的工作,但我認為在整理數據集時需要學到很多東西,畢竟這占了問題的一大半。

角色和責任:

- 自動化糟糕的商業行為

- 根據需要編寫臨時 SQL

經驗要求:

15 年使用 Python 進行深度學習的經驗

寫過有關貝葉斯建模的博士論文

7 種語言的 NLP 經驗

10 年從頭開始創建 Hadoop 集群的經驗

在過去兩年中,項目的工作類別所占百分比:

- 涉及 ML:15%

- 涉及移動、監控和統計數據:85%

顯而易見的是,在炒作周期的后期階段,數據科學逐漸向工程學靠近,數據科學家需要的技能不再是基于可視化和統計學,而是更接近傳統計算機科學課程所提供的那些:

像單元測試和持續集成這樣的概念很快就成為數據科學家和從事 ML 工程的數值科學家的行話和常用的工具。

這導致了一些事情的發生。首先是“機器學習工程師”這個頭銜的崛起,在過去的 3 到 4 年里,它帶來了更多的聲望和更高的收入潛力。

其次,它導致數據科學家頭銜含金量嚴重縮水。由于數據科學家頭銜的聲望,像 Lyft 這樣的公司會招聘數據科學,但實際上他們只需要數據分析師的技能,導致“數據科學”職位對技能的要求發生了扭曲,究竟需要多少新進入者也變得不明確。

給新數據科學家的建議

因此,本著繼續為初學者提供建議的初衷,如果有人問我如何在 2019 年進入數據科學領域,我會給他們發送下面這樣的電子郵件。

這是一個兩步走的計劃:

不要死盯著數據科學的工作崗位。

為大多數數據科學家相關的工作做好準備,但不要成為數據科學家。調整你的技能組合。

這些話可能有點令人沮喪!但請允許我解釋一下,希望它們不像聽起來的那么悲觀。

不要進入數據科學領域

因為每個初級職位一般有 50 個(有時 100 個,有時 200 個)人申請,所以不要與這些人去競爭。不要去攻讀數學科學學位,不要參加訓練營(我見過的大多數訓練營的效果都不太好)。

不要做別人正在做的事情,因為這樣無法讓你脫穎而出。你正處在一個過度飽和的行業中,這樣只會給自己增加難度。在我之前提到的那份PWC 報告中,數據科學職位的數量估計為 5 萬,數據工程師職位的數量為 50 萬,數據分析師職位的數量是 12.5 萬。

通過“后門”進入數據科學領域要容易得多,也就是說從初級開發人員開始,可以是 DevOps 工程師、項目管理人員、數據分析師、信息管理員或類似的角色。這可能需要更長的時間,但在你努力完成數據科學工作的同時,你也將學會對職業生涯來說至關重要的 IT 技能。

了解當今數據科學所需的技能

以下是你在數據領域需要解決的一些問題:

1)創建 Python 包

2)將 R 語言用在生產環境中

3)優化 Spark 作業,使其更有效地運行

4)對數據進行版本控制

5)讓模型和數據可重現

6)對 SQL 進行版本控制

7)在數據湖中建立和維護干凈的數據

8)大規模時間序列預測工具

9)共享 Jupyter Notebook

10)尋找可用于清理數據的系統

11)JSON

作為一名數據科學家,優化模型、可視化和分析數據是職責工作的一部分,而數據科學主要是(也一直是)關于在一個地方獲得用于插補的干凈數據。

你應該如何為解決這些問題做好準備?如何為工作做好準備?你可以考慮學習下面這三種技能,它們都是基礎技能,并彼此依賴,從簡單到困難。

所有這些技能也是數據科學以外的軟件開發的基礎和關鍵,這意味著,如果你無法找到數據科學工作,可以快速轉做軟件開發或 DevOps。我認為這種靈活性與針對特定數據相關工作的培訓同樣重要。

1. 學習 SQL

首先,我建議每個人都要學習 SQL,無論他們的目標是成為數據工程師、ML 專家還是 AI 大師。

SQL 并不性感,也不是上述問題的解決方案。但為了訪問數據,你很可能需要針對數據庫編寫一些 SQL 查詢,并用它獲取答案。

SQL 非常強大且非常流行,甚至有些 NoSQL 和鍵值存儲數據庫也在重新實現它。比如 Presto 推出的 Presto 和 Athena、BigQuery、KSQL、Pandas、Spark,等等。如果你發現自己陷入了數據工具海洋之中,很可能可以找到一個適合你的 SQL 工具。而且,一旦你理解了 SQL,你會發現它比其他查詢語言更容易理解,從而開辟了一個全新的世界。

在熟悉了 SQL 之后,下一步是了解數據庫的工作原理,這樣你就可以學會如何優化查詢。你不一定要成為數據庫開發人員,但很多概念將延續到你的其他編程生活當中。

2. 學好一門編程語言和學習編程概念

SQL 不是一門編程語言嗎?它是的,但它是聲明性的。你指定所需的輸出(即你要從表中獲取哪些列),但不指定這些列以怎樣的形式返回給你。SQL 抽象了很多數據庫底層的細節。

你需要一門過程式語言,你可以自行指定如何以及從哪里獲取數據。大多數現代語言都是過程式的:Java、Python、Scala、R 語言、Go 語言,等等。

關于為數據科學應該選擇哪種語言存在很多爭論,我不會針對任何特定情況規定說要學習哪一種語言,只是在我的職業生涯中,Python 對我來說非常有用。作為一個初學者,它很容易入門,可以說是數據領域最流行的編程語言,并且可以用來完成很多不同的事情,從將模型嵌入 scikit 中,到訪問 AWS API,再到構建 Web 應用程序、清理數據,以及創建深度學習模型。

當然,也有一些任務不太適合用 Python 來完成:大型應用程序、打包依賴項和一些特定的與數字相關的任務,特別是時間序列和 R 語言提供的一系列功能。

如果你不選擇 Python,也沒問題。但你至少要選擇一種語言,讓你在數據科學領域之外保持靈活性。例如,如果你的第一份工作是數據分析師、QA 分析師、DevOps 初級工程師,或者其他職位,掌握一門語言都有助于你站穩腳跟。

在選擇了一門編程語言并弄清楚如何使用它之后,就可以開始學習它背后的范式以及它與計算機科學生態系統的關系。

你是如何使用你的語言實現 OOP 的?OOP 是什么東西?你如何優化你的代碼?你的語言的依賴項是如何工作的?如何使用給定語言打包代碼,如何進行版本控制、持續集成,如何部署模型工件?你的語言社區在哪里,會在哪里舉行聚會?

了解你的語言,了解它的優缺點,用你的語言開發一些有趣的東西。

然后,當你有足夠的信心繼續下去時,也只有在這個時候,才能開始學習你的第二門語言。它將把你帶入更廣泛的語言設計、算法和模式的世界。

3. 了解云端的工作

現在你已經知道如何編程,現在是時候將這些技能和理論帶到云端了。

如今,云無處不在,你可能需要在下一個工作中使用云。如果有更多的機器學習范例轉移到云端(如 SageMaker、Cloud AI 和 Azure 機器學習),已經有現成的模板可用來實現算法,而且企業的更多數據也開始存儲在那里。

你可能會與行業領導者 AWS 合作,但越來越多的公司正在采用 Google Cloud,而很多已經與微軟開展業務合作的保守企業在使用 Azure。我建議深入了解這三個云供應商,然后挑選一個你最感興趣的。云設計范式都是類似的,你必須了解如何將服務粘合在一起,如何區分云端的服務器,以及如何使用 JSON。

有趣的是,這三家供應商現在都提供了他們的產品認證。我一般不會通過認證來衡量一個人對知識的掌握程度與否,但通過認證可以學到云的工作原理,這是工程的另一個組成部分:網絡。

了解這三種產品,并在開始下一份工作之前在云端構建一些有趣的東西。

這里缺失的部分當然是“軟技能”——知道在什么時候構建什么,知道如何在工作場所進行交流,知道其他人想要什么。軟技能與技術技能一樣重要,有很多專門討論它的文章,但為了保持這篇文章不會太長,這里就不作累述了。

最后的步驟

現在,請深呼吸,我想你已經做好準備了。

如果上述有任何一點(或者所有)讓你感興趣,那說明你已經準備好在 2019 年成為數據科學家、機器學習工程師、云專家或 AI 大師了。

請記住,你的最終目標是打敗那些攻讀數據科學學位、參加訓練營和學習教程的人。

你想要邁出第一步,獲得一個與數據相關的職位,然后朝著你夢想的工作前進,同時盡可能多地了解科技行業的總體情況。

我最后一個一般性的建議是給自己打氣:

這對每個人來說都很難,似乎有很多事情你必須知道。不要氣餒。

不要因為想太多就望而卻步。先從小處開始,做一些小的事情,學習一些小的東西,構建一些小的東西,把你做的事情告訴其他人。請記住,你在數據科學領域的第一份工作可能不是數據科學家。


(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢