日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

億信ABI

一站式數據分析平臺

ABI(ALL in one BI)是億信華辰歷經19年匠心打造的國產化BI工具,技術自主可控。它打通從數據接入、到數據建模與處理、再到數據分析與挖掘整個數據應用全鏈路,可滿足企業經營中各類復雜的分析需求,幫助企業實現高效數字化轉型。

億信ABI

一站式數據分析平臺

億信華辰深耕商業智能十多年,
打造一體化的填報、處理、可視化平臺。

關于數據科學的十大誤區

時間:2019-01-03來源:數據分析瀏覽數:313

數據科學現在被用作競爭武器。正如可以改變公司運營方式的其他技術和流程一樣,有很多相互矛盾的信息會引起相當大的混亂。

今天的大多數業務領導者都聽說過數據科學可以提高運營效率和客戶關系,但并不總是清楚如何實施數據科學或具體的業務收益。

什么是數據科學?

數據科學是一個總括性術語,包括當今最熱門的主題,如機器學習,分析,建模和數據可視化。在實踐中,數據科學是一個過程。它從一個假設開始,然后收集數據,希望產生有價值的見解。收集數據后,它將用于檢驗假設

并建立模型。最后,分析結果并作為報告或儀表板呈現給決策者。

這些模型傾向于近似現實世界中的事件或行為,用于做出重要決策。例如,流失檢測模型通常用于預測哪些客戶面臨向競爭對手叛逃的最高風險,因此企業可以采取預防措施。根據具體情況,預防措施可以采取來自經理的電話,折扣訂閱續訂率或優惠券的形式。

不幸的是,沒有單一的數據科學定義,但許多數據科學家和供應商將其描述為一個過程,類似于上面提出的定義和工作流程。有些人認為數據科學是統計建模或分析的同義詞(識別數據中的模式并通過儀表板顯示結果),這只會增加混亂。建模和分析是數據科學過程的子集。

好消息是,企業可以選擇在組織中實施數據科學的方式,因為沒有“正確”的方法。數據科學的實施方式取決于許多因素,包括組織可用的專業知識,工具和數據。數據科學最有效的實現往往始于業務目標并與之保持一致。

經驗豐富的數據科學家了解這些細微差別?這種理解促進了清晰度?不幸的是,圍繞數據科學存在許多神話,這些神話在澄清道路上起到了障礙作用。通過面對這些神話,我們希望更多的組織,特別是有開發團隊的組織,將實施數據科學。

誤區1:很難找到數據科學家

數據科學家的短缺在媒體中得到了很好的記錄。事實上,Fast Company和其他人引用了麥肯錫的一份報告,該報告預測到2024年美國僅有250,000名數據科學家短缺。今天的許多公司都在競爭“真正的”數據科學家或“獨角獸”。獨角獸是罕見的生物數學或統計學研究生學位(博士學位優先),強大的編程技能和扎實的專業知識。很少有候選人在這三個領域擁有深厚的專業知識,這就是數據科學家短缺的原因。為克服這一障礙,一些組織正在嘗試開發一種結合了幾個人的專業知識的數據科學實踐。

一個常見的錯誤是在必要之前聘請專業知識,如博士級統計學家或數據科學家。公司決策者認為公司需要這樣的人才能獲得競爭優勢,但目前還不清楚該人應該做什么以及為誰做什么。缺乏使命和目的的是統計學家或數據科學家,他們渴望對業務產生積極影響,但不可能從另一個雇主那里得到更好的報價。這就是為什么雇用專業人才比保留專業人才更容易的原因。

大多數組織可以在沒有高度專業化的專業知識或昂貴的軟件的情況下開始獲得數據科學的好處,但通常他們不知道從哪里開始。我們建議您向內部尋找并從軟件開發團隊開始。根據我們的經驗,軟件開發團隊可以接受培訓,以接受數據科學任務。

誤區2:數據科學僅適用于大型組織

大型組織通常擁有構建正式數據科學實踐所需的財務資源。但是,這并不意味著他們的數據科學實踐將會成功。

當這些大型組織取得成功時,媒體喜歡將它們作為公司可以實現的例子,例如更有效地競爭,提高運營效率,甚至擾亂整個行業。由于大型品牌公司通常被定位為其行業的領導者,因此中小型企業(SMB)可能認為數據科學需要對昂貴的軟件和使用該軟件所需的專業知識進行大量投資。

事實上,數據科學既不需要這些東西。在這個領域,巨大的資源并不能保證成功。智能資源。如果由合格的團隊正確實施,各種規模的組織都可以在數據科學活動中取得成功。

誤區3:數據科學只是一個流行語

商業領袖,記者和行業分析師很快就會使用最新的術語。由此產生的噪聲使得難以辨別工業炒作和經得起時間考驗的技術或工藝。鑒于近來關于數據科學的極度炒作,有些人認為它只是另一個流行詞或時尚,這并不奇怪。

然而,數據科學不是流行語或時尚。它是經過時間考驗的學科的匯合,包括統計和預測,幾個世紀以來一直以某種形式存在。例如,精算師和氣象學家長期以來一直使用模型來預測風險和天氣。現在,幾乎每個行業的企業都在嘗試使用數據來提高績效。

將數據科學與其前身(包括精算科學和統計學)區分開來的一些事情是可以獲得可以廉價存儲的大量數據,強大的計算能力以及對預定義模型的快速訪問。與過去相比,組織可以比以往更多地了解自己,市場和客戶,因為他們需要的數據豐富,易于復制,易于共享,并且相對容易處理。這些功能與當今強大的編程環境相結合,使開發人員可以對數據的操作,清理,預處理,分析和可視化方式進行大量控制。

誤區4:復雜模型比簡單模型更好

決策樹,統計回歸和線性回歸并不新鮮,因此與深度學習和神經網絡相比,媒體對它們的關注較少。深度學習和神經網絡使用的復雜模型比用于解決更簡單問題的模型要復雜得多,因為它們試圖模擬任意復雜的函數。

由于一些原因,復雜模型不一定比簡單模型更好。首先,如果問題相對簡單,復雜模型的效率可能低于簡單模型。其次,復雜的模型在處理能力方面可能是昂貴的。最后,復雜的模型可能導致難以或無法解釋的黑盒方法。雖然黑盒解決方案的結果可能是“好的”,但黑盒解決方案不允許用戶探索如何得出結果。如果用戶無法探索結果的來源,他們就無法理解其中的內容。如果他們無法理解導致結果的原因,他們無法解釋細節,這是不好的,特別是在審計方案中。

更簡單的模型更容易理解和解釋。例如,可以使用相對簡單的邏輯回歸模型來預測哪些潛在客戶可能會購買您的產品。

一個常見的錯誤是認為復雜模型在所有情況下都必然會產生比簡單模型更好的結果。但是,不必要的復雜性會導致收益遞減。在這種情況下,最好花更少的時間來調整模型,花更多的時間來理解和清理數據。

誤區5:數據科學需要對統計和統計方法有深刻的理解

雖然數據科學確實需要了解統計數據,但企業可以利用數據科學而無需統計人員。大多數開發人員對統計學有基本的了解,因為他們在大學里至少學過一門課程。

如果您是一名負責在組織中構建數據科學功能的開發人員,或者您希望自己開始構建功能,那么刷新或增加統計知識是明智的,這樣您就可以了解常用的基礎知識楷模。

你不必參加正式課程。你不必攻讀研究生學位。本白皮書末尾提到的電子書和其他資源將幫助您了解基礎知識。有了這些知識,您將能夠構建對您的組織有意義的模型。

如果您想稍后修改模型,您可能需要多學習一點,以便了解特定假設如何影響您正在做的事情。

誤區6:受監管公司無法利用數據科學

受監管的公司必須小心他們使用的信息以及他們如何使用它們。但是,這些限制并不意味著受監管的公司無法利用數據科學或構建模型。

例如,醫院正在使用數據科學來改善患者護理,緊急分診和成本控制。同樣,金融服務,石油和天然氣以及制藥等其他受監管行業的公司也在不使用法律禁止的信息的情況下從數據科學中受益。

但請注意推理。出于特定目的,您的公司可能被禁止使用某些類型的信息,例如個人身份信息(PII)。然而,可以通過組合不受限制的其他數據點來推斷敏感信息。此類使用可能會使您的公司面臨監管罰款和損害賠償。

您可以通過避免不必要的屬性來最小化此類風險的可能性,這些屬性允許推斷個人信息,這可能是法律禁止的。例如,如果將收入作為歧視的依據是非法的,那么可以從她的郵政編碼,汽車品牌和型號等推斷出一個人的近似收入水平。

即使法律不禁止某些類型的個人信息,它們的使用也可能具有品牌損害性。例如,福布斯報道Target根據她的購買習慣推斷出一名少女的懷孕。基于這種洞察力,Target將相關的優惠券發送到女孩的家庭住址,由她毫無戒心的父親發現。

因為推理可以打開法律和其他風險的大門,組織應該了解他們的數據可以推斷出什么以及相關風險是什么。

誤區7:數據科學工具太貴了

一些最復雜的數據科學產品購買成本極高且難以使用。但是,為了從數據科學中受益,沒有必要在軟件上投入數百萬美元。

16 /如何-

首先,有許多比較實用的,如億信華辰的數據分析軟件億信BI,易上手,功能強大。

還有一些商業產品比傳統解決方案便宜得多。

您無需為昂貴的工具預算來利用Data Science。

誤區8:數據科學需要大規模的計算能力

大數據和人工智能炒作給人的印象是數據科學需要大規模并行GPU加速的機器或大型集群。雖然大型深度學習和神經網絡有時需要這種計算能力,但許多用例卻沒有。

使用簡單模型可以解決的問題可能只需要具有64 GB或128 GB RAM的PC。如果這還不夠,那么在云上花費兩三個小時可能就是構建和測試模型所需的全部內容。如果數據處理或數據清理要求超出單個節點的容量,則可能還需要云環境(如騰訊云或阿里云)。

從本質上講,根據需要擴展計算資源比過度設計比問題需要的更復雜和更昂貴的計算環境更具成本效益。

誤區9:數據無法貨幣化,因為它是難以使用的格式

數據優先的公司,如谷歌和Facebook,都是數據貨幣化的主人。他們收集了大量的信息,以豐厚的利潤出售給各方。

一些中小型企業認為數據貨幣化只是行業巨頭可以做的事情,因為他們是數據優先的公司。但是,大多數企業都擁有寶貴的客戶數據,可用于改善公司運營,并可能帶來新的收入來源。例如,大多數公司都有交易信息,無論是客戶訂單還是信用卡銷售。他們可能還從他們的網站或呼叫中心獲得客戶服務記錄,并支持門票。然而,許多企業無法有效利用這些數據,更不用說將其貨幣化了。

事實上,通過建模或分析數據可能會從數據中看出什么是不清楚的。更糟糕的是,數據可能無法輕易訪問,因為它存儲在各種數據庫,紙上或尚未互連的業務系統中。

部分問題可以使用數據集成平臺解決。使用集成平臺,組織能夠連接點,這意味著他們的洞察力超越了存儲在任何一個系統中的數據。使用這種方法,組織可以更好地優化業務流程和客戶旅程。常見的連接包括銷售,營銷和客戶支持,盡管該信息也可以與供應鏈信息和其他系統的信息相關聯。

趨勢信息(例如天氣,交通和客戶購買模式)通常被買賣,以提高銷售,營銷或運營效率。將這些數據貨幣化的公司通常會對其進行轉換,以便其他應用程序可以輕松使用它(這是數據集成平臺所做的一部分)。然后,數據通過API提供給第三方。

簡而言之,數據集成平臺降低了信息共享和貨幣化的障礙。

誤區10:數據科學難以采用,因為它很復雜

數據科學可能是一項非常復雜的任務,但并非必須如此。事實上,最好簡單地開始,用它推動成功,然后擴展你的能力。

許多組織首先匯總他們認為有價值的數據,從中收集一些見解,并通過報告和儀表板將這些見解推廣給決策者。之后,他們開始在數據之上構建模型,以推動新的和更細粒度的洞察力。

雖然沒有單一的“正確”路徑可以采用數據科學,但是當更簡單的解決方案更優雅,更有效且更具成本效益時,錯誤的路徑不可避免地會使問題過于復雜。

結論

數據科學不一定是一項復雜而昂貴的工作,需要強大的博士學位。您現在擁有的軟件開發功能可以提供您曾經認為不可能的寶貴見解,而無需在額外資源上進行大量投資。

克服組織障礙的一種方法是通過對統計數據的基本了解來補充您的計算機科學和業務領域專業知識,以便您可以開始構建有益于您組織的模型。隨著業務需求的增長,您可以擴展您的知識,幫助您的公司走上成功的數據科學之路。



(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢