日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

銀行線上平臺的數據團隊如何打造數據體系?

時間:2024-04-26來源:高傲太俗瀏覽數:317

如何搞定數據標準統一和數據質量等難題?

InfoQ:請您結合廣發銀行信用卡中心的經驗,介紹一下數據體系建設的整體歷程大體上會分為哪些關鍵階段?每個階段有哪些需要重點突破的攻堅問題?

徐小磊:首先分享一下我們的數據環境和體系建設的情況。作為一家金融機構,我們既有線上用戶平臺,比如自己的 App、企業微信等,也有線下的渠道和用戶。在此基礎上,我們積累了大量的金融數據,僅信用卡發卡量就達到了 1.2 億張,每個月線上渠道新增的數據量就有幾十個 G。面對這樣的數據體量和復雜性,我們的數據體系建設分為幾個關鍵階段:

1. 數據治理框架和標準:任何體系化的建設都需要一個明確和堅定的目標。缺乏明確的目標,數據工作就會迷失方向。我們需要確定哪些數據是必要的,以及這些數據應該滿足什么樣的標準。例如,用戶畫像可能有幾百上千個指標,但我們可能只關注其中的 100 個,而不是全部。在確定了數據治理的框架和標準之后,我們會搭建數據架構,由研發和科技團隊負責,目的是建立一個可擴展、高效且安全的系統,保護客戶的隱私數據。

2. 產品選型:我們會選擇合適的數據平臺產品,確保海量數據的有效可靠存儲,并能夠在上層應用中高效、準確地調用。

3. 數據集成和管理:這一步比前面兩步更為重要,因為它是一個持續化、常態化的過程,不斷自我迭代和完善。在這個過程中,我們需要解決不同主題域數據的結合和映射問題,確保數據的一致性和準確性。

4. 數據分析和應用:在這個階段,我們面臨如何用數據理解業務,以及如何站在業務中理解數據的挑戰。我們會通過數據分析得出業務結論,并通過模型幫助我們發現更深層次的洞見。

5. 審計和管控:作為金融企業,需要定期對數據應用和管理進行審計和管控,確保合規和安全。

6. 數據運營:持續維護數據,保證其真實有效,并保持數據的活躍性。

InfoQ:企業數據體系建設往往涉及不同業務環節和業務板塊之間的聯動,那么,在數據治理階段如何實現標準的統一?又如何確保這些標準順利落實?

徐小磊:我們成立了一個金融科技委員會,該委員會負責統籌整個數據工作。在委員會內部,有一個重要的部門叫做決策管理部,負責管理整個信用卡中心的數據定義和數據指標。這個部門的管理范圍包括指標的名稱、業務分類、類型、業務口徑、技術口徑、關聯維度以及迭代更新周期等七個方面。每一個指標的變更都必須經過變更管理流程才能生效,并且這些定義構成了一個公開的數據字典,不同權限的人可以根據自己的工作權限查看相關指標的定義。

關于搭建業務指標體系的工作展開,通常由業務同學領導,因為他們了解業務需求。一旦確定了指標,數據同學會協助確認口徑,比如確定 DAU 的計算方式。然后,技術團隊會將這些定義以代碼形式實現,并由數據同學驗證后反饋給業務同學。

InfoQ:數據質量決定著數據應用的效果,在廣發銀行信用卡業務場景中,哪些因素可能會影響數據質量?具體如何規避?

徐小磊:分享一些常見的數據問題和我們的處理經驗。

首先,數據來源的多樣性導致格式和標準的不統一,這是數據源的問題。我們通常通過數據治理和規范來解決這個問題。

其次,數據輸入的錯誤也是一個常見問題。并非所有的數據都是系統自動產生的,還有很多線下手工數據的錄入。人為錯誤在所難免,我們通過開發限制性功能,比如在錄入平臺上進行數據有效性驗證,來減少這類錯誤。

第三,數據的冗余和重復問題。有時候,由于網絡或數據源層的問題,同一條數據可能被重復采集。我們通過數據治理和規范,在 ETL 過程中定義數據的唯一性標準,來處理這種情況。

第四,數據不完整的問題。前端元數據系統的問題導致數據在傳輸和采集過程中丟失。有時候字段為空或者數據內容不完整。對此,我們會通過前后平滑等方法進行事后處理,以避免未來出現類似問題。

第五,數據的時效性也是一個重要問題,有時數據并不是最新的。以銀行為例,我們可能會看到用戶的征信數據是半年前的。如果使用半年前的征信數據來進行發放信用卡或分期辦理,可能會出現錯誤,因為用戶的情況在半年內可能已經發生了變化,而我們并未及時了解到。這個問題是數據處理中一個非常重要的缺陷。

過去我們在互聯網企業工作時,一直認為數據具有高時效性。但實際上在銀行機構,數據的時效性可能是 t + 3 到 t + 4,也就是說,我們今天看到的數據實際上是前三至四天的數據。昨天和前天的數據還沒有被聚合、穩定或收斂,仍在計算中,因此不能被使用。但很多時候,數據應用人員往往習慣性地認為今天看到的指標就是準確的。然而,你可能會在第二天發現指標又有所變化。

最后,數據的安全隱私問題。作為銀行,我們非常重視數據的安全和隱私保護。我們歡迎外部數據的輸入,但絕不能讓銀行的數據外泄。我也很想了解銀行的客戶在全球互聯網上的表現如何。為此,在 2019 年,我們與一家數據公司合作進行了聯邦建模,數據匹配后,該公司直接將他們的標簽打入我們的系統,我們用用戶匹配來完善用戶畫像,并制定后續的針對性策略。最終發現,很多數據并不準確,因為我們無法驗證其準確性,只能說這些數據與外部公司匹配的用戶標簽是對應的。

InfoQ:如果臟數據不可避免,那么廣發銀行信用卡中心在數據質量監控的思路和手段等方面都用了哪些?

徐小磊:在討論臟數據的處理時,首先需要明確什么是臟數據以及我們對臟數據的可接受程度。臟數據通常指的是在數據傳輸和分析過程中出現的錯誤或不完整的數據。例如,數據可能因為各種原因在傳輸過程中丟失或變得不準確。定義臟數據并確定一個可接受的比例(如不超過 0.1%)是至關重要的,這需要團隊內部進行充分的討論和達成共識。

在我們的 IT 系統中,臟數據的產生并不是由人工操作引起的,而是在數據的傳輸和處理過程中自然產生的。盡管現代的信息系統通常具備較強的數據規范性治理,且在數據抽取過程中會進行大量的校驗和修復工作,但臟數據仍然可能存在。在我們的數據治理團隊中,控制臟數據的數量是一個核心的 KPI。如果臟數據過多,上游系統將無法有效使用。

通過多年的發展,我們發現臟數據在數據集中的比例已經非常低,通常在 0.1% 左右,這在我們的工作中可以被視為可以忽略不計的。這個比例的臟數據并不會影響數據分析的結果。可以這樣比喻:如果一個人身高兩米,他站在空曠的地方會非常顯眼;但如果他站在人群中,尤其是 100 萬人的人群中,他的身高就不再那么突出,也不會影響整個人群的平均身高計算。同理,即使存在少量的臟數據,只要其比例控制在可接受的范圍內,也不會對整體的數據分析造成顯著影響。

InfoQ:在某些行業中,可能并沒有像金融行業那樣擁有堅實的信息化基礎和完善的數據治理體系。這可能導致這些行業存在較多質量參差不齊的數據,也就是臟數據,面對這樣的情況,如何區分正常的數據波動與數據異常?

徐小磊:在我們的工作中,經常使用幾種有效的方法來判斷數據波動是否正常或異常。

第一種方法是 3:3 規則,這是一個簡單但并不總是準確的技巧。當數據發生變化時,我們會與環比、同比和目標進行比較,以判斷波動是否正常。這種方法非常常見,但它的局限性在于它可能無法捕捉到所有的異常情況。

第二種方法是在 Excel 中使用描述性統計和象限圖。通過創建象限圖,我們可以識別出圖中的離群點,也就是異常值。這是一種直觀且易于實施的方法,可以幫助我們快速發現數據中的異常情況。

第三種方法是建立模型,如簡單的線性回歸或更復雜的決策模型。通過模型,我們可以更系統地分析數據,并識別出可能的異常模式。

我們最常用的方法是使用象限圖來快速判斷數據異常。象限圖可以幫助我們從數據角度快速識別異常,重要的是,數據上的異常并不一定意味著業務上的異常。例如,在雙 11 這樣的大促銷日,交易額的異常高是預期內的,業務團隊實際上希望這個數字越高越好。因此,我們需要結合業務背景來理解和評估數據異常。

數據團隊如何與業務、技術等部門高效協作?

InfoQ:業務和數據部門之間的話語體系不同,雙方如何更好地相互理解?

徐小磊:首先是如何用數據去理解業務。我們通常會先進行營銷和運營策略制定。舉個例子,當我們在春節期間進行活動投放時,可能會看過去類似活動的轉化率,比如說是 5.1%。而今年我們可能希望提高這個轉化率到 6%。在這種情況下,通常會進行 AB 實驗,在不同的方案下給不同的客戶進行投放。然而,這會遇到一個問題:雖然 AB 實驗顯示最優方案相較于基線提高了 0.1 個百分點,從 5.1% 提升到了 5.2%,但這 0.1% 對業務來說并沒有顯著意義,這是數據證明顯著而業務不認可的典型沖突。

另一個例子是,假設我們在做抖音或者快手等短視頻平臺的運營,人均單次使用時長是一個關鍵指標。我們可能通過各種算法和策略將人均單次使用時長從 90 分鐘提升到 100 分鐘。雖然數據證明有顯著性的提升,但業務方并不認可這個提升。這種情況下,10 分鐘的提升對于原有 90 分鐘而言并不顯著,這就是數據和業務之間的差距。需要花費很長時間去理解這個差距,因為數據團隊通常更偏向于技術和算法,而業務則更注重實際效果。

其次,從業務中去理解數據同樣具有挑戰。例如,以某個轉化率為例,任何一個指標背后都對應著商業模式、運營策略、目標客群和業務流程。要理解這些背后的內容,才能真正從數據中得出建議和方向。舉例來說,轉化率的變化可能有多種原因,如分子上漲、分母下降、分子上漲速度快于分母等。然而,在業務端,大家可能更關注轉化鏈路中的問題、目標客群的準確性以及商業模式和策略的有效性等方面。這種理解需要與業務的深入磨合。

InfoQ:怎么通過組織流程或者說制度上的各種手段,讓不同角色之間的協作或溝通更加高效和通暢呢?

徐小磊:這確實不是一個技術問題,而是一個組織架構和協同工作的問題。近年來我們致力于數字化轉型和數字化賦能,以此為前提來統一我們的技術團隊、中臺、前臺和渠道,確保各個部門之間的聯動。

首先,如前面介紹,我們有一個重要的部門叫做決策管理部,負責管理數據指標,從原始數據處理到指標輸出的整個過程。任何對這個流程的增刪改查都必須通過規范流程,由這個部門最終評審變更。

其次,我們明確了協作流程,包括誰負責什么,誰先行動,誰后行動,都通過明確的規范來限定和標注。舉個例子,現在傳統的分析方法已經不能滿足復雜的業務需求,我們需要建立模型。在這個過程中,業務部門的數據團隊負責開發、建設和調優模型,而系統或科技部門則負責部署和維護模型,以及后續的優化工作。

其三,我們制定了溝通規范,以確保溝通的高效性。我們的金融科技委員會定期與各業務團隊和技術負責人進行溝通,磨合工作,確保數據工作的生產和運營過程順暢進行。

此外,我們還會開展多項數據類的賦能活動。比如,舉辦數據賦能大賽、實施數據分析師的人才培養計劃,還有數據或 AI 算法的訓練營。通過這些活動,將業務同事納入其中,建立起業務與數據之間的緊密聯系。所謂高效聯動,意味著數據需要了解業務的思路和方式,業務也需要了解數據的策略和方法。因此,我們每年都會在七八月份舉辦信用卡中心的大賽,讓業務團隊提出他們用數據實現的降本增效的項目。評委有業務專家和數據專家,會評審推薦的項目,并從中選出最佳方案,然后公示出來,供大家分享學習。

InfoQ:數據團隊往往人數有限,如何高效地滿足業務部門大規模的數據使用需求?

徐小磊:在滿足需求的過程中,我們會面對兩種不同類型的需求:指標類需求和日常需求。

1. 指標類需求。對于指標類需求,例如新指標的提出,我們會進行深入討論,了解其背后的目的和業務邏輯。前輩曾告訴我,“可衡量才可改善”,這意味著我們需要明確如何改善指標,才能發揮數據的價值。

2. 日常需求。在日常需求方面,我們會面臨人力不足的挑戰。為了有效管理需求,我們需要建立標準和流程。首先,我們設立了提需求的標準,包括需求背景、具體內容和期望的輸出。只有按照這些標準提出的需求才會被考慮。然后,我們會與業務部門進行多次反復的討論和磨合,以確保需求的準確性和合理性。接下來,我們會根據優先級對需求進行排序,并公示給所有相關方,以便大家達成共識。最后,我們會根據業務部門自身的標準和需求來確定優先級,以確保最緊急的需求得到優先處理。

InfoQ:數據團隊是整體對接各個條線的業務部門,還是分組去對接?哪一種組織效率會更高一點?

徐小磊:以我們公司的 APP 數據團隊為例,對應不同的工作職能主要包括兩類角色。第一類是 BP 類型的數據分析師,他們的匯報對象仍然是數據團隊的領導,但工作地點通常與業務團隊在一起。這種模式使得數據分析師能夠更貼近業務,更好地理解業務需求,并提供針對性的數據分析支持。這種設置有助于加強數據團隊與業務部門之間的溝通和協作,確保數據分析工作能夠緊密圍繞業務目標展開。

第二類數據團隊成員則專注于平臺性建設,他們大概占團隊的 1/3,工作重點是構建和維護數據分析平臺,提供工具和方法論支持,確保數據團隊能夠高效地進行數據處理和分析。他們的工作是基礎性的,對于整個數據團隊的運作至關重要,因為提供的平臺和工具直接影響到數據分析的質量和效率。

InfoQ:如何避免數據分析團隊大多數時間都是在提數或者是做報表開發?

徐小磊:這個現象是無法完全避免的。事實上,這是數據分析工作中一個合理且必要的部分。總得有人負責數據提取和報表的維護,而且并非所有的需求都能通過現有報表來滿足。

對于數據團隊的定位和人員技能的考量是關鍵。如果團隊還很年輕,對業務的理解不夠深入,那么在初期階段,團隊成員自然會更多地投入到數據提取和報表開發中。特別是在業務團隊剛開始進行數字化轉型時,從零開始的階段,數據團隊的主要工作必然包括數據提取和報表開發。

隨著數據團隊的成熟和發展,可以采取更加平衡的工作分配。例如,可以保留少數團隊成員(比如 2~3 個人)來處理臨時性的取數需求和進行現有報表的維護工作。假設已經開發了 100 個報表,每個月可能只需要新增幾個個報表,或者對現有報表的字段進行維護。這樣,其他團隊成員就可以釋放出來,去從事更具探索性和價值的工作。

InfoQ:我們決策管理部門的人員由哪些部門的人員構成?分散在各個業務部門的數據人員角色和職責上又是如何劃分的?

徐小磊:決策管理部門實際上是一個獨立的后臺部門,負責管理整個數據流程,包括統一管理指標、口徑的定義、數據的應用、數據平臺、模型、策略等。為什么業務部門會有數據團隊呢?原因在于數據本身與人力資源很相似,如果業務團隊沒有數據支持,溝通就會受到限制。因此,數據團隊的人員需要與業務部門密切合作,以培養業務感知能力。

數據團隊的角色有一些劃分和差異,因為業務需求不同。以我們現在的團隊為例,大致分為三類角色。第一類是數據產品經理,負責管理數據產品;第二類是數據分析人員,包括初級、中級和高級,負責數據分析工作;第三類是數據智能團隊,負責算法和模型的開發。每個角色下面還會有一些具體的細分。例如,數據產品經理可能會負責線上平臺的埋點管理和標簽體系管理,數據分析人員則負責從簡單的數據取數到高級的探索性分析,而數據智能團隊則會根據業務需求開發適合的模型和算法。

InfoQ:數據團隊在滿足業務需求后,如何驗證數據的有效性?有沒有一些評判的標準或指標?

徐小磊:我們根據不同的業務需求類型,采取不同的驗證方法。

首先,對于專項類需求,目標是改善具體的業務指標。例如,如果業務部門希望我們通過數據分析幫助提升某個指標 5%,我們會以業務結果為導向,追蹤這個目標的實現情況,從而評估我們工作的價值。

其次,對于日常取數或申請預算這類需求,我們的價值體現在能否幫助業務部門順利通過財務審核。如果提供的數據分析能夠讓業務部門成功申請到預算,這就證明了我們工作的有效性。

第三,對于探索性分析這類沒有明確目的的需求,我們會主動與業務部門溝通,提供數據后不僅發郵件了事,而是會坐到他們身邊,討論數據分析的結果,詢問他們的看法,并探討是否需要進一步的工作。這種互動能夠充分體現數據團隊的價值。

曾經,為了證明數據團隊的價值,我采取了一個非常有趣的做法。我停止了日報、周報和月報的發布一個星期,想看看會有什么反應。結果,兩天后,很多業務部門的負責人就開始聯系我,詢問為什么沒有收到日報。這個小小的實驗讓我意識到,盡管他們可能不總是表達出來,但實際上他們非常依賴我們提供的數據報告,并且簡單有效地驗證了我們團隊的重要性和價值。

InfoQ:業務自己都能看數據了,那數據分析工作價值體現在哪里?

徐小磊:以我們公司的架構為例,你會發現數據團隊的作用是非常明顯的。隨著組織分工和社會化分工變得越來越細致,業務人員往往只能看到自己負責的業務數據,難以全面了解其他業務領域的情況。數據團隊就像是一個數據中臺,能夠全面貫穿整個組織的數據流。

舉個例子,廣發銀行有一個名為“發現精彩”的 APP,它是一個集成了多種業務的平臺,包括分期業務、商城業務、飯票業務等。負責分期和商城的業務人員只能看到各自業務的數據,比如分期辦理的人數、商城的交易金額等。但是,作為數據團隊,我們能夠看到全局的數據。我可以觀察到一個用戶在一個月內不僅辦理了多少筆分期,同時還在商城購買了商品。有了這樣的全業務視角,我可以向商城的運營管理者提出建議:最近有 10 萬用戶在分期業務中借出了 1 萬塊錢,是否可以考慮吸引他們到商城購買手機等高價值商品?這樣的建議,如果沒有數據團隊的全局視角,是難以提出的。

同樣地,如果我發現商城中購買某款高價手機的用戶數量激增,就可以將這一信息反饋給分期業務部門,探討是否有可能吸引這些已經花費大量資金的用戶來進行分期付款。這種跨業務和全業務視角的協同,正是數據團隊的核心價值所在。通過這樣的工作方式,數據團隊不僅幫助業務部門更好地理解用戶行為,還能促進不同業務間的協同合作,從而為企業創造更大的價值。

InfoQ:怎么讓業務策略的反饋和活動效果,或者推薦效果等數據回流到數據體系,繼續驅動下一次的業務活動?

徐小磊:這個可以分為兩類,一種是自動化的,一種是人工的。

自動化的指的是推薦系統本身就具備回流和閉環功能。無論是正向反饋還是負向反饋,都會進入到推薦系統中,作為下一次推薦的權重信號起作用。

人工方面是以人工的形式將這一次的效果作為輸入,影響到下一次策略的制定。首先,你的數據團隊必須擁有較高的地位和影響力;其次,需要上層領導認識到并執行這種數據驅動業務的流程;第三,要求業務團隊在制定策略時必須先考慮數據和客群,這是幾個基本原則。

AIGC 時代的數據團隊如何建設和規劃?

InfoQ:廣發銀行信用卡中心數據權限體系具體是如何劃分的?

徐小磊:主要是根據不同的產品來劃分的,因為數據權限需要與具體的數據產品結合。通常,最常見的數據權限體系是圍繞著 BI 平臺或自助分析平臺展開的。在我們公司,數據權限體系并不復雜,一般是基于部門、職級和角色來確定。但僅僅設立這樣的數據權限體系是沒有意義的,因為它無法實現數字化轉型和數據賦能的目標。因此,我們在建設數據體系時采取了一套傳統的方法,但也結合了數據人才的培養計劃。

舉個例子,我們現在的規范是這樣的:數據全員體系中,每個部門都會有一個數據的種子用戶,他們具備最全面的權限,可以管理和維護部門所使用的所有指標和數據。然后是一般用戶,基本上就是初級和高級分析師,他們擁有不同層級的權限。通過這樣的劃分,我們能夠更好地管理數據權限,確保數據的安全和有效使用。

InfoQ:是否可以展開介紹一下“數據人才培養計劃”?

徐小磊:數據分析師的認證體系和培訓計劃是其中的一部分。首先,我們建立了初級、中級和高級數據分析師的認證體系。

初級數據分析師認證主要通過線上考試進行,每月一次,考生需通過初級認證后才能報名中級數據分析師考試;

中級數據分析師認證,則需要通過在線題庫考試,涉及統計學、業務知識等多個方面,考試需要在電腦前進行;

另外,我們將高級數據分析師分為建模分析師和業務分析師兩個分支。建模分析師負責算法方面的工作,而業務分析師則專注于業務方面的工作。高級數據分析師的評選過程不僅包括筆試,還包括一次重要的面試環節,以篩選出最優秀的人才。

通過初級認證后,數據分析師可以在我們的自助分析平臺和 BI 平臺上查看數據和報表,但若想進行更深入的工作,如自己創建看板或表格,則需通過中級和高級認證。高級認證的通過者將獲得更多權限,可以進行探索性分析、編寫模型,并解決復雜業務需求。

此外,我們還將極客邦的企業培訓產品極客時間納入到我們的培訓計劃中,以建立從 T1 到 T5 的數據分析師的知識能力體系。我們銀行的數據分析師并不完全是專職的數據人員,許多參加數據分析師考試的人員都是業務人員。我認為這一點才是最有價值的。

InfoQ:從從業者的視角來看,一個好的數據科學家 / 數據分析師需要具備哪些核心能力?如何培養和提升?

徐小磊:作為企業的數據部門領導,我在面試和觀察了數百名數據分析師后,總結出企業對數據分析師的能力要求是分層次、分級別、分類別的。以下是我對不同經驗水平數據分析師應具備的能力的概述:

0-3 年經驗的數據分析師:對于初入行業的人,我們最看重的是技術能力,即技術基礎是否牢固。這包括是否熟練掌握常用的數據分析工具,如 SQL、Python、Excel 等。熟練掌握意味著能夠快速理解企業的數據結構,并能迅速實現復雜的業務需求。

3-5 年或 3-7 年經驗的數據分析師:在這個級別,技術能力已經相對成熟,我們會開始考察分析師是否真正理解數據背后的業務含義。在面試中,我會詢問他們關于他們工作中的指標(例如 DAU)并期待他們能深入解釋這個指標的含義和背后的業務邏輯。

5-7 年或 5-10 年經驗的數據分析師:到了這個層次,我們會關注分析師對復雜業務的掌握程度。不同于初級階段的事后分析,高級分析師需要具備預測能力,能夠基于數據預測業務未來的趨勢和風險,幫助企業做出更有針對性的決策。

10 年以上經驗的數據分析師:對于這個級別的分析師,除了技術能力和業務理解,我們更看重的是他們的思考方式和戰略視角。他們應該能夠超越單純的數據分析,從更宏觀的角度審視數據,理解數據對企業戰略的影響,并能夠提出有價值的見解和建議。

InfoQ:如何在工作中成長為高級分析師?

徐小磊:成為高級分析師不僅僅是技能上的提升,更需要改變思維和思考方式。初級和中級的數據分析師通常關注如何正確地執行任務,而高級分析師更注重如何選擇正確的任務。

在轉變中,關鍵是從關注如何把事情做對,轉變為關注為什么要做這件事情。高級分析師更多地思考業務的發展方向,為什么要實施某項分析,以及分析的結果如何影響業務目標。高級分析師不再只是執行者,不再需要親自處理數據和跑數。他們的思考更多集中在業務層面,思考業務的發展趨勢、目標和考核指標,并將這些考慮因素融入到分析中。

我已經工作了 17 年。現在,我更加關注的是為什么要做某項分析,而不是如何做分析。這是成為高級分析師時可能會經歷的轉變。因為到了高級數據分析師的層級,很多一線執行工作不再需要你親自處理。你會更多地思考業務的發展方向,比如今年業務的狀況是怎樣的,明年需要達到什么水平,為什么要做這么多工作,以及為什么要考核特定的指標。重點是將這些指標與業務目標相結合,而不僅僅是關注如何去完成任務。

InfoQ:在 AIGC 時代,數據團隊如何進行規劃?

徐小磊:在 AIGC 或大模型的時代,數據團隊的規劃將會有所不同,主要體現在提升工作效率、價值和深度上。AIGC 被視為一種高效的工具,能夠幫助數據團隊更好地完成工作。

過去,數據團隊的產出很大程度上依賴于對業務的深入理解和多年的經驗積累。這種基于經驗的分析有其優點,比如能夠迅速與業務需求同步,但同時也存在局限,尤其是容易導致團隊陷入業務的慣性思維。數據分析師可能會過于自信地認為事情“應該”是這樣,而實際上這種判斷往往是錯誤的。AIGC 能夠幫助我們彌補知識上的不完整和思維上的慣性,這是其第一個優勢。

第二個優勢是提效。無論個人對工具和數據環境有多熟悉,數據處理和分析始終是一個耗時的過程。人的大腦處理信息的速度有限,而 AIGC 可以幫助我們快速完成任務,我們只需要驗證和挑戰 AIGC 的過程和結果即可。例如,在短文本分類這樣的任務中,AIGC 可以輔助我們處理信息量不足的文本,提高分類的準確性和效率。

在 AIGC 時代,數據團隊的規劃可能在結構上沒有太大的不同,但在工作效率和分析深度上將會有顯著的提升。這意味著數據團隊可以更加高效地利用 AIGC 這樣的先進技術,推動數據分析工作向更深層次發展。

未來的數據體系長什么樣?

InfoQ:過去 10 年大數據的地位一直很高,但除了真正的商業智能和推薦系統外,有沒有看到更多有價值的體系?

徐小磊:首先,我想用一個比喻來說明,20 年前我們常說每個人都是產品經理,但現在是否還是這樣呢?答案是否定的。其次,如果你感覺不到數據的存在,那么它很可能已經完全融入到你的生活中了。你會發現,當一個東西不再引人注目、沒有聲音的時候,它反而成為你工作和生活中不可或缺、潛移默化的一部分。這個事情看起來似乎很突出,但實際上它并沒有真正融入到你的體系中去。

舉個例子,當我加入廣發銀行時,我的團隊只有一個人,我是第二個。我每天都在努力提升存在感,通過發送日報和周報來展現我的工作。為什么會有這種情況呢?因為當時我的數據工作是獨立于業務工作的,是一種平行的工作模式。而現在,幾乎所有的業務都需要通過數據來支持,數據和業務已經成為同一條線上的一個流程。越是缺少數據,反而越能夠體會到數據在工作中的重要性。

InfoQ:展望未來,廣發銀行信用卡中心在數據體系建設、數據資產化應用實踐方面有哪些進一步的計劃?您個人今年的工作重點又是什么?

徐小磊:首先,我給我的團隊定了一個方向,就是與 AIGC 充分融合。我們計劃將大模型融入到我們的工作中,但這是具有挑戰性的。最大的挑戰之一是大模型的私有化部署。由于我們是銀行,不能讓大模型部署到銀行內部,同時還能夠訪問外部數據,因為這會帶來數據泄露的風險。在私有化部署時,我們可能會遇到許多問題,例如智能降級以及不可用的情況。但我們將與系統團隊一起努力克服這些挑戰。

其次,當 AIGC 融入我的數據團隊時,我首先要消除數據團隊的恐慌。他們可能會擔心被 AIGC 取代,我需要改變他們的觀點,并充分利用 AIGC 的優勢。

第三,我們將在業務層面實現一些突破。存量用戶基于現有的分析方法很難找到創新點和突破點,但我堅信任何事情都值得用數據重新分析一遍。在重新分析之前,我們需要保持空杯心態,詢問過去的做法是否仍然適用,如果不適用,我們需要尋找新的方向、新的策略和新的方法。這是我們作為決策部門和業務大腦的責任,需要向業務和領導提供答案。

來源 | InfoQ數字化經緯(ID:infoqdigital)

(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢