- 產品
- 產品解決方案
- 行業解決方案
- 案例
- 數據資產入表
- 賦能中心
- 伙伴
- 關于
時間:2022-06-07來源:請摘星星給莪瀏覽數:389次
在2022中國國際軟件發展大會暨第五屆中國軟件產業年會CIO高峰論壇上,北京航空航天大學國家科技資源共享服務工程技術研究中心副主任、寧波優策信息技術有限公司創始人王建平教授為大家分享,如何利用原創算法實現海量數據的自動清洗和自動標注,打通數據處理的最后一公里;如何以云模式,為用戶構建各類大數據平臺,實時賦能數據、賦能算法和搜索引擎等技術,降低用戶的技術門檻,降低系統的建設運維成本。
我們先來看看看幾個案例。
第一個案例,這是一家國內最大的IT、最大的云廠商之一(出于尊重,廠商的名字隱去),承建的一個產業公共服務平臺,這是產業政策模塊、這是行業資訊模塊,前臺只分別展示幾十條過時的產業政策、行業資訊的數據。實際上,后臺用了爬蟲抓取了大量的政策數據,因為最后一步需要人工維護,項目還沒有驗收,已經成為僵尸網站、僵尸平臺。
第二個案例,是另外一個國家產業公共服務平臺(出于尊重,平臺的名稱隱去),這是政策模塊、這是行業資訊模塊。同樣,后臺爬蟲抓來幾千萬條數據,因為需要人工清洗、審核,前臺只有幾百條過時的數據。
第三個案例,這是我國最大的IT行業組織的官網,同樣有產業政策、產業資訊欄目,可以看到,2019年只有幾條數據,2020年只有1、2條數據,以后再沒有數據更新,也是因為需要人工審核、人工維護。
第四個案例,這是國內一家搜索引擎大廠(同樣出于尊重,公司的名稱隱去)的一個數據標注基地,有一項工作叫標注員,這是打標簽的情景。
大家看到,這些平臺、網站使用了爬蟲,但是抓來的數據需要人工清洗、人工標注、人工審核,所以國內互聯網上,政府、園區、協會、公共服務平臺、企業的網站、APP、小程序出現了大量的僵尸。可見,數據的最后一公里遠遠沒有走通,即使國內互聯網大廠、IT大廠也沒有走通。
數據處理要遵循以下原則。第一,數據處理的準確性。清洗、標注準確是實用的前提;第二,數據處理的及時性。數據要能夠實時抓取、自動清洗、自動標記;第三,數據處理的經濟性。比如海量數據處理的人工處理的成本問題,數千萬網站獨立維護的社會成本和規模經濟問題;第四,數據應用的先進性。采用新的技術架構支持新的應用場景;采用算法、智能搜索引擎等技術;第五,數據處理的自適應性。數據標注的規則改變了系統能自適應,能夠滿足新增規則的需求,擺脫對大樣本素材的依賴。
數據的智能處理、人工智能技術的實現,要解決三大技術難題。第一,精確樣本素材來源問題。機器學習、深度學習、自然語義技術,標注精確的大樣本、大素材哪里來?第二,規則適應問題。數據標注規則變了怎么辦,基于新規則的大樣本素材哪里來?第三,各類非結構化、異構數據的融合處理問題。
海量文本數據處理的現狀十分尷尬。目前,許多人工智能的應用場景,實際上后臺人工處理、前臺智能呈現。但是,借助爬蟲自動采集容易,爬蟲抓來的還是一堆垃圾信息,人工處理,技術上不可取、經濟上不成本。以文本數據處理為例,因為沒能解決數據處理的最后一公里,數據庫處理、網站、APP、小程序的數據維護出現大問題,形成一堆僵尸數據、僵尸網站。
那么,海量文本數據處理的解決之道在哪?出路在于要形成一套原創算法,能夠對數據進行100%的自動處理,準確率達到實用程度,比如95%以上,甚至更高。出路在于能夠基于云計算架構,為用戶構建大數據平臺,實時賦能數據,賦能算法、搜素引擎等技術,降低用戶的技術門檻、維護成本。
實現數據智能高效處理
寧波優策信息技術有限公司、北京國信利斯特有限公司是兩個小創企業,依托北航的技術、人才,從事大數據、人工智能的算法、架構研究。其中,寧波優策主要側重產業政策、產業資訊大數據平臺開發,國信科技專注于產業人才大數據開發,基于國內最先進的算法和架構,解決數據處理的最后一公里。
這是我們目前的4+3產品體系,四個獨立平臺,產業政策、產業資訊、產業人才以及匯聚服務機構、服務產品和服務需求的專業服務大數據平臺(這是匯聚專業服務機構、專業服務產品、專業服務需求的產業公共服務資源池),四個產品通過不同的組合,可以形成的產業公共服務生態平臺、產業大數據平臺、全棧建官網三大體系化產品。

4+3產品體系全部可以云模式為用戶搭建各類應用,用戶通過簡單的參數設置,定制自己的行業、區域和主題類等不同平臺。當然,目前我們也為工信部、農業部等單位的大數據平臺,提供數據支持、提供算法支持。
下面,我們著重介紹幾個大數據平臺。
第一、產業政策大數據平臺
這是國內架構、算法最先進、數據量大的產業政策大數據平臺,監控源20000,數據總量1450萬。平臺可以實現垂直搜索、精準搜索、個性推送等功能,平臺可以基于算法和規則;通過算法實現數據源定制,自動形成產業政策專題。
目前,國內所有政策資訊專業網站數據量只有幾萬、幾十萬,其原因是沒有走通政策數據處理的最后一公里,即使借助了爬蟲,最后都需要人工審核、維護。而國內部分上市公司基于NLP、深度學習等技術開發的應用平臺,遠未到實用的程度。

技術路線的實現上,平臺通過爬蟲技術,抓取各個中央部委、省市區縣各個政策部門的政策,采用獨有的原創算法,100%實現機器對政策的自動清洗,剔除非產業政策類信息(比如民生、社會治理等信息),100%實現機器對政策分類(通知、文件、公示、要聞、解讀)、技術領域、技術專題、政策部門、政策區域等產業政策各類屬性的自動標記。數據處理的準確率在95%以上,真正做到讓機器讀懂政策,打通政策數據處理最后一公里。
關于技術路線,想特別說明一下,這是一個零代碼為用戶定制平臺的平臺,政策分類、技術領域、政策區域、搜索引擎功能都是松耦合、可解耦的,面向用戶定制應用的時候,模塊、功能可以任意疊加取舍、重新構建。例如平臺可以解耦技術領域,定制用戶可任意定制不同的細分技術領域,而這些技術領域我們大平臺并沒有,上市公司賽迪顧問的官網、APP覆蓋的是全國所有技術領域,而賽迪顧問為用戶定制了數字經濟、集成電路、鋰電池等不同技術領域、技術行業的平臺,這些技術領域是我們為賽迪顧問定制的。
應用模式是平臺一個重大創新,目前國內沒有這樣類似的應用場景。在云架構支持下,用戶可以通過簡單的參數設置,以云模式獨立定制自己的區域、行業、主題類的產業政策大數據平臺,賦能實時數據,賦能原創算法、搜索引擎等核心技術。用戶網站和平臺的網址、LOGO、名稱、ICP備案都是自己的,但是數據、算法、搜索引擎,是我們的數據中臺、技術中臺以云模式提供支持。

第二、產業資訊大數據平臺
這是國內唯一的產業資訊垂直搜素引擎,架構、算法最先進,監控源500+,數據300萬+,與產業政策大數據平臺不同,數據源來自綜合門戶網站和行業類專業網站。百度、谷歌是綜合搜素引擎,2C和2B混合的,我們是垂直搜索引擎,面向產業用戶的。這是一個引擎的引擎、平臺的平臺,基于我們的引擎,可以為用戶定制各類自己的產業資訊垂直搜素引擎。這樣的架構、應用,目前的搜素引擎是不支持的。
技術路線上,也是采用一套原創的核心算法,對數據進行自動清洗,剔除非產業資訊類數據,100%實現了機器對產業資訊各類屬性的自動標記,打通數據處理的最后一公里。系統功能上,實現垂直搜索、精準搜索、個性推送;并可通過算法實現數據源定制,自動形成產業資訊專題。
應用模式同樣是該平臺一個重大創新,目前國內搜素引擎還沒有這樣類似的應用場景。這是一個定制引擎的引擎,用戶通過簡單的參數設置,以云模式獨立定制自己的行業、主題類的產業資訊大數據平臺,賦能實時數據,賦能原創算法、搜索引擎等核心技術。
第三、產業人才大數據平臺

這是國內算法最先進、數據最全、精度最高的產業人才大數據平臺,利用自主算法,匯聚了全國大專院校、科研院所、高新技術企業中1000萬+高新技術人才;國外2000萬+外國專家,65萬的華人學者;大約2.5億的論文數據,國內專利庫1800萬專利數據,還有各類政府的項目數據150萬。同時,以人才為核心,構建人才鏈、創新鏈、產業鏈、政策鏈互相融合的產業全景畫像。
系統架構上同樣具有重大創新,該平臺基于云架構,可以云模式為用戶搭建不同區域、不同技術領域的產業人才大數據平臺。
案例一:中國軟件政策大數據平臺和中國軟件資訊大數據平臺

以云模式,為中國軟件行業協會定制了中國軟件政策大數據平臺和中國軟件資訊大數據平臺,當天定制、當天部署。平臺能夠實時賦能數據,賦能搜索引擎;基于軟件的行業特定,定制了人工智能、工業軟件、大數據、區塊鏈等各類專題。同時,我們的平臺為協會官網的主頁,定制了產業資訊、政策要聞滾動欄。兩大平臺與要聞滾動欄,全部實現機器自動維護,免除人工處理。
案例二:國家(寧波)工業互聯網公共服務生態平臺
這是2020年工信部、財政部工業互聯網創新工程項目,作為寧波工業互聯網平臺應用創新推廣中心的總體設計單位,我們在國內第一次提出了產業公共服務生態服務、產業公共服務生態平臺的理念,先進的理念、架構、平臺和模式,在寧波市工業互聯網公共服務線上線下平臺率先實踐。
我們為寧波工業互聯網公共服務生態平臺,定制專業服務模塊,以云模式定制產業政策、產業資訊兩大子系統,賦能實時數據,賦能原創算法、搜索引擎等核心技術。以云模式,為平臺官網主頁定制了產業政策、產業資訊的新聞滾動頁。

案例三:寧波市政府
為寧波市經信局定制推送全國產業政策大數據平臺,第三方廠商簡單定制,一周內部署,賦能實時數據,賦能原創算法、搜索引擎等核心技術。

案例四:中國電子信息產業發展研究院
以云模式,提供產業政策大數據平臺,構建中國電子信息產業研究院政策大數據平臺,嵌入中國電子信息產業發展研究院內網,服務于全院數千高端研究人員。

案例五:賽迪顧問股份有限公司官網和APP
賽迪顧問股份有限公司(HK02176),以云定制模式,提供企業官網、企業APP的產業政策大數據平臺定制服務,賦能1500萬+產業數據、賦能搜素引擎技術。

案例六:北京軟件和信息服務業協會
以云模式,為北京軟件和信息服務業協會官網以及協會運維的國家公共服務平臺(軟件無限)構建北京軟件產業政策大數據平臺。

案例七:中國數字經濟發展指數(德陽指數)平臺
以云模式,為賽迪顧問股份有限公司(HK02176打造的中國數字經濟發展指數(德陽指數)平臺,提供數字經濟領域的產業政策、行業資訊模塊信息推送。

案例八:中電光谷聯合控股有限公司
中電光谷聯合控股有限公司(00798.HK)是中國電子體系企業,香港上市公司,全國有近80個產業園區,以開放API模式,提供數據中臺、技術中臺支持。

案例九:溫州瑞安市人才地圖系統
與瑞安市合作定制“瑞安市人才地圖系統”,幫助政府分析當地產業、人才現狀與布局,助力區域產業發展優勢識別與策略制定。

案例十:寧波市產業人才大腦新材云創
為寧波市“產業人才大腦新材云創”,提供專家人才數據和算法服務。

依托北京航空航天大學的研究開發能力和人才資源的支持,寧波優策信息技術有限公司、北京國信利斯特有限公司兩家高新技術企業,開發了一套原創算法,解決產業政策、產業資訊、產業人才的數據的最后一公里;我們以云模式,為政府、產業園區、孵化器、事業單位、研機構、科技企業定制區域、行業、主題類大數據平臺,實時賦能數據,賦能算法和搜索引擎等技術。
感謝大家聆聽,歡迎批評指正,謝謝。