日日碰狠狠躁久久躁96avv-97久久超碰国产精品最新-婷婷丁香五月天在线播放,狠狠色噜噜色狠狠狠综合久久 ,爱做久久久久久,高h喷水荡肉爽文np肉色学校

睿治

智能數據治理平臺

睿治作為國內功能最全的數據治理產品之一,入選IDC企業數據治理實施部署指南。同時,在IDC發布的《中國數據治理市場份額》報告中,連續四年蟬聯數據治理解決方案市場份額第一。

文本情感可視分析技術及其在人文領域的應用

時間:2023-02-24來源:無言女瀏覽數:579

情感分析是對信息情感傾向的挖掘,主要用于輿情監測、商品評論分析以及信息檢索等方面。隨著社交媒體的快速發展,文本數據量呈現爆炸性增長,文本情感分析成為自然語言處理領域重要的研究熱點之一。與此同時,由于情感數據具有海量、時變、非結構性、強關聯性的特點,能夠直觀高效地呈現情感傾向的可視分析技術在這個領域得到廣泛應用。回顧了近年來的情感可視分析研究,從表現形式——“主題詞”“關聯”“演變”“時空分布”4個方面闡述文本情感可視分析方法,并對未來情感分析技術及文本情感可視分析研究進行展望。

情感是生物對外界價值關系產生的主觀反應,也是生物智能的重要組成部分。文本情感分析針對以文本信息為代表的模態,通過計算機技術提取其相關情感信息。隨著自然語言處理與數據挖掘等技術的不斷發展,現有技術已能有效獲取文本情感狀態信息。

可視分析技術以圖表為基礎,基于數據的多角度呈現,展現數據的隱藏信息。隨著InfoVis(information visualization)與VA(visual analytics)的不斷發展,情感可視分析近年來已成為熱門的研究主題,也被認為是信息可視化與可視分析的一項重要研究挑戰。

本文調研了近年來文本情感分析方法及文本情感可視分析方面的研究工作,對前沿研究技術與方法進行總結,文本情感可視分析流程如圖1所示。本文對文本數據來源和處理技術進行匯總,根據研究方法將文本情感分析分為3類:基于情感詞典的文本情感分析(SD-sentiment analysis)、基于機器學習的文本情感分析(ML-sentiment analysis)以及引入特殊模型的文本情感分析(SM-sentiment analysis)。接著根據呈現形式將文本情感可視分析分為4類:情感主題詞可視分析、情感關聯可視分析、情感演變可視分析以及情感時空分布可視分析。最后對文本情感分析方法及可視分析方法進行了展望。相較于Kucher K等人對情感可視化的研究綜述,本文首先對現有文本情感分析技術進行了總結;其次根據可視分析呈現形式,按照4個主題進行總結歸類;最后結合相關技術對各主題進行層次性細化闡述。


圖1???文本情感可視分析流程

文本情感分析數據來源主要包含社交網絡、電商評論、新聞評論、書籍文本等。數據預處理技術則主要包括對獲取數據的進行清洗與整理,如分詞(THULAC)、去無用詞(如虛詞、停用詞)、統一數據類別等。

根據分析程度與情感標注數據類別,情感分類任務被劃分為二分類(正面/積極、負面/消極)、三分類(積極、中性、消極)和多分類(高興、激動、悲哀、憤怒等)任務。情感二分類任務和三分類任務主要對情感極性分類,多分類任務則通過語言學理論、心理學理論等對情感進行劃分。ISEAC數據集包含5種情緒分類(憤怒、厭惡、悲傷、恐懼和高興),TEC數據集包含6種情緒分類(憤怒、厭惡、高興、恐懼、驚訝和悲傷)。

情感標記常被用于情感分類的訓練數據中。單標記學習(single learning)將單個情感標簽關聯,如W E C等單標簽數據集應用比較廣泛。但語句信息具有多義性,對于情感標記來說,單標記學習的準確性較低。基于多標記學習的情緒識別模型能有效解決語句多義性問題。但多情緒分析仍存在建模能力較弱、無法對情緒程度進行定量表示等問題。為了有效解決多情緒定量表示的問題,Zhou D Y等人提出基于情感分布學習(emotion distribution learning,EDL)的文本情緒識別方法。受已有標簽情感數據集數量較少的影響,需對數據進行情感標記增強,情感詞典是進行情感分布標記增強的一個重要手段,Zhang Y X等人于2018年提出LLE——基于情感詞典的情感分布標記增強技術。曾雪強等人則針對情感詞典缺乏心理學相關性的問題,引入普魯契克情感輪心理學模型,提出基于情感輪及情感詞典的情感分布標記增強方法,將心理學與語言學結合,有效解決了標注數據不足的問題。

文本情感分析主要以文本數據為基礎,實現對情感信息的探索。通過整理近10年已有的研究(見表1),對比文本情感分析模型的優缺點,探索不同情感分析模型的實驗評估結果,并根據研究方法將文本情感分析方法總結為以下3種:基于情感詞典的文本情感分析、基于機器學習的文本情感分析以及引入特殊模型的文本情感分析。
2.1 基于情感詞典的文本情感分析
情感詞典將數字、文本、符號整合起來,是情感分析系統的知識庫。情感詞典的文本情感分析常指通過情感詞典獲取情感詞的情感值,通過計算判定文本的情感傾向。基于情感詞典的文本情感分析方法包含4個部分:數據獲取、數據預處理、情感詞典的訓練、情感分析結果輸出。根據現有情感詞典進行文本分析,往往因為文本數據靈活性差、文本數據專業性弱等問題影響情感分析的準確度。Zhang S X等人基于情感詞典對微博文本進行情感分析,為了提高情感分析的準確性,結合微博文本數據的特點對傳統的情感詞典進行擴展,構建了6個情感詞典,包含情感、否定詞等方面。在準確率方面,在3類數據集中,本文提出的方法在積極、中性、消極3種情感標簽的準確率均優于其他模型5%以上,中性文本數據的準確率達到74.8%。Rice D R等人則對專業文本數據進行探索,從專業詞匯文本語料庫中創建情感詞典,提高情感詞典,在專業文本情感分析中的有效性,相較于現有情感詞典專業文本情感分析準確性可提高10%。由于不同文本的語言種類不同,對應的情感詞典往往也存在一定差異,小語種文本情感分析研究也在逐漸發展之中。Al-Thubaity A等人基于由現代標準阿拉伯語和沙特阿拉伯方言構成的沙特阿拉伯方言情感詞典,分析推特中與沙特阿拉伯相關的社交媒體數據,并與現有情感詞典ArSenTi進行比較。

基于情感詞典的文本情感分析可以準確反映文本的非結構化特征,可以有針對性地對匹配性較高的文本進行比較準確的情感分析,并且分析速度也比較快。但該方法也存在一些問題:情感詞典包含的極性詞語具有局限性;小語種的情感詞典較少且構建相對困難;對于文本情感屬性上下文關聯性判定較弱。

2.2 基于機器學習的文本情感分析

基于機器學習的文本情感分析通過對帶標簽的數據進行訓練得到情感分析模型,實現文本數據的情感預測。線性分類器模型、神經網絡模型等機器學習模型常被應用于文本情感分析。Samal B R等人對機器學習相關算法進行探究,研究其相關性能,根據收集的5種不同大小的電影評論數據集,對比得到線性支持向量機(support vector machine, SVM)/支持向量機分類器(support vector classification,SVC)情感分類模型性能均優于其他分類器。Nizam H等人將樸素貝葉斯、決策樹等算法應用于推特數據的情感分類,并對各模型的情感分析精度進行了判定與比較,得到序列最小優化(sequental minimal optimization,SMO)算法在該數據集中具有較高的準確率。

隨著神經網絡模型的發展,將其應用于情感分析的模型增多。現在比較常用的有:雙向長短期記憶(bi-directional long short-term memory,BiLSTM)模型、雙向門控循環單元(bi-directional gated recurrent unit,BiGRU)模型等。傳統的將單詞作為特征,對文本的充分利用具有一定的限制性,Li H K等人將詞、語調、字符進行融合,構建WCT-Bi-LSTM模型,有效提高了情感分類效果,同時也對特征提取進行了優化。預訓練模型通過構建動態詞向量模型有效解決了上下文關聯及一詞多義等問題,該模型常與神經網絡模型結合,用于提升情感分析的準確率。

2.3 引入特殊模型的文本情感分析

引入特殊模型的文本情感分析這類方法建立在機器學習算法的基礎上,通過各類特殊模型在情感分析過程中對相關步驟的改善,提高情感分析的準確性。

2.3.1 預訓練模型

以Word2vec、Glove為代表的靜態詞向量模型在不同文本中通常以相同的向量表示相同的詞,靜態詞向量模型無法考慮文本中各詞匯之間的關聯程度,導致文本信息丟失,而動態詞向量模型能有效解決該類問題。BERT (bidirectional encoder representation from transformers)同樣于2018年由谷歌公司提出,是Transformer模型的衍生,能獲取融合上下文信息的雙向語言特征。謝潤忠等人結合BERT預訓練模型、注意力機制以及BiGRU模型,提高了情感特征的提取能力,提升了情感分類模型的性能,在不同實驗數據集中,準確率均超過93%。

遷移學習常指將相關領域的知識及信息遷移至該研究領域進行研究。遷移模型建立在預訓練模型之上,主要針對研究數據較少的領域。基于遷移學習的文本情感分析方法也被用于文學手法的檢測之中。Zhang S W等人將該類方法用于推特等在線文本的反語檢測中,將有限的標簽數據與外部情感語料庫(如情感詞語語料庫和推特情感語料庫)進行整合,通過遷移學習與基于注意力機制的神經網絡模型檢測反語。

2.3.2 注意力機制

注意力機制通過對模型中權重的控制提高情感分析模型的性能。注意力機制也與神經網絡模型進行結合,并通過權重控制提高情感分析的準確率。Wang Y Q等人提出ATAE-LSTM,并用于方面級情感分析,在二分類和三分類任務中準確率均優于LSTM。

Transformer由谷歌機器翻譯團隊于2017年提出,其創新點在于提出多頭注意力(multi-head attention)機制及Transformer模型,多頭注意力機制取代了遞歸層,Transformer模型相較于循環層與卷積層有明顯的性能提高。為了有效解決循環神經網絡(recurrent neural network,RNN)難以并行化的問題, Song Y W等人將多頭自注意力模型應用于面向目標的情感分析,提出了注意力編碼器網絡(attention encoder network, AEN),并用于在上下文和目標信息之間建模。

對情感信息進行分析能判定文本的情感傾向,有效預測社會事件的發展,挖掘文本信息,實現情感的量化。由于情感信息具有海量、非結構、時變等特性,同時情感信息也具有強弱、喜悲之分,為了有效地對情感信息進行界限的劃分,需要對圖形進行恰當的展示。本文匯總了文本情感可視分析方法,并根據表現形式劃分為情感主題詞可視分析、情感關聯可視分析、情感演變可視分析以及情感時空分布可視分析,并對這4種方法的優缺點進行分類闡述,見表2。
3.1 情感主題詞可視分析

文本情感分析技術能有效挖掘文本的情感傾向。以詞為主題的情感主題詞可視分析能有效展現文本情感的強弱變化,將海量的情感信息數據轉化為圖表進行展現,常見的可視分析方法包含詞云圖、星座圖等。

詞云又稱文字云、標簽云,可被用于展現情感信息中的關鍵詞及其重要程度。詞云具有不同的形態,Wang J等人提出使用魚眼詞云(fisheye word cloud)和平行標簽云(parallel tag cloud)展現時間序列中代表情感極性的關鍵詞及對應情感的變化,頂部為最消極詞,底部為最積極詞。為了使詞云更準確、直觀地表達對應的情感信息,Naseem U等人等將詞云的形狀設定為對應的笑臉、苦臉等狀態。對于多標簽多時變信息的數據,靜態詞云顯得雜亂無章,社交媒體中的標簽數據可用于衡量人們情緒的變化,但受其來源的影響,具有海量、異質、時變的特性。基于此,Chen Y提出了基于節點鏈接圖和詞云圖的Tagnet方法,用顏色編碼節點并連線,動態展現標簽的情感模式變化。詞云雖簡單易懂,但各詞之間的關聯性并未展現。STViewer將樹狀圖與詞云結合,既突出情感信息,也展現了詞的層次關聯性。

星座圖被用于展現各個情感網絡,使數據的分類及數據中關鍵詞之間的關聯程度便于理解,如CosMovis使用情感關鍵詞構建聚類網絡,并通過熱力圖編碼其情感極性。

環形圖可通過顏色與面積表示關鍵詞中不同情感信息的占比,如Zhang W等人將環形圖用于詩詞意象的情感分析,并與節點鏈接圖結合,展現宋詞中不同詩詞意象中情感信息的變化。

3.2 情感關聯可視分析

情感數據因時間、主題、來源、社交網絡、文本等信息具有關聯性,情感關聯可視分析能展現情感關聯關系,常見的可視分析方式包括節點鏈接圖、樹圖等。

節點鏈接圖能有效展示網絡關系。節點的顏色常被用于編碼情感關系, Vizcarra J等人以顏色編碼節點展現情感傾向,通過節點鏈接圖展現社交平臺用戶情緒狀態及社交活動,如圖2所示。不同于顏色編碼節點表示節點的情感屬性, SentiView用話題橢圓代表評論主題及情感傾向,用節點代表用戶評論,用邊代表評論之間的關系,積極、消極情感屬性則以小橢圓對節點進行覆蓋,其余部分則代表中性情感,橢圓大小由評論數和參與評論的人數決定。Molla A等人則將情感信息量化以評分表示,圖表中的滑塊決定圖表中的情感分數,顏色編碼情感傾向,作者將代表不同情感的特征詞量化,并構建節點鏈接圖進行可視化展示。節點鏈接圖可用于展現時空信息的變化,Whisper將地圖與節點鏈接圖結合,用于檢測時間的時空擴散模式,以向日葵隱喻信息傳播路徑,顏色編碼評論情緒。節點鏈接圖也可通過邊的顏色變化分析情感狀態的變化, Zhang W等人將宋詞文本的情感劃分為5個類別,將詩詞意象情感與作者進行關聯,通過節點鏈接圖與環形圖的結合,分析每個作者在不同詩詞意象下的情感分布變化及同一詩詞意象中作者分布和對應情感分布。


圖2???節點鏈接圖

樹圖用于展現數據之間的層次及前后情感關聯關系。STViewer將詞云與詞集之間的樹形結構(word tree)結合,單詞大小表示出現頻率,通過連接邊的顏色進行情感傾向的劃分。樹圖可用于展現輿論的擴散路徑,OpinionFlow通過樹圖展現輿論擴散情況,并將其與密度圖進行結合用于展現情感傾向。ConVis則將用戶和話題通過邊進行鏈接,并在鏈接之中以堆疊條形圖展現對話情感狀態。樹狀地圖(tree-maps)由Shneiderman B提出,以空間矩陣地圖的形式展現樹狀結構及其層次關系,Pulse將其應用于汽車評論,不同的汽車品牌下,每個矩形展現其關鍵詞及其對應的用戶評論情感信息。
3.3 情感演變可視分析

情感數據具有伴隨時間變化的特征,情感演變可視分析以時序數據可視分析為代表,展現情感信息隨時間變化情況,揭示重要的序列模式,突出情感變化特征。

情感演變可視分析常以時間軸為基礎,通過時間軸上不同的圖表展現情感信息的變化,按照可視化通道的變化可將其分為線性時間可視分析、周期時間可視分析、日歷時間可視分析。

線性時間可視分析以線性時間軸為基礎,橫軸展現其時間屬性變化,縱軸展現情感信息及主題信息的變化。折線圖、散點圖通過線條(數值)及散點的變化展現時間趨勢中情緒傾向的轉變,但折線圖及散點圖展示信息能力較弱,不能展現相關事件的細節。Lu Y F等人通過氣泡圖中氣泡的顏色編碼情感得分(sentiment score),通過氣泡的大小(bubble size)映射社交評論轉發次數。

主題河流圖(theme river)是一種常見的時序可視分析呈現方式,通過河流的寬度、顏色的差異展現各類主題隨時間變化的發展趨勢與關系變化。情感分析中常用不同顏色編碼各類情緒并映射于河流之中,Brooks M等人通過情緒河流圖展現推特數據,用3種顏色代表3種情緒,展現不同時間包含不同情緒的推特評論數量變化。情緒變化常與文本主題進行關聯, Wang X T等人提出IdeaFlow,不同顏色編碼不同時期各話題之間情感信息的變化,河流的寬度、顏色以及相關標簽展示各主題隨時間的變化。OpinionFlow將流圖與桑基圖結合,用流的變化展現時間遞增中意見擴散的情況,在每條支流中以密度圖的方式展現用戶正/負面的意見情況,每條支流中以堆疊樹圖展現不同層次用戶感興趣的話題情況。StanceVis Prime則以流圖為基礎,在每個時間段加入對應的情感/立場提示標簽,并借助交互手段與條形柱狀圖結合的方式展現不同情感與立場中社交媒體文本變化的情況,如圖3所示。圖3中:a為堆疊圖,表示目標/域組合的文檔計數;b為范圍滑塊,提供完整加載數據集的概述;c為時間步長選擇的指示器;d為一個表示情緒/立場的主觀性提示標簽;e為文檔查詢的時間范圍選擇;f為主觀性線索控制和文檔查詢按鈕;g為情緒數據系列表示;h為立場數據序列表示;i為面板折疊按鈕。

圖3???線性時間可視分析

為了更方便地了解情感趨勢的動態變化,更直觀、具體地展現情緒產生因素、演變過程,Cao N等人提出一種基于DNA的隱喻可視化設計,將不同社會群體情緒演變情況展示為DNA雙股螺旋中的主鏈,關鍵詞框則類似于堿基位于雙螺旋結構的內側,用于展現事件相關背景,該結構能直接展現情緒產生時間、產生原因以及演變情況。以環形模型心理學研究表示情感具有多維性,單維線性情感可視分析方法未能對情感進行全面的分析。Wang F Y等人針對情感的二維性,提出SentiCompass,將時間軸以環形模型進行劃分,在每個環形模型中,橫軸代表情感狀態,縱軸代表情感激活程度,并以折線圖展示不同情感狀態中的情感激活程度。

周期時間可視分析將時間軸以環形呈現,展現其周期性及多屬性在該周期內的變化趨勢。不同于線性時間軸展現環形結構的方式,徑向圖環形結構中的橫軸代表時間,展現周期內各類情感趨勢的變化。OpinionSeer將散點圖及徑向圖結合,并將其應用在情感分析中,以徑向圖展現周期內用戶數量的變化,并通過散點圖展現不同年齡層次中用戶的情感傾向。Watson K等人用環形時間軸隱喻電影的時長,通過各同心圓上不同位置的顏色變化編碼人物在不同場景中的情感狀態,以《戀夏500天》(the 500 Days of Summer)為例,如圖4所示。

圖4???《戀夏500天》周期時間可視分析

日歷時間可視分析將時序數據以二維圖表按日歷的模型進行展示。日歷圖能直觀地比較各時間段數據之間的變化情況。例如像素地圖日歷將文獻指紋與日歷可視化結合。

3.4 情感時空分布可視分析

情感信息往往與地理、時間、文本內容等各類信息關聯,要展現時空特性,情感分析需感知地理信息、時空信息等,故文本情感可視分析常與時空分布關聯。

情感時空分布可視分析主要以地圖可視化為主要呈現方式。地圖可用于展現空間分布特征,輔以一定的交互技術,地圖可展現信息的地理分布、信息的時空擴散模式、信息的傳播規律。

分布點地圖(dot map)指在地圖上通過標記及改變標記視覺變量形成的地圖。分布點地圖將關聯地理信息的情感數據以點表示,通過顏色編碼地圖中的點用于展現情緒傾向,從而觀察區域輿論/評論情感的變化與信息的擴散情況。Hao M C等人在基于分布點地圖的基礎上引入關鍵詞,分布點地圖改進使用了像素地圖,有效解決了高密度地區點遮擋的問題。關鍵術語地圖則將該區域的關鍵詞與情感進行關聯,關鍵詞大小代表該地區的意義值,顏色則被用來編碼情感傾向,通過此地圖能有效分析地圖中不同位置的情感變化和代表性關鍵詞。地圖也便于進行多層次信息展示,Zhang C H等人將地圖與社交網絡結合,為了避免地理信息造成節點鏈接圖的布局混亂,作者將城市作為一個節點,通過各節點之間的網絡表達信息傳播關系,各個城市節點也通過顏色的變化來展現情感的變化,該圖表能有效展現城市之間信息傳播和不同城市的情感變化。

聚類點地圖建立在分布點地圖之上,有效解決了數據量較大、信息在分布點地圖難以展現等問題。聚類點地圖常用點的大小展現聚類情況,用點的中心位置表示地理信息。Murthy J S等人用點定位推文來源地區,用點的大小代表該地區對應的推文數量,用點的顏色代表情感極性,以分析不同地點中推文數量和情感變化情況。不同于以原點為聚類中心,推特情感圖譜在地圖中繪制堆積多邊形來表示推文的空間聚類結果,多邊形不同顏色的邊代表不同的情緒分類,不同時間下多邊形的變化代表情緒聚類的遷移,該圖表可被用于展現推文情感空間聚類情況和遷移變化情況。與平面圖形不同,聚類點地圖也常與3D可視化圖表結合,通過多維度的可視化展現情感信息。Apollo將地圖與3D柱狀圖結合,多層次分析不同地點下推文情感的分布和情感分數的變化。

區域地圖則是對某個區塊進行劃分,以該區域的顏色及大小的差異展現情緒的變化。Yaqub U等人將區域按照行政區域劃分,并結合顏色的變化表示同一主題在不同區域社交評論中情感信息的差異。由于情感分析常涉及多個因素,因此各因素在可視化圖表中的呈現將會影響視圖效果。例如,Kuang C等人對顏色編碼情緒進行改進,在地圖中,顏色編碼代表各地區微博帖子數量,而各區域內的微博評論情感傾向則以各區域的紋理進行展現,正面情緒用圓點進行展示,負面情緒則用橫線進行展示,通過不同類型的情感表示方式分析不同區域內情感的主題變化情況。

本文總結了文本情感分析的數據來源、預處理、基本分類以及情感標記方法,歸納了文本情感分析技術,并對近年來文本情感可視分析方法進行了梳理。面對文本數據及多模態信息數據的持續衍生,文本情感可視分析依舊存在諸多的挑戰與機遇,具體如下。

一是可視分析輔助自適應的選擇與優化情感分析模型研究。可視分析方法在機器學習領域得到廣泛的應用,可用于輔助模型的研究,包括模型的選擇與對比、模型工作過程的展現等,有效提高了數據分析能力,增強了優化模型的效果。現有情感分析模型數量眾多、結構復雜、參數眾多,難以高效地實現模型的優化、選擇以及理解等。可視分析輔助自適應的選擇與優化情感分析模型將是未來的可視分析研究趨勢之一。

二是多模態情感可視分析研究。當前情感可視分析研究主要對文字進行研究,但文字信息不夠充分。隨著可用的視頻、圖像資源不斷增加,未來情感分析研究將集中于多模態情感分析研究。多模態情感分析即通過文本、圖像、視頻、語音等方面的結合實現情感信息提取,多模態情感可視分析也是情感可視分析領域的研究熱點之一。如何將文本、語音等多種模態的情感信息進行融合,基于不同的權重分布有效展現情感的變化,通過可視分析圖表多層次且更有效地展現多模態情感信息內容以及將可視分析技術應用于多模態情感分析方法的研究,需要進一步深入的研究與探索。

三是情感分布的不確定性及可視分析研究。目前進行情感可視分析研究是面向極性或者確定個數的情感標簽的,但是有些時候情感并不是非此即彼。隨著情感分析數據內容和來源的多元化,特別是面對具有多關聯關系、海量的文本數據且存在情感模糊性的情感分析任務解讀時,設計一種有效的情感可視分析方法仍有挑戰,是未來的研究熱點。


(部分內容來源網絡,如有侵權請聯系刪除)
立即申請數據分析/數據治理產品免費試用 我要試用
customer

在線咨詢

在線咨詢

點擊進入在線咨詢