多標籤分類方法應用於PTT資料__臺灣博碩士論文知識加值系統

文章推薦指數: 80 %
投票人數:10人

研究生: 黃冠傑 ; 研究生(外文):, Kuan-Chieh Huang ; 論文名稱: 多標籤分類方法應用於PTT資料 ; 論文名稱(外文):, Multi-label classification methods applied to PTT data. 資料載入處理中... 跳到主要內容 臺灣博碩士論文加值系統 ::: 網站導覽| 首頁| 關於本站| 聯絡我們| 國圖首頁| 常見問題| 操作說明 English |FB專頁 |Mobile 免費會員 登入| 註冊 功能切換導覽列 (178.128.63.162)您好!臺灣時間:2022/09/1323:25 字體大小:       ::: 詳目顯示 recordfocus 第1筆/ 共1筆  /1頁 論文基本資料 摘要 外文摘要 目次 參考文獻 紙本論文 QRCode 本論文永久網址: 複製永久網址Twitter研究生:黃冠傑研究生(外文):Kuan-ChiehHuang論文名稱:多標籤分類方法應用於PTT資料論文名稱(外文):Multi-labelclassificationmethodsappliedtoPTTdata指導教授:陳景祥指導教授(外文):Ching-HsiangChen口試委員:陳麗菁、吳牧恩口試日期:2019-07-01學位類別:碩士校院名稱:淡江大學系所名稱:統計學系應用統計學碩士班學門:數學及統計學門學類:統計學類論文種類:學術論文論文出版年:2019畢業學年度:107語文別:中文論文頁數:41中文關鍵詞:多標籤分類、問題轉換、類神經網路、TF-IDF、機率預測外文關鍵詞:Multi-labelclassification、problemtransformation、neuralnetwork、TF-IDF、probabilisticprediction相關次數: 被引用:2點閱:134評分:下載:0書目收藏:1 隨著社群網路的普及,越來越多人於網路上發表文章來闡述自己的想法,其中PTT也是一大熱門的論壇,形成許多獨特的網路流行文化。

在文章分析中,文章分類是很常見的議題,但是一篇文章可能不只有一個標籤屬性,而是多標籤的範疇。

本篇研究使用多標籤方法為問題轉換的方法,將多標籤分類轉換為單標籤分類後搭配傳統的分類器進行分類,並加入類神經網路來比較。

另外,過去的研究也認為考慮標籤與標籤間的關係能有效提升分類效果,故本篇論文中也使用Copy轉換並以機率的方式進行標籤預測。

本篇研究使用PTT論壇電影版的文章資料進行多標籤分類,並使用三種轉換方法搭配分類器,加上另外使用機率預測的方式共八種方法,最後採用六種評估指標衡量各個方法的分類效果。

Withthepopularityofthesocialnetwork,moreandmorepeoplepublisharticlestoexpresstheiropinionsontheinternetforumplatforms.Amongthem,PTTisapopularforumatTaiwan,formingauniquenetworkculture.Generally,documentclassificationisaquitecommonbranchintextanalysis.However,somearticlesmayhavemulti-labelcategory.Themulti-labelmethodusedinthispaperistheproblemtransformation,whichconvertsmulti-labelclassificationintoasingle-labelclassificationalgorithm.Inaddition,wealsoadoptneuralnetworkclassificationandcompareitwiththeothermethods.Ontheotherhand,itisgenerallyconsideredthattheinformationofrelationshipamonglabelscaneffectivelyimprovetheclassificationperformance.Inthispaper,weadoptthecopytransformationanduseposteriorprobabilitiestopredictthelabels.Eightcombinationsofalgorithmsareusedformulti-labelclassificationtoclassifythePTTmoviedataandsixevaluationmetricsareadoptedtomeasuretheperformanceofallclassificationmethods. 目錄第壹章、緒論1第一節研究背景1第二節研究動機與目的2第三節論文架構3第貳章、文獻探討4第一節多標籤分類方法41.二元關聯轉換法(BinaryRelevance,BR)42.標籤冪集轉換法(LabelPowerset,LP)43.隨機標籤轉換法(Randomk-labelsets,RAkEL)5第二節分類方法61.支持向量機(SupportVectorMachine,SVM)62.隨機森林(RandomForest,RF)93.類神經網路(NeuralNetwork,NN)11第三節評估指標131.Example-based132.Label-based14第參章、研究方法15第一節方法與架構15第二節文字處理161.斷詞162.文字量化17第三節多標籤方法181.傳統多標籤方法與結合類神經網路182.複製轉換法(Copytransformation)搭配機率預測19第肆章、實例分析與比較21第一節資料來源與處理21第二節資料描述22第三節分析結果241.標籤間關係的探討242.RAkEL參數設定253.分析方法的比較31第伍章、結論與建議34第一節結論34第二節建議35參考文獻36附錄38圖目錄圖1研究流程圖3圖2以四個標籤為例,(1)BR轉換法(2)LP轉換法5圖3SVM多分類的一對一流程圖,以四類為例8圖4隨機森林(RF)流程圖9圖5類神經網路結構圖(隱藏層數為2)11圖6以四個標籤為例的COPY轉換法19圖7標籤個數長條圖23圖8不同評估方法下多標籤方法的分類效果比較31圖9多標籤方法於各評估指標表現的折線32表目錄表1電影資料集描述22表2電影資料集中各標籤總筆數22表3以條件機率表示標籤間的關係(列為條件,欄為給定條件下發生的事件)26表4電影資料集中使用Copy轉換搭配SVM分類器以機率預測的方法與其他常用的多標籤分類器結果比較31表5比較在不同詞集數下使用Copy轉換法以機率預測標籤的方法的分類表現33表6RAkEL+SVM中k=2到15的分類方法表現38表7給定權重w1、w2分別0.75與0.25下的成本函數39表8給定權重w1、w2分別0.7與0.3下的成本函數40表9給定權重w1、w2分別0.65與0.35下的成本函數41 Boser,B.E.,Guyon,I.M.,Vapnik,V.N.,1992.Atrainingalgorithmforoptimalmarginclassifiers,COLT''92ProceedingsofthefifthannualworkshoponComputationallearningtheory,144-152.Breiman,L.,2001.RandomForests,MachineLearning,45(1),5-32.He,H.,Xia,R.,2018.JointBinaryNeuralNetworkforMulti-labelLearningwithApplicationstoEmotionClassification,LectureNotesinComputerScience,11108,250-259.Probst,P.,Au,Q.,Casalicchio,G.,Stachl,C.,Bischl,B.,2017.MultilabelclassificationwithRpackagemlr,RJournal,9(1),352-369.Ren,F.,Sohrab,M.G.,2013.Class-indexing-basedtermweightingforautomatictextclassification,InformationSciences,236,109-125.Rivolli,A.,DeCarvalho,A.C.P.L.F.,2018.TheutimlPackage:Multi-labelClassificationinR,RJournal,10(2),24-37.URLhttps://journal.r-project.org/archive/2018/RJ-2018-041/index.html.Tsoumakas,G.,Katakis,I.,Vlahavas,I.,2011.Randomk-labelsetsformultilabelclassification,IEEETransactionsonKnowledgeandDataEngineering,23(7),1079-1089.Wang,S.,Wang,J.,Wang,Z.,Ji,Q.,2014.Enhancingmulti-labelclassificationbymodelingdependenciesamonglabels,PatternRecognition,47(10),3405-3413.Zhang,M.-L.,Zhou,Z.-H.,2013.Areviewonmulti-labellearningalgorithms,IEEETransactionsonKnowledgeandDataEngineering,26(8),1819-1837.吳登揚,2017。

基於不同主題的中文情感分析技術比較,淡江大學統計學系應用統計學碩士班碩士論文。

沈彥廷,2012。

資料複雜度指標對資料探勘分類技術的影響,淡江大學統計學系應用統計學碩士班碩士論文。

 國圖紙本論文 推文 網路書籤 推薦 評分 引用網址 轉寄                                                                                                                                                                                                                    top 相關論文 相關期刊 熱門點閱論文 1. 資料複雜度指標對資料探勘分類技術的影響 2. 基於不同主題的中文情感分析比較 3. 客戶對商品提問之多重標籤辨識-以網路拍賣網為例 4. 本體論為基之智慧型專利文件分類方法論研究 5. 以深層類神經網路標記中文階層式多標籤語意概念 6. 使用跨語言詞向量擴增廣義知網   無相關期刊   1. 在PTT平台上比較以分群為主的議題偵測方法 2. 中文降維正負評情感分析方法應用於PTT資料 3. 可解釋的多標籤分類學習 4. 文本探勘與情緒分析於產品推薦之應用-以PTT電影版為例 5. 應用PTT論壇文字探勘與情感分析探討政府政策推行之研究:以勞基法為例 6. ICD-10疾病編碼輔助系統:基於多標籤分類的處方藥物資訊 7. 結合群集合成技術恢復訓練標籤以強化半監督式多標籤分類 8. 中文情感分析應用於PTT之研究 9. 探究教學於國小生活課程繪畫教學之行動研究 10. 傳統財經指標與深度學習模型於股價預測上之方法比較 11. 應用混合多準則決策方法建構中華職棒大聯盟球員薪資預測模式之研究 12. 招募資訊內容與應徵者對工作認知的關係 13. 經理人對企業管理學術研究的認知與應用 14. 最佳化可調式射頻能量擷取與低功耗穩壓電路設計 15. 太陽能及溫差發電系統研製     簡易查詢 | 進階查詢 | 熱門排行 | 我的研究室



請為這篇文章評分?