Airiti Library華藝線上圖書館_影片標題產生與問答

文章推薦指數: 80 %
投票人數:10人

雖然自動產生影片標題是非常有用的任務,但它相對於影片字幕處理的較少。

... 首先,我們利用精彩片段偵測器讓影片標題產生器敏感於精彩片段,我們的方法能夠訓練一個 ... 隨時查.隨時看,你的隨身圖書館已上線! 立即使用 DOI 是數位物件識別碼 ( D igital O bject I dentifier ) 的簡稱, 為物件在網路上的唯一識別碼,可用於永久連結並引用目標物件。

使用DOI作為永久連結 每個DOI號前面加上 「 http://dx.doi.org/ 」 便成為永久網址。

如以DOI號為 10.5297/ser.1201.002 的文獻為例,此文獻的永久連結便是: http://dx.doi.org/ 10.5297/ser.1201.002 。

日後不論出版單位如何更動此文獻位置,永久連結所指向的位置皆會即時更新,不再錯失重要的研究。

引用含有DOI的文獻 有DOI的文獻在引用時皆應同時引用DOI。

若使用APA、Chicago以外未規範DOI的引用格式,可引用DOI永久連結。

DOI可強化引用精確性、增強學術圈連結,並給予使用者跨平台的良好使用經驗,目前在全世界已有超過五千萬個物件申請DOI。

如想對DOI的使用與概念有進一步了解,請參考 華藝DOI註冊中心 ( doi.airiti.com ) 。

來源資料 清華大學電機工程學系所學位論文 碩士班/2017年 基於對抗式訓練生成跨域影像描述 幀率與定位之最佳化實現每秒20幀之視覺影像即時定位與地圖構建 在部分嚮應訊號下的一種應用於正交分頻多工調變系統的超取樣接收器 應用於頻率選擇性衰退通道之線性調變的時間空間碼設計 快閃記憶體轉換層高速模擬器之開發及運用 具備負載適應力之高能量效益雙相指數波形電流刺激器 用於即時交通標誌辨識的高資源效能之硬體實作 應用於GPU之蝶形演算法資料排列 克里斯託費爾共軛分解之觀察 應用於DNA感測之積體電路系統設計 電機資訊學院 > 電機工程學系所 工程學 > 電機工程 書目管理工具 書目匯出 加入收藏 加入購物車 E-mail給朋友 列印書目 相關連結 問題回報 購買單篇 全文下載 影片標題產生與問答 VideotitlingandQuestion-Answering 曾國豪 ,碩士  指導教授:孫民   英文 電腦視覺;深度學習;遞迴式神經網路;影片;標題;問答;CV;DL;RNN;Video;Title;Question-Answering 分享到 摘要 │ 參考文獻 (69) │ 文章國際計量 摘要 〈TOP〉 影片標題和問答是高階視覺數據理解的兩個重要任務。

為了解決這兩個任務,我們提出了一個大規模的數據集,並在這個工作中展示了對於這個數據集的幾個模型。

一個好的影片標題緊密地描述了最突出的事件,並捕獲觀眾的注意力。

相反的,影片字幕產生傾向於產生描述整個影片的句子。

雖然自動產生影片標題是非常有用的任務,但它相對於影片字幕處理的較少。

我們首次提出用兩種方法將最優秀的影片標題產生器擴展到這項新任務來解決影片標題生成的問題。

首先,我們利用精彩片段偵測器讓影片標題產生器敏感於精彩片段,我們的方法能夠訓練一個模型讓它能夠允許同時處理影片標題產生以及影片精彩片段的時間。

第二,我們引入高多樣性的句子在影片標題產生器中,使得所產生的標題也是多樣化和引人入勝的。

這意味著我們需要大量的句子來學習標題的句子結構。

因此,我們提出一種新穎的句子增加方法來訓練標題產生器,利用的是只有句子而沒有相應的影片例子。

另一方面,對於影片問答任務,我們提出一個深的模型來回答對於影片上下文的自由形式自然語言問題,我們自動的從網路上收集大量的免費影片以及其描述,因此,大量的問答配對候選就自動的產生而不需要人工標註。

接著,我們使用這些問答配對候選來訓練多個由MN、VQA、SA以及SS延伸的影片為主的問答方法,為了要處理非完美的問答配對候選,我們提出了一個自主學習的學習程序迭代地識別它們並減輕其對培訓的影響,為了展示我們的想法,我們收集了18100部的野外大型影片字幕(VTW)數據集,自動抓取用戶生成的影片和標題。

我們接著利用一個自動的問答生成器來生成多個問答配對來訓練並從AmazonMechanicalTurk上收集人為產生的問答配對。

在VTW上,我們的方法能持續的提高標題預測精度,並實現了自動化的最佳性能和人類評價,我們的句子增加方法也勝過M-VAD數據集的基準。

最後,結果顯示我們的自學習程序是有效的,而擴展SS模型也優於各種基準模型。

並列摘要 〈TOP〉 Videotitlingandquestionansweringaretwoimportanttaskstowardhigh-levelvisualdataunderstanding.Toaddressthosetwotasks,weproposealarge-scaledatasetanddemonstrateseveralmodelsonsuchdatasetinthiswork.Agreatvideotitledescribesthemostsalienteventcompactlyandcapturestheviewer'sattention.Incontrast,videocaptioningtendstogeneratesentencesthatdescribethevideoasawhole.Althoughgeneratingavideotitleautomaticallyisaveryusefultask,itismuchlessaddressedthanvideocaptioning.Weaddressvideotitlegenerationforthefirsttimebyproposingtwomethodsthatextendstate-of-the-artvideocaptionerstothisnewtask.First,wemakevideocaptionershighlightsensitivebyprimingthemwithahighlightdetector.Ourframeworkallowsforjointlytrainingamodelfortitlegenerationandvideohighlightlocalization.Second,weinducehighsentencediversityinvideocaptioners,sothatthegeneratedtitlesarealsodiverseandcatchy.Thismeansthatalargenumberofsentencesmightberequiredtolearnthesentencestructureoftitles.Hence,weproposeanovelsentenceaugmentationmethodtotrainacaptionerwithadditionalsentence-onlyexamplesthatcomewithoutcorrespondingvideos.Ontheotherhand,forvideoquestion-answeringtask:weproposetolearnadeepmodeltoanswerafree-formnaturallanguagequestionabout thecontentsofavideo.Wemakeaprogramautomaticallyharvestsalargenumberofvideosanddescriptionsfreelyavailableonline. Then,alargenumberofcandidateQApairsareautomaticallygeneratedfromdescriptionsratherthanmanuallyannotated.Next,weusethesecandidateQApairstotrainanumberofvideo-basedQAmethodsextendedfromMN,VQA,SA,andSS.Inordertohandlenon-perfectcandidateQApairs,weproposeaself-pacedlearningproceduretoiterativelyidentifythemandmitigatetheireffectsintraining.Todemonstrateouridea,wecollectedalarge-scaleVideoTitlesintheWild(VTW)datasetof$18100$automaticallycrawleduser-generatedvideosandtitles.WethenutilizeanautomaticQAgeneratortogeneratealargenumberofQApairsfortrainingandcollectthemanuallygeneratedQApairsfromAmazonMechanicalTurk.OnVTW,ourmethodsconsistentlyimprovetitlepredictionaccuracy,andachievethebestperformanceinbothautomaticandhumanevaluation.Next,oursentenceaugmentationmethodalsooutperformsthebaselinesontheM-VADdataset.Finally,theresultsofvideoquestionansweringshowthatourself-pacedlearningprocedureiseffective,andtheextendedSSmodeloutperformsvariousbaselines. 參考文獻 ( 69 ) 〈TOP〉 [2]A.Rohrbach,M.Rohrbach,N.Tandon,andB.Schiele,“Adatasetformoviedescription,”inCVPR,2015.連結: [7]R.Vedantam,C.LawrenceZitnick,andD.Parikh,“Cider:Consensus-basedimagedescriptionevaluation,”inCVPR,2015.連結: [8]A.Krizhevsky,I.Sutskever,andG.E.Hinton,“Imagenetclassificationwithdeepconvolutionalneuralnetworks,”inNIPS,2012.連結: [9]S.Venugopalan,H.Xu,J.Donahue,M.Rohrbach,R.Mooney,andK.Saenko,“Translatingvideostonaturallanguageusingdeeprecurrentneuralnetworks,”inNAACL,2015.連結: [10]O.Vinyals,A.Toshev,S.Bengio,andD.Erhan,“Showandtell:Aneuralimagecaptiongenerator,”inCVPR,2015.連結: 文章國際計量 〈TOP〉 E-mail : 文章公開取用時,將寄通知信至您填寫的信箱地址 E-mail : 購物車中已有多篇文章,請問是否要先清除,或一併加入購物車中購買?



請為這篇文章評分?