◎實驗室新血招募中◎[PDF]

-主要先修課程:線性代數,機率與統計,程式設計。

-建議修習課程:影像處理,圖形識別,人機互動,數值方法,資料庫,最佳化方法,數位訊號處理,多媒體網路。

-常用語言工具:C, C++, Matlab, JAVA, OpenCV, OpenCL, OpenGL, OpenNI, IPP, GPU-based programming(cuda), Windows API.

mug shot

◎Requirements

    -Interested in multimedia processing.

    -Self-motivated.

    -Believe in yourself.

mug shot

◎Material preparation for interview

    -Transcript

    -Biography in English/Chinese

    -Latest project report

※Contact by email in advance: hcshih@saturn.yzu.edu.tw

mug shot

◎Prospective Subjects

  1. 即時人機互動(PROJECTOR-BASED INTERACTION)

    近年來,許多帶來便利的發明進入類的日常生活中,尤其是蘋果電腦所推出的Ipad及Iphone、任天堂的Wii、微軟的XBOX360 Kinect、Sony的PlayStation Move,已經將人類對科技的依賴性根深蒂固地養成,人類不再容易被滿足,電腦帶來的不再是死板的計算,它更是要協助人類的生活,有效節省不必要的時間浪費,即時的互動減少等待時間,資訊能夠即時取得,如此更加重了「人機互動」這個議題的重要性。感測器(Sensor),相較於傳統完全是視訊為基礎(vision-based)的影像分析技術有更高的穩定性及精確性。而在人機互動的應用上,已發展了相當多年,但許多研究皆著重在感應基礎(sensor-based)的設備及軟硬體的協定及互動機制,鮮少是加入影像處理演算法開發的,感應設備固然有其高穩定的優勢,但部份功能仍有限,必須輔助以傳統的影像處理及內容分析技術才能夠完全發揮其人機互動的功效。本實驗室發展重點將過去在內容分析技術及影像處理的經驗與sensor實體做結合,應用到projector-based的人機互動議題上。
    mug shot
  2. 字元辦識在車牌及多媒體內容之應用(Character Recognition for License Plate and multimedia content)

    基於內容的訊號分析,適用於視頻文本檢測與識別的技術。字幕訊息多樣式聯結方式來處理多媒體訊息檢索和理解。例如,新聞視頻字幕識別,車牌識別,車輛識別等。其中,OCR是一個準確的視頻搜索新聞視頻檔案的主要技術。在這個領域,我們專注於OCR技術的應用可穿戴式設備,如APP程式設計,智慧導航之車牌識別,和谷歌眼鏡等應用。
    mug shot
  3. 物件追蹤及事件分析在居家照顧,監控及智慧交通之應用(OBJECT TRACKING AND EVENT ANALYSIS (APPLICATION IN HOMECARE, SURVEILLANCE, TRAFFIC CONTROL))

    近年在來處理物體追蹤與動作的分析相關之議題愈來愈受到關注,例如在居家照顧、數位監控系統及智慧型交通輔助系統上都有相當多的應用。一個智慧型分析系統能夠偵測特定的事件及活動如住院病患之非正常活動、安全區域之非法的入侵管制、犯罪可疑預測、車禍警示等。在題目中,我們會專注在即時的單目標物追蹤及其動作分析或多人追蹤及其事件分析上,並結合多個攝影機系統的整合來取得視訊,在特定被選擇的區域來做必要的分析及識別。 目標物的追蹤與分析包括四個步驟:首先要初始化,追蹤姿勢估計和識別,例如:一個適合的對象模型必須先被建立。第二步為移動物的追蹤,要在連續的影像中將目標物和背景分離出來。第三步為目標物的特徵與屬性取得,通常需要一個具體化的識別程序,在一些較高語意的特徵模組或模型來做估算。第四步分析細部動作或特性將其重要的參數取得並用來識別。整體而言,一個完整的系統不見得需要包含以上所有四個步驟,然而所有的系統套用在這種架構之內。 如果我們所假設的場景中僅有單一個物體出現,在系統的工作中就只是偵測和追蹤物體。在真實的環境下對這物體的偵測和追蹤卻必須考慮更複雜的環境,並利用影像及視訊處理技術和一套的物體模型來輔助分析。早期的方法包含了機率模式的追蹤方式,在場景中物體的出現,是由一個機率式分佈根據測量物體的移動和觀察的影像作動態性地修改。當一個場景中包含了多個物體時,這個追蹤系統在空間和時間軸上必須明確地建立物體辨識/區分,而這明顯地增加了系統的處理複雜度,並且一個物體的可觀察性通常是由其它的遮蔽物所阻擋。目標物的追蹤系統必須解決以上所面臨的問題,以利提出一個創新且有效的方法,並且考慮系統功能的擴充性。
    mug shot
  4. 相片分析及關鍵影格偵測(PHOTO ANALYSIS and KEYFRAME DETECTION)

    關鍵影格之偵測有相當多的應用,能夠有效代表整個視訊內容,可利於後端之其他應用,例如,近年來數位相框的日益普遍,大多數的儲存媒體多以影像為主,倘若使用者所拍攝儲存的為視訊影片,如何取得最重要、最具代表性的影像(即所謂的關鍵影格)變得十分重要。另一個例子,在視訊傳輸上的應用,因為頻寬的受限,無法在各個時間點都保證每位使用者都能夠有足夠的頻寬來傳輸所以視訊影片,因此提出一個系統可以用來比對影格及擷取出最具代表性的關鍵影格來傳輸,供使用者選取,如此能夠直接簡易而快速地取得最適合使用者需求的多媒體資訊。而在視訊影片的搜尋上,關鍵影格可以提供使用者來選取,並給定特的分數依其偏好回饋給系統,以使重新計算出更貼近使用者需要的視訊內容。 關鍵影格(Keyframe)的定義有相當多種,必須依具其應用的領域來歸類:可以是在一段影片中,最具代表性的一張影像;可以是畫面中出現使用者事先定義或要求的目標物時;也可以是與其他出現在相同影片中最特別最與眾不同的一張影像。而關鍵影格的偵測大致可分為三步驟:(1)影像特徵之取得,(2)特徵之分析及歸類,(3)內容之重要性分析。
    mug shot
  5. 內容分析在人類感知模組選擇(CONTENT ANALYSIS IN SENSE-RANK MODE SELECTION)

    人類的感觀特性與搜尋重要資訊潛藏著密不可分的關係,先前有相當多的研究著重在如何去模擬人腦的推演情況,例如,類神經網路(neural network)、專家系統(expect system)、人工智慧(Artificial Intelligence)等機制來推算人類的感觀特別,其中有相當多未知的參數包含在其中,必須加以訓練才能夠得到接近人類思考特性的答案。一般來說,系統依其處理的流程可以分為兩種:(1)由上而下(bottom-up),(2)由下而上(top-down),其中「上」表示較接近人類感觀的高語意特性類別,「下」代較接近電腦世界的數位資訊及特徵,前述的方法大都以由下而上的方法來處理,其缺點為必須經過十分嚴謹的規畫與訓練才能得到期望中的效果。   有鑑於此,我們希望提出一個系統是以由上而下的形式來完成,針對人類對影片可能感興趣的感觀特性之重要性先出,提出一個適合的模組選擇(mode selection)的演算法來完成,先選定一個測試影像的領域,如運動節目,電影,影集,遊戲場景,家庭自拍影片等。而模組內所包含的特徵可能有(1) Object Number,(2) Scene Change Frequency,(3) Local Motion Energy,(4) Scene Motion Energy,(5) Audio Amplitude and Frequency,(5) Citation Information,及(6) Replay。我們可以統稱合乎特性的影片為特徵影片(featured video clip)或特殊影片(extraordinary video clip)。
    mug shot
  6. 網路(頁)的表情及語意分析(THE EXPRESSION OF INTERNET: SEMANTIC LEVEL MULTIMEDIA DATA MINING ON INTERNET)

    網路的表情是一個相當有趣的應用,如參考文獻中的影片,去搜集全世界網路上的blog,找尋大家當下的心情,所有網路的表情是由網路上的使用者所定義的,並組和他們上傳的圖片做聯結,這些感觀動詞後所加注的形容詞可以與此張圖片做連結,找出他們的表情。網路不該是只有單調的文字描述,當中也是有許許多多人類的感覺在其中,只是未經過自然語言的分析無法得知其中的奧妙,在日益普遍的網路技術中,如果更貼切人性,感情的演算法,才能夠真正抓住商機。
    mug shot
  7. 內容可縮放之視訊檢索(CONTENT-SCALABLE VIDEO RETRIEVAL MECHANISM)

    許多對於視訊搜尋上的研究題目皆號稱有可伸縮性scalable的特性,並冠上以內容為導向(content-based)的功能,但事實上皆以時域或頻域為主,時域上調整其空間解析度,當環境資源不夠時,所得到就視訊資料為較解析度的圖像;而頻域上的可伸縮性是表示當環境資源缺乏時,只能得到較少圖像率的視訊資料,或是較不流暢的資訊。但事實上這些機制並非真正的內容可伸縮性,應該依照內容的重要性,對於使用者的感興趣程度來做不同程度的可伸縮性變化,才是真正符合人類感觀特性,換句話,系統目的不但是在提供不同的情態(modality,方法上的scalable)且能做到在忠實度(fidelity,資料上的scalable)上的伸縮性。   此題目需考量:資料本身重要性(media-rank), 可用資源(resource), 功能性(utility)。對於影片先劃分不同大小的片斷稱為semantic unit(SU),第一次提供視訊時,依現有平均頻寬能傳輸的資料為主,並要提供在不同內容精細程度的影片需等候多少時間的中間資訊(meta-data),由使用者依照自己的喜好選定後並搭配不同的devices回傳至系統端收看視訊資料,協調暫存(buffering)及播放(playback)的穩定性計算出最佳的結果。若要得到一次性傳輸,不需任何feedback機制,可能只能得到live-delay折衷的辦法。
    mug shot
  8. 手勢辨識(FAST AND RUBUST GESTURE RECOGNITION)

    近年來手勢辨識的題材變得愈來愈熱門,各種先進卻又複雜的演算法被提出,大部份的手勢辨識皆不只利用單張的圖像來做識別,因為如此的資訊量不夠,但若利用多張畫面的資訊,卻會加重其運算複雜度,但事實上,速度與準確定卻無形地拉鋸著,之間如何去取捨變成是未來發展的重點,我們將利用手部重心偏移來識別,類似平均偏移法(mean-shift algorithm)去做特徵化,並且可由多種基底(basis)來組成,應用向量量化(vector quantization)及動態程式化(dynamic programming)等方法,來提出一個能夠抗旋轉抗偏移及不受大小影響的辨識系統,並朝向雙手辦識的可能性發展。
    mug shot
  9. 拍攝應用上之人臉缺陷分析(DEFECTIVE FACE DETECTION)

    現今的人臉偵測技術已經相當成熟,在部份限制條件之下偵測率已達百分之九十九以上,其延伸的問題包含人臉追蹤、表情辨識、及年齡估測等。未來我們將朝向偵測不完美的臉部,例如部份遮蔽的臉、模糊或眼睛閉上的情況,來輔助拍攝的人,以加註於預拍畫面中或疊像在已拍攝圖像上。
    mug shot
  10. 鏡頭移動分析(CAMERA MOTION ANALYSIS)

    視訊移動的分析是十分重要的一環,在於瞭解數位內容及其廣泛的應用是一項重要的特徵,在電影拍攝手法上也有相當多的研究,如何在有限的影片長度中呈現最重要的視訊內容,已經是有一套拍攝特性,不管是在任何種類的影片如運動節目,電影。因此視訊鏡頭移動分析變成十分重要,它是一個重要的線索來提供最有效最直接的特徵,近年來,3C資訊設備普及化,攜帶型數位攝影機變成人手一機,因此,這個題目可以說一天比一天熱門,雖然這是一個小題目,但只要有創意且有效率並與眾不同,這個題目仍然有相當多可能性。
    mug shot
  11. 多媒體處理議體之檢索地圖(A SURVEY ON MULTIMEDIA PROCESSING)

    對於多媒體資料的處理,做系統化的分類及分析,依不同的角度來討論所有相關的先前研究,並提出見解,選定數個較具代表性之方法,加以修改或整合,取得較佳的成果。
    mug shot