TW201342897A - 使用運動估計之物件偵測 - Google Patents
使用運動估計之物件偵測 Download PDFInfo
- Publication number
- TW201342897A TW201342897A TW101150507A TW101150507A TW201342897A TW 201342897 A TW201342897 A TW 201342897A TW 101150507 A TW101150507 A TW 101150507A TW 101150507 A TW101150507 A TW 101150507A TW 201342897 A TW201342897 A TW 201342897A
- Authority
- TW
- Taiwan
- Prior art keywords
- frame
- area
- region
- logic
- object detection
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/245—Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/223—Analysis of motion using block-matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/14—Picture signal circuitry for video frequency region
- H04N5/144—Movement detection
- H04N5/145—Movement estimation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Image Analysis (AREA)
- Picture Signal Circuits (AREA)
Abstract
使用運動估計偵測物件的系統及方法可包括處理器與運動估計以及耦接至處理器的物件偵測邏輯。運動估計及物件偵測邏輯可組態以基於運動估計偵測在視訊的框中之物件。視訊可包括第一框及第二框。運動估計可使用介於該第二框的區域及對應的該第一框區域之間的絕對誤差和被施行在該第二框的區域上。
Description
本發明係關於使用運動估計之物件偵測。
可靠的即時物件偵測及在自然影像及視訊中的辨識在虛擬搜尋中可為重要的。一個在視訊中物件追蹤的方法係為在每個視訊框(video frame)中全部物件之偵測。然而,此方法可為非常計算密集的(computation intensive)。
實施例可包含設備,其包括用以在具有第一框及第二框之視訊的第二框區域上施行運動估計。此設備亦可包括用以決定基於在第二框區域上之運動估計對第二框之區域是否施行物件偵測之邏輯。運動估計係可基於用以施行絕對誤差和之邏輯。物件偵測可基於分類器功能(classifier function)。
實施例可包含可包括處理器與耦接至處理器之運動估計及物件偵測邏輯的系統。運動估計及物件偵測邏輯可組態以包括用以基於運動估計偵測在視訊的框中之物件的邏輯。視訊可包括第一框及第二框。運動估計可使用於第二框區域與對應的第一框區域之間的絕對誤差和施行於第二框區域上。絕對誤差和可施行於巨集塊(macro block)
上,其包括在第二框區域中及包括在對應的第一框區域中。第二框可為在視訊中第一框之後續框。
實施例可包含電腦實施方法,其可包括於視訊之第一框之多個區域上施行物件偵測以偵測包括在第一框中的物件。方法亦可包括在視訊之第二框區域上施行運動估計、基於在第二框區域上之運動估計決定於第二框區域上是否施行物件偵測。第二框可為在視訊中之第一框之後。可使用分類器功能(classifier function)施行物件偵測。
實施例可包含系統,其可包括處理器、耦接至處理之外部電源供應器以及耦接至處理器之運動估計與物件偵測邏輯。運動估計與物件偵測邏輯可組態以包括用以基於運動估計偵測在視訊的框中之物件的邏輯。視訊可包括第一框及第二框。運動估計可使用在第二框區域與對應的第一框區域之間之絕對誤差和而施行於第二框區域上。
轉向圖1來看,說明範例電腦系統100之方塊圖係依據一些實施例來繪示。電腦系統100可包括中央處理單元(CPU;central processing unit)105、圖形及記憶體控制中心(GMCH;graphics and memory controller hub)110及輸入/輸出控制器中心(ICH;input/output controller hub)125。CMCH 110可經由匯流排107耦接至CPU 105。ICH 125可經由匯流排122耦接至GMCH 110。GMCH 110亦可耦接至記憶體裝置115及顯示裝置120。
ICH 125可耦接至I/O裝置130。GMCH 110可包括圖形系統200(如圖2所示)。雖然CPU 105、GMCH 110及ICH 125以分離的組件來說明,但是這些組件之兩個或多個功能可被結合。電源供應器150可用以提供電源至電腦系統100。電源供應器150可為電池或是外部的電源來源。電腦系統100亦可包括許多其它組件;然而,為了簡化,他們並未被繪示。
轉向圖2來看,繪示了說明使用範例滑動視窗200以掃描影像之方塊圖。滑動視窗為可用以施行在影像中物件偵測及辨識之技術。滑動視窗技術可與用以偵測物件之分類器功能相關聯。物件可決定為當最大分類分數(maximal classification score)超越臨界值(threshold)時所呈現在影像中的。例如,滑動視窗200可用以自左邊頂端位置至右邊底端位置掃描影像201。對於影像201,滑動視窗200可掃描子影像205至260。滑動視窗200可具有不同的尺寸。例如,滑動視窗200可為16像素x16像素(16 pixels by 16 pixels)。一般而言,子影像之數目可增加N的四次方(N4)以用於具有NxN尺寸的影像。例如,子影像的數目可大於十億(one billion)。與物件偵測相關聯的操作可需要對每個子影像施行。亦即,滑動視窗愈小,可需要用以施行的計算數目愈高。結果是,對於所有子影像徹底的估計分類器功能可在計算上是非常耗費的。當滑動視窗技術應用至視訊之之多框以偵測物件時,計算成本可為更加的耗費。例如,對於25Hz/
30Hz視訊,在視訊中施行物件偵測之計算成本可能大於對單一影像施行物件偵測之十(10)倍。
轉向圖3來看,依據一些實施例繪示說明範例視訊運動估計及偵測系統300之方塊圖。運動估計及偵測系統300可包括運動估計邏輯305、物件偵測邏輯310、滑動視窗邏輯325以及視訊處理邏輯330。運動估計邏輯305可包括絕對誤差和邏輯315。物件偵測邏輯310可包括分類器功能邏輯320。
對於一些實施例,滑動視窗邏輯325可組態以建立不同尺寸的滑動視窗。例如,小的滑動視窗可用以掃描視訊框來偵測在視訊框中小的物件,然而大的滑動視窗可用以偵測在視訊框中大的物件。視訊框可由視訊處理邏輯330接收。對於一些實施例,不同尺寸的滑動視窗可用以對於第一框施行全部掃描。為了偵測小的及大的物件兩者,可使用具有不同尺寸的滑動視窗施行多次全部掃描。對於後續的框,替代施行全部掃描的是,運動估計邏輯305可用以降低計算成本。
可由滑動視窗覆蓋之框的地區(area)可參照為區域(region)。例如,對於視訊圖形陣列(VGA;video graphics array)尺寸視訊輸入,滑動視窗可自可覆蓋框的區域的20×20像素之最小尺寸改變至可覆蓋整體框480×480像素的最大尺寸。
分類器功能邏輯320可組態以偵測物件是否可存在於由滑動視窗覆蓋之框的區域內。分類器功能邏輯320可基
於最大分類分數(maximum classification score)施行偵測操作。對於一些實施例,分類器邏輯320可用以對於每一個第一框的區域施行物件偵測。如將更加詳細說明的一樣,若某些條件符合時,分類器功能邏輯320可用以對於後續框之一些區域施行物件偵測。
運動估計邏輯305可組態以當比較目前的框與先前的框時,決定任何運動是否已於特定區域內發生。運動估計邏輯305之操作可基於正常使用在視訊編碼及用於每個巨集塊之絕對誤差和(SAD)之值中的運動向量資訊(說明於圖4)。
因為在連續框中大多數的影像可為幾乎相似的,運動估計邏輯305可組態以移除介於在視訊的連續框中之影像之間的時序的冗餘(temporal redundancy)。此可致能重新使用包括在先前框中的資訊以尋找用於目前框的運動向量資訊來改善編碼效率。對於一些實施例來說,運動估計邏輯305可使用SAD邏輯315以決定是否目前框的區域相似於對應的先前框的區域。
物件偵測邏輯310可組態以偵測在目前框之區域中的物件。例如,當某些條件符合時,物件偵測邏輯310可應用分類功能邏輯320以偵測在區域中的物件。
轉向圖4來看,依據一些實施例繪示巨集塊之範例。巨集塊(MB;macro block)可為用於運動估計的基本元件並且可用於編碼。巨集塊可為16×16像素。在目前的範例中,滑動視窗200可覆蓋包括九個巨集塊405至445之區
域(由具有對角線圖形之矩形所指示)。一般而言,當與目前框相關聯之巨集塊相似於與先前框相關聯之區域(其具有相同MB尺寸)時,此巨集塊可不需要針對目前框編碼。用於來自先前框相似的影像區域的編碼資訊可被重新使用。
SAD邏輯315(圖3)可組態以決定與巨集塊相關聯的SAD及與區域相關聯的SAD。SAD邏輯315可組態以決定於在一個目前框的巨集塊中每個像素與在先前框之另一巨集塊中對應的像素之間的絕對誤差。誤差可被加總以產生塊相似性度量(metric of block similarity)。臨界值可用以決定相似性。
對於一些實施例,來自巨集塊405至445的SAD能被累加並且用做用於巨集塊405至445可與之有關聯的區域。用於區域的SAD接著可與臨界值相比,臨界值可與巨集塊之數目成比例。當用於區域的SAD大於臨界值時,其可指示由滑動視窗200覆蓋的目前框的區域可不匹配對應的先前框的區域。在這情況中,其可需要使用分類器功能以對於目前框的區域施行物件偵測。例如,先前框的區域可不包含物件,但是對應的目前框的區域可包含物件。舉另一個例子,先前框的區域包含在第一位置的物件,並且對應的目前框的區域亦可包含在第二位置中的物件。此可指示物件已進入運動,因而其可需要在目前框中被偵測。當用於區域的SAD小於臨界值時,其重新使用來自對應的先前框區域之編碼資訊可為有可能的。例如,
若在先前框中的區域並未包含物件,接著對應的目前框之區域可視為不包含物件。
轉向圖5來看,依據一些實施例繪示範例區域。區域500、520及540可與先前框相關聯,並且區域510、530及550可與目前框相關聯。區域500及510可用以說明當兩者包含相同物件505但於不同位置時的情況。由於第二位置可接近(或幾乎同樣)第一位置,用於區域的SAD 510可小於臨界值。區域510的樣本地區(例如,中央點)可被決定並且被驗證此樣本地區是否座落於區域505中。此可相似於追蹤物件505。對於一些實施例,當區域510之樣本地區亦在區域505中時,分類器功能邏輯320(圖3)可應用至區域510。
區域520及530可用以說明當物件525包含在區域530中但物件525之前未包含在區域520中的情況。用於區域530的SAD可大於臨界值並且分類器功能邏輯320可應用至區域530。此情況可被逆轉於其中物件525可包含在區域520中但未在區域530中之時。用於區域530的SAD可大於臨界值並且分類器功能邏輯320可應用至區域530。區域540及550可用以說明當沒有物件在區域540及550中之時的情況。用於區域550的SAD可小於臨界值並且分類器功能邏輯320可不需要應用至區域550。
轉向至圖6A來看,依據一些實施例繪示運動估計及物件偵測的方法600。方法600可與圖3之運動估計及物件偵測系統300有關。方法600可應用至視訊框。
在方塊605處,可接收視訊之第一框。在方塊610處,不同尺寸的滑動視窗可用以在第一框中偵測物件。在方塊615處,分類器功能可用以使用滑動視窗偵測在第一框中的物件。在方塊620處,接收第二視訊框。在方塊625處,可在第二框中的物件可使用介於第二框及第一框之間的運動估計來偵測。
轉向圖6B來看,依據一些實施例繪示使用絕對誤差和(SAD)來施行運動估計及物件偵測的方法650。方法650可應用至框的區域。在方塊655處,可決定運動向量資訊與基於目前框區域的SAD與對應的先前框的區域。區域的SAD可基於包括在區域中的巨集塊之SAD。在方塊660處,SAD可與臨界值比較。若SAD大於臨界值,程序可持續至方塊665處,在其中可施行分類器功能以偵測在目前框之區域的物件。例如,當在目前框之區域中有物件而在對應的先前框之區域可能沒有物件時,此情況可發生。
從方塊660來看,若SAD小於或等於臨界值,接著程序可持續至方塊670,在其中可施行測試以決定目前框區域的樣本地區(例如中央點)是否可在對應的先前框區域中找到。若樣本地區亦在對應的先前框之區域時,接著程序可持續至方塊665,在其中可應用分類器功能以偵測在目前框區域中的物件。例如,可發生當具有物件在目前框區域時的情況並且物件亦可存在於具有可能由於運動造成的些許誤差之對應的先前框區域中。
或者,從方塊670來看,程序可持續至方塊675,在其中對應的先前框區域編碼資訊可針對目前框重新使用。例如,當在目前框與先前框兩者中同樣的區域並未包含任何物件時,此情況可發生。方法600及650可致能對於未包含任何物件之區域不必施行分類器功能。對於所有目前框的區域可重複方法650。
本發明實施例可藉由估計較小的區域大大的改善物件偵測操作的效能,同時保持相同精確度就如同對於每個視訊框施行全部偵測一般。本發明實施例對於視訊相關應用可為有益的(例如,視訊會議、視訊監視等),在其中由於大多數視訊背景之區域可為非物件區域並且他們在時間上可不會顯著改變,因此可使用固定視訊攝影機,除非當新的物件出現在視訊中時。本發明實施例可不需縮放視訊框而直接應用至原始視訊(raw video)。當可能需要縮放時,圖形控制器可需要維持具有恆定縮放因子(scaling factor)的視訊框鏈。每個縮放的視訊框可需要與其本身運動資訊相關聯。本發明實施例可施行於軟體、硬體或兩者之結合中。對於一些實施例,SAD邏輯315的操作(圖3)或是施行於方塊655中的操作可施行於硬體中以改善效能並且降低運動估計成本。例如,一些圖形控制器可包括硬體加速引擎(hardware acceleration engine),其可用以施行SAD邏輯315之操作。
上述方法可實施為儲存在機器或電腦可讀取儲存媒體中的一組邏輯指令,可讀取媒體諸如隨機存取記憶體
(RAM;random access memory)、唯讀記憶體(ROM;read only memory)、可程式ROM(PROM;programmable ROM)、快閃記憶體等,在可配置邏輯中,諸如可程式邏輯陣列(PLAs;programmable logic arrays)、場可程式閘陣列(FPGAs;field-programmable gate arrays)、複雜可程式邏輯裝置(CPLDs;complex programmable logic devices),在使用電路技術之固定功能邏輯硬體中,諸如特別應用積體電路(ASIC;application-specific integrated circuit)、互補式金氧半導體(CMOS;complementary-symmetry metal-oxide-semiconductor)或電晶體-電晶體邏輯(TTL;transistor-transistor logic)技術,或是任何其中的結合。例如,用以實現在方法中所示之操作的電腦程式碼可以一或多個程式語言之任何結合所寫入,程式語言包括物件導向程式語言(object oriented programming language),像是C++或類似的語言,以及傳統程序程式語言,像是「C」程式語言或類似的程式語言。
圖7說明系統700的實施例。在實施例中,雖然系統700並不限於本文,但系統700可為媒體系統。例如,系統700可結合至個人電腦(PC;personal computer)、膝上基電腦、超級膝上型電腦(ultra-laptop computer)、平板電腦(tablet)、觸碰板、可攜式電腦、手持式電腦、掌上型電腦、個人數位助理(PDA;personal digital assistant)、行動電話、結合行動電話/PDA、電視、智慧型裝置(例如,智慧型電話、智慧型平板或智慧型電
視)、行動網際網路裝置(MID;mobile internet device)、發訊裝置(messaging device)、資料通訊裝置等等。
在實施例中,系統700包含耦接至顯示器720之平台702。平台702可接收來自內容裝置之內容,像是內容服務裝置730或是內容遞送裝置740或其它類似的內容來源。包含一或多個導航特徵的導航控制器750可用以與例如平台702及/或顯示器720互動。這些組件之各者於下做更詳細的說明。
在實施例中,平台702可包含晶片組705、處理器710、記憶體712、儲存器714、圖形子系統715、應用716及/或無線電718中任何結合。晶片組705可提供於處理器710、記憶體712、儲存器714、圖形子系統715、應用716及/或無線電718之間的內部通訊(intercommunication)。例如,晶片組705可包括儲存配接器(storage adapter)(未繪示),其能夠提供與儲存器714的內部通訊。
處理器710可實施為複雜指令集電腦(CISC;Complex Instruction Set Computer)或是精簡指令集電腦(RISC;Reduced Instruction Set Computer)處理器、x86指令集相容處理器、多核心或是任何其它微處理器或是中央處理單元(CPU;central processing unit)。在實施例中,處理器710可包含雙核心處理器、雙核心行動處理器等。
記憶體712可實施為可揮發性記憶體裝置,諸如(但不限於)隨機存取記憶體(RAM)、動態隨機存取記憶體(DRAM)或是靜態隨機存取記憶體(SRAM;Static RAM)。
儲存器714可實施為非揮發性儲存裝置,諸如(但不限於)磁碟機(magnetic disk drive)、光碟機(optical disk drive)、磁帶機(tape drive)、內部儲存裝置、附接儲存裝置(attached storage device)、快閃記憶體、電池支援SDRAM(同步DRAM)及/或網路可存取儲存裝置。例如在實施例中,儲存器714可包含增加儲存效能的技術,其當包括多個硬碟機時對於有價值的數位媒體增強保護。
圖形子系統715可施行處理像是用於顯示之靜止或視訊的影像。例如,圖形子系統715可為圖形處理單元(GPU;graphics processing unit)或是視覺處理單元(VPU;visual processing unit(VPU))。類比或數位介面可用以通訊的耦接圖形子系統715與顯示器720。例如,介面可為高解析多媒體影音介面(High-Definition Multimedia Interface(HDMI))、顯示埠(DisplayPort)、無線HDMI及/或無線HD順應技術。圖形子系統715可能整合至處理器710或晶片組705。圖形子系統715可能為獨立卡(stand-alone card),其通訊的耦接至晶片組705。
於此說明之圖形及/或視訊處理技術可在各種硬體架
構中實施。例如,圖形及/或視訊功能可於晶片組內整合。或者,可使用分離的圖形及/或視訊處理器。再如另一個實施例,圖形及/或視訊功能可由一般目的處理器實施,包括多核心處理器。在進一步的實施例中,可在消費性電子裝置(consumer electronics device)中實施此功能。
無線電718包括一或多個無線電,其能夠使用各種適合的無線通訊技術傳送及接收信號。這類技術可包含跨愈一或多個無線網路的通訊。範例無線網路包括(但不限於)無線本地區域網路(WLANs;wireless local area networks)、無線個人區域網路(WPANs;wireless personal area networks)、無線都會區域網路(WMANs;wireless metropolitan area network)、蜂巢式網路及衛星網路。在跨越這類網路的通訊中,無線電718可依據一或多個在任何版本中之可應用標準操作。
在實施例中,顯示器720可包含任何電視類型監視器或顯示器。例如,顯示器720可包含電腦顯示螢幕、觸碰螢幕顯示器、視訊監視器、類電視(television-like)裝置及或電視。顯示器720可為數位及/或類比。在實施例中,顯示器720可為全像(holographic)顯示器。亦同樣的是,顯示器720可為可接收視覺投射(visual projection)之透明表面。這類投射可傳達各種形式的資訊、影像及/或物件。例如,這類投射可為用於行動式擴增實境(MAR;mobile augmented reality)應用之視覺重
疊。在控制一或多個軟體應用716之下,平台702可在顯示器720上顯示使用者介面722。
在實施例中,任何國家的、國際的及/或獨立的服務可主控內容服務裝置730因而經由例如網際網路可存取平台702。內容服務裝置730可耦接至平台702及/或至顯示器720。平台702及/或內容服務裝置730可耦接至網路760以將媒體資訊通訊至網路760以及自網路760進行通訊(例如,發送及/或接收)。內容遞送裝置740亦可耦接至平台702及/或至顯示器720。
在實施例中,內容服務裝置730可包含有線電視盒(cable television box)、個人電腦、網路、電話、上網裝置(Internet enabled devices)或能夠遞送數位資訊及/或內容之器具,以及任何其它類似的裝置(其能夠單向的或雙向的經由網路760或直接的將在內容提供者與平台702及/顯示器720之間的內容進行通訊)。將理解的是,可經由網路760將內容單向的及/或雙向的通訊至在系統700中的組件及內容提供者中之任一者及自在系統700中的組件及內容提供者中之任一者進行通訊。內容的範例可包括任何媒體資訊,其例如包括視訊、音樂、醫藥及遊戲資訊等。
內容服務裝置730接收內容,像是包括媒體資訊、數位資訊及/或其它內容之有線電視節目。內容提供者之範例可包括任何有線或衛星電視或無線電或網際網路內容提供者。提供的範例並不意味著限定本發明的實施例。
在實施例中,平台702可自具有一或多個導航特徵之導航控制器750接收控制信號。例如,控制器750之導航特徵可用以與使用者介面722互動。在實施例中,導航控制器750可為指向裝置,其可為允許使用者輸入空間(例如,連續及多維)資料至電腦的電腦硬體組件(特別是人機介面(human interface)裝置)。許多系統,諸如圖形使用者介面(GUI;graphical user interfaces)以及電視與監視器允許使用者使用實體姿勢控制及提供資料至電腦或電視。
控制器750之導航特徵的移動可藉由指標、游標、聚焦環(focus ring)或其它顯示在顯示器上的視覺指示器在顯示器(例如,顯示器720)上產生回波(echo)。例如,在軟體應用716的控制下,設定在導航控制器750上的導航特徵可映射至顯示在使用者介面722上的虛擬導航特徵。在實施例中,控制器750可不為分離的組件但整合至平台702及/或顯示器720。然而,實施例並不限於這些元件或在此所示或說明的內容中。
在實施例中,例如當被致能時,驅動(未繪示)可包含在初始的啟動(boot-up)之後讓使用者能像具有觸碰按鈕的電視一樣立即的打開或關閉平台702。當平台「關閉」時,程式邏輯可允許平台702將內容串流至媒體配接器(media adaptor)或其它內容服務裝置730或內容遞送裝置740。此外,晶片組705可包含例如支援5.1環繞立體聲音頻(5.1 surround sound audio)及/或高品質7.1環
繞立體聲音頻(high definition 7.1 surround sound audio)之硬體及/或軟體。驅動可包括用於整合圖形平台之圖形驅動。在實施例中,圖形驅動可包含高速週邊組件互連(PCI Express;peripheral component interconnect Express)圖形卡。
在各種實施例中,可整合在系統700中所示組件的任一或多者。例如,可整合平台702與內容服務裝置730,或是可整合平台702與內容遞送裝置740,或是例如可整合平台702、內容服務裝置730及內容遞送裝置740。在各種實施例中,平台702及顯示器720可為整合單元。例如,可整合顯示器720及內容服務裝置730,或是可整合顯示器720及內容遞送裝置740。這些範例並非意味用以限制本發明。
在各種實施例中,系統700可實施為無線系統、有線系統或兩者之結合。當實施為無線系統時,系統700可包括適於在無線共享媒體上通訊之內容及介面,像是一或多個天線、傳送器、接收器、收發器、放大器、濾波器、控制邏輯等。無線共享媒體的範例可包括無線頻譜的一部分,像是RF頻譜等。當實施為有線系統時,系統700可包括適於在有線媒體上通訊之組及介面,像是輸入/輸出(I/O)配接器、以對應的有線通訊媒體、網路介面卡(NIC;network interface card)、磁碟控制器、視訊控制器、音頻控制器等連接至I/O配接器之實體連接器。有線通訊媒體的範例可包括線、纜線、金屬導線、印刷電路板
(PCB;printed circuit board)、背板(backplane)、交換器編織(switch fabric)、半導體材料、雙絞線、同軸電纜、光纖等。
平台702可建立一或多個邏輯或實體通道以通訊資訊。資訊可包括媒體資訊及控制資訊。媒體資訊可參照至任何代表準備用於使用者的內容之任何資料。內容的範例可包括例如來自語音交談、視訊會議、串流視訊、電子郵件(「email」)訊息、語音郵件訊息、字母數字符號(alphanumeric symbols)、圖形、影像、視訊、文字等的資料。來自語音交談的資料可為,例如演說資訊、無聲周期(silence period)、背景噪音、柔和噪音(comfort noise)、音調(tone)等。控制資訊可參照至任何代表命令、指令或準備用於自動化系統的控制字詞的資料。例如,控制資訊可用以透過系統路由媒體資訊,或是指示節點以預定方式處理媒體資訊。然而,實施例並不限於此元件或限制在圖7中所繪示或說明之內文。
如上所述,系統700可為在變化實體風格或形成因子中的實施例。圖8說明小的形成因子裝置800的實施例,系統700可實現在其中。例如,在實施例中,裝置800可實施為具有無線能力的行動計算裝置。行動計算裝置可參照至任何具有處理系統及行動電源來源或供應器之裝置,例如像是一或多個電池。
如上所述,行動計算裝置之範例可包括個人電腦(PC)、膝上型電腦、超級膝上型電腦、平板電腦、觸碰
板、可攜式電腦、手持式電腦、掌上型電腦、個人數位助理、行動電話、結合行動電話/PDA、電視、智慧型裝置(例如,智慧型電話、智慧型平板電腦或智慧型電視)、行動網際網路裝置(MID)、發訊裝置、資料通訊裝置等。
行動計算裝置的範例亦可包括電腦,其安排以由人穿戴,像是腕式電腦(wrist computer)、手指式電腦(finger computer)、指環式電腦(ring computer)、眼鏡電腦(eyeglass computer)、帶扣式電腦(belt-clip computer)、臂帶式電腦(arm-band computer)、鞋式電腦(shoe computers)、服裝式電腦(clothing computers)以及其它可穿戴式。例如,在實施例中,行動計算裝置可實施為能夠執行電腦應用以及語音通訊及/或資料通訊之智慧型電話。雖然一些實施例可以藉範例方式實施為智慧型電話之行動計算裝置來說明,但其可理解的是,其它實施例亦可使用其它無線行動計算裝置來實施。實施例並不限於本文中。
如圖8所示,裝置800可包含外殼802、顯示器804、輸入/輸出(I/O)裝置806及天線808。裝置800亦可包含導航特徵812。顯示器804可包含任何用於適於行動計算裝置顯示資訊之適當的顯示單元。I/O裝置806可包含任何用於輸入資訊至行動計算裝置之適當的I/O裝置。用於I/O裝置806之範例可包括子母數字鍵盤(alphanumeric keyboard)、數字鍵板(numeric
keypad)、觸碰板、輸入鍵、按鈕、開關(switch)、翹板開關(rocker switches)、麥克風、揚聲器、語音辨識裝置及軟體符。資訊亦可藉由麥克風的方式輸入至裝置800。這類資訊可由語音辨識裝置數位化。本實施例並不限定於本文中。
各種實施例可使用硬體元件、軟體元件或兩者的結合來實施。硬體元件的範例可包括處理器、微處理器、電路、電路元件(例如,電晶體、電阻、電容、電感等)、積體電路、特別應用積體電路(ASIC;application specific integrated circuit)、可程式邏輯裝置(PLD;programmable logic device)、數位信號處理器(DSP;digital signal processor)、場可程式閘陣列(FPGA;field programmable gate array)、邏輯閘、暫存器、半導體裝置、晶片、微晶片、晶片組等。軟體的範例可包括軟體組件、程式、應用、電腦程式、應用程式、系統程式、機器程式(machine program)、操作系統軟體、中間軟體(middleware)、韌體、軟體模組、常式(routine)、子常式(subroutine)、函數、方法、程序、軟體介面、應用程式介面(API;application program interface)、指令組、計算碼、電腦碼、碼段(code segment)、電腦碼段、字元、數值、符號或任何其中的結合。決定實施例是否使用硬體元件及/或軟體元件來實施可依據任何因子數目(number of factor)而變,像是所欲的計算比率、功率位準(power level)、耐熱性(heat tolerance)、處理循
環預算(processing cycle budget)、輸入資料率、輸出資料率、記憶體資源、資料匯流排速度及其它設計或效能約束(performance constraint)。
至少一個實施例的一或多個態樣可由儲存在代表在處理器內的各種邏輯之機器可讀取媒體上的代表性指令來實施,其當藉機器讀取時造成機器製作施行在此說明技術的邏輯。這類代表(如所熟知的「IP核心」)可儲存在有形、機器可讀取的媒體上並且提供至各種客戶或製造設施以載入實際上完成邏輯或處理器之製作機器。
範例尺寸/模型/數值/範圍可能已被給予(雖然本發明實施例並不限於相同者)。當製造技術(例如,蝕刻)在時間上成熟,期待的是可製造較小尺寸的裝置。此外,針對說明及討論的簡化,對積體電路(IC)及其它組件來說為熟知的電源/接地連接可或可能無法繪示在圖式內,而藉此並不模糊某些本發明實施例的態樣。進一步來說,為了避免模糊本發明實施例安排可繪示於方塊圖形式中,並且亦有鑒於相對於這類方塊圖安排之實施特性高度的取決於實施例被實施於其內的平台的事實,亦即,這類特性在本領域具有通常知識者之視界內應為完善的。當為了說明本發明範例實施例而提出特定細節(例如,電路)時,對於本領域具有通常知識者顯而易見的是,本發明之實施例在不具有或具有這些特定細節的變化下來實作。此說明因此視為說明性的而非限定的。
術語「耦接」於此可用以參照至任何類型的關係、直
接或間接、介於提及的組件之間,並且可應用至電性、機械、流體、光學、電磁、機電或其它連接。此外,術語「第一」、「第二」於此可只用以便於討論,而不載有特定時序的或時間的意義,除非另外有指示。
那些本領域具有通常知識者將從上述進行中的說明理解到,本發明實施例主要的技術能以各種形式實施。因此,當本發明實施例以有關其中特別的範例已進行說明時,由於基於圖式、說明書及下列的申請專利範圍對有技術的從業者來說其它修改將變的顯而易見,故本發明實施例的真實範圍應不如此限定。
100‧‧‧電腦系統
105‧‧‧中央處理單元
107‧‧‧匯流排
110‧‧‧圖形及記憶體控制中心
115‧‧‧記憶體裝置
120‧‧‧顯示裝置
122‧‧‧匯流排
125‧‧‧輸入/輸出控制器中心
130‧‧‧I/O裝置
150‧‧‧電源供應器
200‧‧‧滑動視窗
201‧‧‧影像
205-260‧‧‧子影像
300‧‧‧偵測系統
305‧‧‧運動估計邏輯
310‧‧‧物件偵測邏輯
315‧‧‧絕對誤差和邏輯
320‧‧‧分類器功能邏輯
325‧‧‧滑動視窗邏輯
330‧‧‧視訊處理邏輯
405-445‧‧‧巨集塊
500-550‧‧‧區域
700‧‧‧系統
702‧‧‧平台
705‧‧‧晶片組
710‧‧‧處理器
712‧‧‧記憶體
714‧‧‧儲存器
715‧‧‧圖形子系統
716‧‧‧應用
718‧‧‧無線電
720‧‧‧顯示器
722‧‧‧使用者介面
730‧‧‧內容服務裝置
740‧‧‧內容遞送裝置
750‧‧‧導航控制器
760‧‧‧網路
800‧‧‧裝置
802‧‧‧外殼
804‧‧‧顯示器
806‧‧‧輸入/輸出(I/O)裝置
808‧‧‧天線
810‧‧‧顯示單元
812‧‧‧導航特徵
本發明實施例的各種益處將藉由讀取下列說明書與申請專利範圍以及藉由參考下列圖式而對於本領域具有通常知識者變為顯而易見,其中:圖1為依據一些實施例說明範例電腦系統之方塊圖;圖2為依據一些實施例說明使用滑動視窗以掃描影像之範例的方塊圖;圖3為依據一些實施例說明範例視訊運動估計及偵測系統的圖;圖4為依據一些實施例說明巨集塊之範例的圖;圖5說明依據一些實施例之框的範例區域;圖6A為依據一些實施例之運動估什及物件偵測之範例方法的流程圖;
圖6B為依據一些實施例使用絕對誤差和(SAD)以施行運動估計與物件偵測之方法的流程圖;圖7說明依據一些實施例之範例電腦系統;圖8說明依據一些實施例之範例小形狀因數裝置。
300‧‧‧偵測系統
305‧‧‧運動估計邏輯
310‧‧‧物件偵測邏輯
315‧‧‧絕對誤差和邏輯
320‧‧‧分類器功能邏輯
325‧‧‧滑動視窗邏輯
330‧‧‧視訊處理邏輯
Claims (29)
- 一種設備,包含:施行運動估計的邏輯,用以於具有第一框及第二框之視訊的第二框之區域上施行運動估計;以及決定邏輯,用以基於在該第二框區域上的運動估計決定是否在該第二框之區域上施行物件偵測。
- 如申請專利範圍第1項之設備,其中該第二框係為相對於在該視訊中該第一框的後續框,且其中該施行運動估計的邏輯包括用以決定介於該第二框的區域與該對應的該第一框的區域之間絕對誤差和之邏輯。
- 如申請專利範圍第2項之設備,其中該決定絕對誤差和之邏輯包括決定在包括在該第二框區域及該對應的該第一框區域中巨集塊上的絕對誤差和的邏輯。
- 如申請專利範圍第3項之設備,其中決定是否施行該物件偵測的邏輯包括施行分類器功能的邏輯。
- 如申請專利範圍第4項之設備,其中更包括將該絕對誤差和與臨界值比較的邏輯,用以決定是否在該第二框的區域上施行物件偵測。
- 如申請專利範圍第5項之設備,其中若絕對誤差和大於臨界值時,在該第二框的區域上之物件偵測係被施行。
- 如申請專利範圍第6項之設備,其中若該絕對誤差和小於或等於該臨界值且若該第二框之區域的樣本地區包括在該對應的該第一框的區域中時,在該第二框的區域 上之該物件偵測係被施行。
- 如申請專利範圍第7項之設備,其中若該絕對誤差和小於或等於該臨界值且若在該第二框的區域上之該樣本地區並未包括在該對應的該第一框的區域中時,不施行在該第二框的區域上之該物件偵測。
- 如申請專利範圍第8項之設備,其中該對應的該第一框之區域的編碼資訊係重新使用於該第二框之區域。
- 一種系統,包含:處理器;以及運動估計及物件偵測邏輯,與該處理器耦接且組態以基於運動估計偵測在視訊的框中的物件,其中該視訊包括第一框及第二框,且其中該運動估計使用介於該第二框的區域及對應的該第一框的區域之間的絕對誤差和而被施行於該第二框的區域上。
- 如申請專利範圍第10項之系統,其中該絕對誤差和係施行於包括在該第二框的區域中及在該對應的該第一框的區域中的巨集塊上,且其中該第二框為該第一框之後續框。
- 如申請專利範圍第11項之系統,其中該運動估計及物件偵測邏輯更組態以基於該絕對誤差和與臨界值的比較決定是否偵測在該第二框之區域中的物件。
- 如申請專利範圍第12項之系統,其中若該絕對誤差和大於該臨界值時,該偵測在該第二框區域中之物件的邏輯係被施行。
- 如申請專利範圍第13項之系統,其中若該絕對誤差和小於或等於該臨界值時且若該第二框之區域的樣本地區包括在該對應的第一框的區域中時,該偵測在該第二框區域中之物件的邏輯係被施行。
- 如申請專利範圍第14項之系統,其中若該絕對誤差和小於或等於該臨界值時且若該第二框之區域的樣本地區未包括在該對應的該第一框的區域中時,在該第二框的區域上之該物件偵測不被施行。
- 如申請專利範圍第15項之系統,其中更包括為了偵測在該第二框之區域中的物件施行在該第二框之區域上的分類器功能。
- 如申請專利範圍第16項之系統,其中若在該第二框的區域上之該物件偵測未被施行時,該對應的該第一框之區域的編碼資訊係重新使用於該第二框之區域。
- 一種電腦實施方法,包含:在視訊的第一框之多個區域上施行物件偵測以偵測包括在該第一框中的物件;在該視訊的第二框的區域上施行運動估計;以及基於在該第二框的區域上的運動估計決定是否在該第二框的區域上施行物件偵測。
- 如申請專利範圍第18項之方法,其中該第二框係後續於在該視訊中的該第一框,且其中該施行該物件偵測包括施行分類器功能。
- 如申請專利範圍第19項之方法,其中在該第二 框之區域上的該施行運動該估計包括決定介於該第二框的區域與該對應的該第一框的區域之間的絕對誤差和。
- 如申請專利範圍第20項之方法,其中該決定是否在該第二框的區域上施行該物件偵測包含將該絕對誤差和與臨界值進行比較。
- 如申請專利範圍第21項之方法,其中若該絕對誤差和大於該臨界值時,施行在該第二框之區域上的該物件偵測。
- 如申請專利範圍第22項之方法,其中若該絕對誤差和小於或等於該臨界值時且若該第二框的區域的樣本地區包括在該對應的該第一框的區域中時,施行在該第二框的區域上之該物件偵測。
- 如申請專利範圍第23項之方法,其中若該絕對誤差和小於或等於該臨界值時且若在該第二框的區域上的該樣本地區未包括在該對應的該第一框的區域中時,在該第二框的區域上未施行該物件偵測。
- 如申請專利範圍第24項之方法,其中當無物件偵測施行於該第二框的區域上時,該對應的該第一框之區域的編碼資訊係重新使用於該第二框的區域。
- 一種系統,包含:處理器;外接電源供應器,耦接至該處理器;運動估計及物件偵測邏輯,耦接至該處理器且組態以基於運動估計偵測在視訊之框中的物件,其中該視訊係包 括第一框及第二框,且其中該運動估計使用介於該第二框的區域及對應的該第一框的區域之間的絕對誤差和而被施行在該第二框的區域上。
- 如申請專利範圍第26項之系統,其中該絕對誤差和係被施行在包括在該第二框的區域中及在該對應的該第一框的區域中的巨集塊上,且更包括為了偵測在該第二框之區域中的物件而在該第二框的區域上施行分類器功能的邏輯。
- 如申請專利範圍第27項之系統,其中該第二框為該第一框之後續框,並且其中該運動估計及物件偵測邏輯更組態以基於該絕對誤差和與臨界值之比較決定是否偵測在該第二框之區域中的物件。
- 如申請專利範圍第28項之系統,其中若該絕對誤差和大於該臨界值時,該偵測第二框的區域中之物件的邏輯係被施行,其中若該絕對誤差值小於或等於該臨界值時,在該第二框之區域上的該物件偵測係不被施行,並且其中若在該第二框的區域上之物件偵測未被施行時,該對應的該第一框的區域之編碼資訊係重新使用於該第二框的區域。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2011/084991 WO2013097166A1 (en) | 2011-12-30 | 2011-12-30 | Object detection using motion estimation |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201342897A true TW201342897A (zh) | 2013-10-16 |
TWI568256B TWI568256B (zh) | 2017-01-21 |
Family
ID=48696241
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW101150507A TWI568256B (zh) | 2011-12-30 | 2012-12-27 | 使用運動估計之物件偵測 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9525803B2 (zh) |
EP (1) | EP2798832A4 (zh) |
JP (1) | JP5908605B2 (zh) |
CN (1) | CN104012072B (zh) |
TW (1) | TWI568256B (zh) |
WO (1) | WO2013097166A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI624793B (zh) * | 2017-09-19 | 2018-05-21 | 財團法人成大研究發展基金會 | 物件偵測的適應系統與方法 |
TWI638332B (zh) * | 2016-11-29 | 2018-10-11 | 財團法人車輛研究測試中心 | Hierarchical object detection system with parallel architecture and method thereof |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013097166A1 (en) | 2011-12-30 | 2013-07-04 | Intel Corporation | Object detection using motion estimation |
US10521086B1 (en) * | 2013-12-17 | 2019-12-31 | Amazon Technologies, Inc. | Frame interpolation for media streaming |
CN107992100B (zh) * | 2017-12-13 | 2021-01-15 | 中国科学院长春光学精密机械与物理研究所 | 基于可编程逻辑阵列的高帧频图像跟踪方法和系统 |
CN110930436B (zh) * | 2019-11-27 | 2023-04-14 | 深圳市捷顺科技实业股份有限公司 | 一种目标跟踪方法及设备 |
CN111222509B (zh) * | 2020-01-17 | 2023-08-18 | 北京字节跳动网络技术有限公司 | 目标检测方法、装置及电子设备 |
US11615537B2 (en) * | 2020-11-02 | 2023-03-28 | Qualcomm Incorporated | Methods and apparatus for motion estimation based on region discontinuity |
US11361545B1 (en) * | 2020-11-20 | 2022-06-14 | Himax Technologies Limited | Monitoring device for detecting object of interest and operation method thereof |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR0166724B1 (ko) * | 1993-05-08 | 1999-03-20 | 김광호 | 반화소정확도를 갖는 동벡터추정방법 및 그 장치 |
JP3197396B2 (ja) | 1993-07-15 | 2001-08-13 | 東京電力株式会社 | 移動物体判定方法及び装置 |
JP3042837B2 (ja) | 1997-02-24 | 2000-05-22 | 川崎重工業株式会社 | 都市防災用監視装置 |
US6738423B1 (en) | 2000-01-21 | 2004-05-18 | Nokia Mobile Phones Ltd. | Method for encoding and decoding video information, a motion compensated video encoder and a corresponding decoder |
US6493620B2 (en) | 2001-04-18 | 2002-12-10 | Eaton Corporation | Motor vehicle occupant detection system employing ellipse shape models and bayesian classification |
JP4573297B2 (ja) | 2005-02-25 | 2010-11-04 | Kddi株式会社 | 移動物体抽出装置 |
CN101022505A (zh) | 2007-03-23 | 2007-08-22 | 中国科学院光电技术研究所 | 复杂背景下运动目标自动检测方法和装置 |
US7929729B2 (en) | 2007-04-02 | 2011-04-19 | Industrial Technology Research Institute | Image processing methods |
EP1988502A1 (en) | 2007-05-04 | 2008-11-05 | Deutsche Thomson OHG | Method and device for retrieving a test block from a blockwise stored reference image |
US8488676B2 (en) * | 2007-05-14 | 2013-07-16 | Himax Technologies Limited | Motion estimation method |
CN102474568B (zh) | 2009-08-12 | 2015-07-29 | 英特尔公司 | 基于共同处理元件执行视频稳定化和检测视频镜头边界的技术 |
US20110075935A1 (en) | 2009-09-25 | 2011-03-31 | Sony Corporation | Method to measure local image similarity based on the l1 distance measure |
WO2013097166A1 (en) | 2011-12-30 | 2013-07-04 | Intel Corporation | Object detection using motion estimation |
-
2011
- 2011-12-30 WO PCT/CN2011/084991 patent/WO2013097166A1/en active Application Filing
- 2011-12-30 US US13/997,092 patent/US9525803B2/en active Active
- 2011-12-30 JP JP2014549288A patent/JP5908605B2/ja not_active Expired - Fee Related
- 2011-12-30 CN CN201180076093.0A patent/CN104012072B/zh active Active
- 2011-12-30 EP EP11878574.0A patent/EP2798832A4/en not_active Withdrawn
-
2012
- 2012-12-27 TW TW101150507A patent/TWI568256B/zh not_active IP Right Cessation
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI638332B (zh) * | 2016-11-29 | 2018-10-11 | 財團法人車輛研究測試中心 | Hierarchical object detection system with parallel architecture and method thereof |
TWI624793B (zh) * | 2017-09-19 | 2018-05-21 | 財團法人成大研究發展基金會 | 物件偵測的適應系統與方法 |
Also Published As
Publication number | Publication date |
---|---|
JP5908605B2 (ja) | 2016-04-26 |
US9525803B2 (en) | 2016-12-20 |
TWI568256B (zh) | 2017-01-21 |
CN104012072A (zh) | 2014-08-27 |
CN104012072B (zh) | 2018-01-30 |
EP2798832A4 (en) | 2016-02-24 |
WO2013097166A1 (en) | 2013-07-04 |
US20140226865A1 (en) | 2014-08-14 |
JP2015507796A (ja) | 2015-03-12 |
EP2798832A1 (en) | 2014-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI568256B (zh) | 使用運動估計之物件偵測 | |
JP6109956B2 (ja) | ビデオコンテンツを前処理するエンコーダハードウェアの活用 | |
US9860553B2 (en) | Local change detection in video | |
CN112561920A (zh) | 用于在视频中进行密集语义分割的深度学习 | |
CN112399178A (zh) | 视觉质量优化的视频压缩 | |
US9940550B2 (en) | Model compression in binary coded image based object detection | |
TWI617996B (zh) | 使用方向性濾波之物件檢測技術 | |
US20240005628A1 (en) | Bidirectional compact deep fusion networks for multimodality visual analysis applications | |
CN106105214B (zh) | 用于运动估计中的回退检测的方法、系统和设备 | |
US9019340B2 (en) | Content aware selective adjusting of motion estimation | |
WO2023028908A1 (en) | Dynamic temporal normalization for deep learning in video understanding applications | |
US9386311B2 (en) | Motion estimation methods for residual prediction | |
US9501830B2 (en) | Blob detection in noisy images | |
CN104813342B (zh) | 内容感知的改变视频大小 | |
US10104373B2 (en) | Content based video encoding for wireless display | |
US10021387B2 (en) | Performance and bandwidth efficient fractional motion estimation | |
CN116310700A (zh) | 高效率神经网络视频图像处理的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | Annulment or lapse of patent due to non-payment of fees |