[go: up one dir, main page]

WO2010053160A1 - コンテンツ検索装置およびコンテンツ検索プログラム - Google Patents

コンテンツ検索装置およびコンテンツ検索プログラム Download PDF

Info

Publication number
WO2010053160A1
WO2010053160A1 PCT/JP2009/069005 JP2009069005W WO2010053160A1 WO 2010053160 A1 WO2010053160 A1 WO 2010053160A1 JP 2009069005 W JP2009069005 W JP 2009069005W WO 2010053160 A1 WO2010053160 A1 WO 2010053160A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature
content
data
user
feature amount
Prior art date
Application number
PCT/JP2009/069005
Other languages
English (en)
French (fr)
Inventor
美紀 長谷山
Original Assignee
国立大学法人 北海道大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人 北海道大学 filed Critical 国立大学法人 北海道大学
Priority to JP2010536802A priority Critical patent/JP5344715B2/ja
Priority to US13/127,355 priority patent/US9077949B2/en
Publication of WO2010053160A1 publication Critical patent/WO2010053160A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/26603Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel for automatically generating descriptors from content, e.g. when it is not made available by its provider, using content analysis techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/432Content retrieval operation from a local storage medium, e.g. hard-disk
    • H04N21/4325Content retrieval operation from a local storage medium, e.g. hard-disk by playing back content from the storage medium
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4828End-user interface for program selection for searching program descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • H04N9/8227Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal the additional signal being at least another television signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/066Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for pitch analysis as part of wider processing for musical purposes, e.g. transcription, musical performance evaluation; Pitch recognition, e.g. in polyphonic sounds; Estimation or use of missing fundamental
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/005Non-interactive screen display of musical or status data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • G10H2240/141Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor

Definitions

  • the present invention relates to a content search apparatus and a content search program for searching for similar content data.
  • This content data includes various types of content data such as image data, moving image data, and music data.
  • the image data is data such as a still image.
  • the moving image data is data such as a television recording, a video recording, a movie, or an animation.
  • the music data is data such as classical music, popular song, BGM.
  • an apparatus for searching for a desired content is disclosed for each of these content types.
  • a search device for example, see Patent Document 1 that searches for moving image data
  • a search device for example, see Patent Document 2 that searches for music data, and the like.
  • a method of detecting a repeated section of music for example, see Non-Patent Document 1.
  • Metadata such as creator and content details is assigned in advance to each content data, and there are many search systems that search for similar content data using these metadata.
  • search system it is necessary to add metadata to each content data in advance, which may be harmful when processing an enormous number of content data.
  • an object of the present invention is to provide a content search device and a content search program for searching similar content data for different types of content data.
  • a first feature of the present invention relates to a content search apparatus that searches for similar content data for different types of content data. That is, in the content search device according to the first feature of the present invention, a plurality of content data having one or more of image features, acoustic features, and semantic features are stored in a storage device in association with content identifiers.
  • the content data storage unit calculates one or more feature quantities of image features, acoustic features, and semantic features of each piece of content data, a content identifier, Feature quantity calculation means for storing in the storage device feature quantity data that associates the feature type of the image feature, acoustic feature, and semantic feature with the feature quantity, and the feature type associated with the content identifier in the feature quantity data From the feature quantity, an unknown feature quantity of the feature type that is not associated with the content identifier is calculated, and feature estimation is performed.
  • An unknown feature amount calculating means for storing in the feature amount data as a value, a distance calculating means for calculating a distance indicating the similarity of each content data based on the feature amount and the feature estimated value stored in the feature amount data, Display means for determining a display position of a thumbnail corresponding to the content data based on the distance calculated by the distance calculation means and displaying the thumbnail on the display device.
  • the unknown feature quantity calculating means calculates a feature estimation value using principal component analysis from the feature quantity of the feature type associated with the content identifier in the feature quantity data.
  • the unknown feature amount calculation means calculates a feature estimation value using canonical correlation analysis from the feature amount of the feature type associated with the content identifier in the feature amount data.
  • the feature quantity calculating means may specify a melody that repeatedly appears in the acoustic signal when calculating the feature quantity of the acoustic feature, and the feature quantity of the repeated melody may be used as the feature quantity of the acoustic feature.
  • the content search device further includes a user preference data storage unit in which user preference data in which a user identifier and a content identifier that matches the user preference are associated are stored in a storage device, and each content With respect to identifiers, important user determination means for creating a set of user identifiers associated with the content in user preference data, creating a directed edge between users in each set, and determining an important user representing each set And may be further provided.
  • the distance calculation means extracts the content identifier associated with the user identifier of the important user in the user preference data, and based on the feature amount and the feature estimated value corresponding to the extracted content identifier, the similarity of each content data It is preferable to calculate a distance indicating.
  • the display means further extracts, in the user preference data, identifiers of a plurality of users associated with predetermined content, and links each of the plurality of user identifiers to a node and a node between the directional sides between the users. May be displayed on a display device.
  • the second feature of the present invention relates to a content search program for searching similar content data for different types of content data. That is, the content search program according to the second feature of the present invention stores, in a computer, a plurality of content data having one or more of image features, acoustic features, and semantic features in association with a content identifier. For each stored content data, one or more feature quantities of image features, acoustic features, and semantic features of each content data are calculated, and content identifiers, feature types of image features, acoustic features, and semantic features are calculated.
  • feature amount calculation means for storing the feature amount data in association with the feature amount in the storage device, and in the feature amount data, the feature amount is associated with the content identifier from the feature amount associated with the content identifier. Unknown feature quantity of the feature type that is not found and stored in the feature quantity data as feature estimation value
  • the distance calculation means for calculating the distance indicating the similarity of each content data based on the feature amount and the feature estimated value stored in the feature amount data, and the distance calculated by the distance calculation means
  • the display position of the thumbnail corresponding to the content data is determined and realized as display means for displaying on the display device.
  • the unknown feature quantity calculation means calculates the feature estimation value using the principal component analysis from the feature quantity of the feature type associated with the content identifier in the feature quantity data.
  • the unknown feature amount calculation means calculates a feature estimation value using canonical correlation analysis from the feature amount of the feature type associated with the content identifier in the feature amount data.
  • the feature quantity calculating means may specify a melody that repeatedly appears in the acoustic signal when calculating the feature quantity of the acoustic feature, and the feature quantity of the repeated melody may be used as the feature quantity of the acoustic feature.
  • the content search program includes a user in which user preference data associated with a user identifier and a content identifier that matches the user's preference is associated with the content in the user preference data stored in the storage device.
  • a set of identifiers is created for each content identifier, and in each set, a directed edge is created between users, and an important user determining means for determining an important user representing each set is further executed by the computer.
  • the distance calculation means extracts the content identifier associated with the user identifier of the important user in the user preference data, and based on the feature amount and the feature estimated value corresponding to the extracted content identifier, the similarity of each content data It is preferable to calculate a distance indicating.
  • the display means further extracts, in the user preference data, identifiers of a plurality of users associated with predetermined content, and links each of the plurality of user identifiers to a node and a node between the directional sides between the users. May be displayed on a display device.
  • FIG. 1 is a diagram for explaining functions of a content search apparatus according to an embodiment of the present invention.
  • FIG. 2 is a diagram for explaining the feature amount calculated by the content search device according to the embodiment of the present invention.
  • FIG. 3 is a diagram for explaining an unknown feature amount calculated by the content search apparatus according to the embodiment of the present invention.
  • FIG. 4 is a diagram illustrating the hardware configuration of the content search apparatus according to the embodiment of the present invention.
  • FIG. 5 is a diagram for explaining an example of the data structure and data of the feature amount data of the content search device according to the embodiment of the present invention.
  • FIG. 6 is a flowchart for explaining the image feature amount calculation processing of the content search device according to the embodiment of the present invention.
  • FIG. 1 is a diagram for explaining functions of a content search apparatus according to an embodiment of the present invention.
  • FIG. 2 is a diagram for explaining the feature amount calculated by the content search device according to the embodiment of the present invention.
  • FIG. 3 is a diagram for explaining an unknown feature amount
  • FIG. 7 is a flowchart for explaining the semantic feature amount calculation processing of the content search device according to the embodiment of the present invention.
  • FIG. 8 is a flowchart for explaining the acoustic feature amount calculation processing of the content search device according to the embodiment of the present invention.
  • FIG. 9 is a flowchart for explaining unknown feature quantity calculation processing by principal component analysis in the content search apparatus according to the embodiment of the present invention.
  • FIG. 10 is a flowchart for explaining unknown feature quantity calculation processing by canonical correlation analysis in the content search apparatus according to the embodiment of the present invention.
  • FIG. 11 is a flowchart for explaining the distance calculation process for calculating the unweighted distance in the content search device according to the embodiment of the present invention.
  • FIG. 12 is a flowchart illustrating distance calculation processing for calculating a weighted distance in the content search device according to the embodiment of the present invention.
  • FIG. 13 is a diagram illustrating a screen configuration in which a thumbnail of query content data is displayed at the center of the screen and a thumbnail of search result content data is displayed around the thumbnail in the content search device according to the embodiment of the present invention.
  • FIG. 14 is a diagram for explaining an example of a screen for designating query content data in the content search device according to the embodiment of the present invention.
  • FIG. 15 is a diagram for explaining an example of a screen that displays a thumbnail of query content data in the center of the screen and a thumbnail of content data of the search result around it in the content search device according to the embodiment of the present invention. is there.
  • FIG. 13 is a diagram illustrating a screen configuration in which a thumbnail of query content data is displayed at the center of the screen and a thumbnail of search result content data is displayed around the thumbnail in the content search device according to the embodiment of the present
  • FIG. 16 is a diagram for explaining a screen configuration in which a display area is divided and displayed for each type of content data in the content search device according to the embodiment of the present invention.
  • FIG. 17 is a diagram illustrating an example of a screen that displays the display area separately for each type of content data in the content search device according to the embodiment of the present invention.
  • FIG. 18 shows a screen configuration in which a thumbnail of query content data is displayed at the upper left of the screen, and thumbnails of search result content data are displayed radially from the thumbnail of the query content data in the content search device according to the embodiment of the present invention. It is a figure explaining.
  • FIG. 19 shows a thumbnail of query content data displayed at the upper left of the screen in the content search device according to the embodiment of the present invention, and focuses on one moving image data of the search result radially from the thumbnail of the query content data. It is a figure explaining an example of the screen to display.
  • FIG. 20 shows a thumbnail of query content data displayed at the upper left of the screen in the content search device according to the embodiment of the present invention, and focuses on one piece of music data as a search result radially from the thumbnail of the query content data. It is a figure explaining an example of the screen to display.
  • FIG. 20 shows a thumbnail of query content data displayed at the upper left of the screen in the content search device according to the embodiment of the present invention, and focuses on one piece of music data as a search result radially from the thumbnail of the query content data. It is a figure explaining an example of the screen to display.
  • FIG. 21 shows a query content data thumbnail displayed on the upper left of the screen in the content search device according to the embodiment of the present invention, and focuses on one image data of the search result radially from the thumbnail of the query content data. It is a figure explaining an example of the screen to display.
  • FIG. 22 is a diagram for explaining the outline of chroma vector calculation in the content search apparatus according to the embodiment of the present invention.
  • FIG. 23 is a diagram for explaining a transition matrix in the content search device according to the embodiment of the present invention.
  • FIG. 24 is a diagram for explaining a correlation matrix obtained by canonical correlation analysis in the content search device according to the embodiment of the present invention.
  • FIG. 25 is a diagram for explaining the function of the content search apparatus according to the second modification of the present invention.
  • FIG. 26 is a flowchart for explaining important user determination processing for determining an important user in the content search apparatus according to the second modification of the present invention.
  • FIG. 27 is a diagram illustrating an example of a screen displaying a user network in the content search device according to the second modification of the present invention.
  • the content search device 1 searches for similar content data for different types of content data. Specifically, the content search device 1 calculates a feature amount from each content data for various types of content data stored in the content data storage unit 30. At this time, the content search apparatus 1 calculates a feature amount regardless of whether metadata is added to various content data. Furthermore, the content search apparatus 1 estimates an unknown feature amount of each content data from a feature amount that can be calculated. The content search device 1 calculates the distance of each content data from the calculated feature amount and the estimated feature amount, determines the similarity, and displays the search result as a three-dimensional space on the display device 105. To do.
  • “content data” indicates image data, moving image data, and music data.
  • text data may be included as content data.
  • feature amount indicates an image feature amount, a semantic feature amount, and an acoustic feature amount.
  • the image feature amount is calculated based on a color histogram of still image data or moving image frame data.
  • the semantic feature quantity is calculated based on the frequency of appearance of words.
  • the acoustic feature amount is calculated based on the time change of the scale.
  • the content search apparatus 1 calculates an image feature amount from the image data.
  • the content search device 1 also calculates a semantic feature amount from the metadata of the image data.
  • the content search apparatus 1 calculates an acoustic feature quantity as an unknown feature quantity, and further calculates a semantic feature quantity when there is no metadata.
  • the image data has all the feature amounts of the image feature amount, the semantic feature amount, and the acoustic feature amount.
  • the content search apparatus 1 calculates the acoustic feature amount from the music data.
  • the content search device 1 also calculates a semantic feature amount from the metadata of the music data. Further, the content search apparatus 1 calculates an image feature amount as an unknown feature amount, and further calculates a semantic feature amount when there is no metadata.
  • the music data has all the feature amounts of the image feature amount, the semantic feature amount, and the acoustic feature amount.
  • the content search apparatus 1 calculates image feature amounts and acoustic feature amounts from the moving image data. Further, when metadata is added to the moving image data, the content search device 1 also calculates a semantic feature amount from the metadata of the moving image data. When the moving image data includes a human voice or caption, the content search apparatus 1 also calculates the semantic feature amount of the moving image data by extracting these data as text data. When the semantic feature quantity is not calculated, the content search apparatus 1 further calculates the semantic feature quantity as an unknown feature quantity. Thereby, as shown in FIG. 3, the moving image data has all the feature amounts of the image feature amount, the semantic feature amount, and the acoustic feature amount.
  • the content search device 1 can calculate the image feature amount, the semantic feature amount, and the acoustic feature amount for each content data regardless of the content type. Furthermore, the content search apparatus 1 can calculate the distance between contents based on the image feature amount, the semantic feature amount, and the acoustic feature amount associated with each content data, and calculate the content similarity. Therefore, similar content can be searched regardless of the type of content.
  • Such a content search apparatus 1 can extract music suitable for an image, for example, by searching for music data similar to the image data. Further, the content search device 1 can extract a moving image that matches music by searching for moving image data similar to the music data.
  • the content search device 1 includes a central processing control device 101, a ROM (Read Only Memory) 102, a RAM (Random Access Memory) 103, and an input / output interface 109. 110 is connected.
  • An input device 104, a display device 105, a communication control device 106, a storage device 107, and a removable disk 108 are connected to the input / output interface 109.
  • the central processing control device 101 reads out and executes a boot program for starting the content search device 1 from the ROM 102 based on an input signal from the input device 104, and further reads an operating system stored in the storage device 107. Further, the central processing control device 101 controls various devices based on input signals from the input device 104, the communication control device 106, etc., and reads programs and data stored in the RAM 103, the storage device 107, etc. into the RAM 103. A processing device that loads and implements a series of processes to be described later, such as data calculation or processing, based on a program command read from the RAM 103.
  • the input device 104 includes input devices such as a keyboard and a mouse through which an operator inputs various operations.
  • the input device 104 generates an input signal based on the operation of the operator, and inputs via the input / output interface 109 and the bus 110. It is transmitted to the central processing control apparatus 101.
  • the display device 105 is a CRT (Cathode Ray Tube) display, a liquid crystal display, or the like, and receives an output signal to be displayed on the display device 105 from the central processing control device 101 via the bus 110 and the input / output interface 109. It is a device that displays the processing result of the control device 101 and the like.
  • the communication control device 106 is a device such as a LAN card or a modem, and is a device that connects the content search device 1 to a communication network such as the Internet or a LAN. Data transmitted / received to / from the communication network via the communication control device 106 is transmitted / received to / from the central processing control device 101 via the input / output interface 109 and the bus 110 as an input signal or an output signal.
  • the storage device 107 is a semiconductor storage device or a magnetic disk device, and stores programs and data executed by the central processing control device 101.
  • the removable disk 108 is an optical disk or a flexible disk, and signals read / written by the disk drive are transmitted / received to / from the central processing control apparatus 101 via the input / output interface 109 and the bus 110.
  • the content search program is stored in the storage device 107 of the content search device 1 according to the embodiment of the present invention.
  • the storage device 107 includes the content data storage unit 30, the feature data storage. Unit 34 and a distance data storage unit 35.
  • the feature amount calculation means 10 the unknown feature amount calculation means 14, the distance calculation means 15 and the display means 16 are used for content search. It is mounted on the device 1.
  • the storage device 107 includes a content data storage unit 30, a feature amount data storage unit 34, and a distance data storage unit 35.
  • the content data storage unit 30 is a storage area in which content data is stored.
  • the content data has one or more of image features, acoustic features, and semantic features.
  • each content data is stored in association with a content identifier.
  • the content data storage unit 30 includes an image data storage unit 31, a moving image data storage unit 32, and a stored music data storage unit 31.
  • the image data storage unit 31 stores image data 31a in association with a content identifier.
  • a plurality of image data may be stored in the image data storage unit 31.
  • the moving image data storage unit 32 stores moving image data 32a in association with a content identifier.
  • a plurality of moving image data may be stored in the moving image data storage unit 32.
  • music data 33a is stored in association with the content identifier.
  • the music data storage unit 33 may store a plurality of music data.
  • the feature amount data storage unit 34 stores feature amount data 34a.
  • the feature amount data is data in which the image feature amount, the acoustic feature amount, and the semantic feature amount of each content data are associated.
  • the feature data 34a is data in which each content identifier is associated with an image feature, an acoustic feature, and a semantic feature.
  • Each feature amount is a feature amount calculated by a feature amount calculation unit 10 described later or a feature amount calculated by an unknown feature amount calculation unit 14.
  • the feature amount data 34a illustrated in FIG. 5A includes items of content identifier, content type, image feature amount, acoustic feature amount, and semantic feature amount.
  • the content identifier is an identifier associated with the content data stored in each content data storage unit 30.
  • the content type is a type of content stored in the content data storage unit 30. In the example shown in FIG. 5, the content type includes any one of image, music, and video.
  • Each item of the image feature amount, the acoustic feature amount, and the semantic feature amount is associated with the feature amount of each feature of the content data.
  • the feature amount calculated by the feature amount calculation unit 10 is registered in the feature amount data 34a as shown in FIG. As shown in FIG. 5A, when the content type is “image”, the image feature amount is associated. When the content type is “music”, an acoustic feature amount is associated. When the content type is “moving image”, the image feature amount and the acoustic feature amount are associated with each other.
  • text data can be acquired from metadata, audio data, capture data, or the like, a semantic feature quantity may be associated with each content identifier.
  • the unknown feature quantity calculating means 14 calculates the unknown feature quantity of each content data
  • the feature quantity calculated by the feature quantity calculating means 10 is registered in the feature quantity data 34a. Then, for each content data, an image feature amount, an acoustic feature amount, and a semantic feature amount are associated. As shown in FIG. 5B, when the content type is “image”, the acoustic feature amount is newly associated, and when the content type is “music”, the image feature amount is newly associated. When no semantic feature value is associated with each content data by the feature value calculation unit 10, a semantic feature value calculated by the unknown feature value calculation unit 14 is associated.
  • the distance data storage unit 35 stores distance data 35a.
  • the distance data 35a associates content identifiers of arbitrary two pieces of content data of each piece of content data stored in the content data storage unit 30 with distances indicating the similarity between the image feature amount, the semantic feature amount, and the acoustic feature amount. Data.
  • An image feature value, a semantic feature value, and an acoustic feature value are calculated for all content data stored in the content data storage unit 30 by a feature value calculation unit 10 and an unknown feature value calculation unit 14 described later, and correspond to the content identifier.
  • the attached feature data 34a is generated.
  • the distance calculation means 15 extracts the image feature amount, the semantic feature amount, and the acoustic feature amount of any two pieces of content data from the feature amount data 34a, and the two content items for each of the image feature, the semantic feature, and the acoustic feature. The distance that is the similarity of data is calculated.
  • the distance calculation means 15 generates the distance data 35a by associating the identifiers of the two content data with the image feature distance, the semantic feature distance, and the acoustic feature distance.
  • the feature amount calculation means 10 the unknown feature amount calculation means 14, the distance calculation means 15 and the display means 16 are mounted by installing a content search program.
  • the feature amount calculating means 10 calculates, for each content data stored in the content data storage unit 30, one or more feature amounts from among image features, acoustic features, and semantic features of each content data, and a content identifier
  • the feature amount data 34 a in which the feature types of the image feature, the acoustic feature, and the semantic feature are associated with the feature amount is stored in the feature amount data storage unit 34 of the storage device 107.
  • the feature quantity calculation unit 10 includes an image feature quantity calculation unit 11, a semantic feature quantity calculation unit 12, and an acoustic feature quantity calculation unit 13.
  • the image feature amount calculating means 11 calculates a color histogram as the image feature amount for the image data 31 a stored in the image data storage unit 31. Further, the image feature amount calculating means 11 calculates a color histogram from all the frames for the video data in the moving image data 32a stored in the moving image data storage unit 32, and uses the vector median as the image feature amount.
  • step S101 to step S103 description will be given of a process in which the image feature quantity calculating unit 11 according to the embodiment of the present invention calculates an image feature quantity for the image data 31a.
  • the processing from step S101 to step S103 is repeated for each image data.
  • step S101 the image feature amount calculation unit 11 calculates a color histogram in the RGB display system for image data corresponding to one content identifier.
  • the number of RGB bins is set to 4, 4, and 4, for example.
  • step S102 the image feature amount calculating unit 11 outputs the vector obtained in step S101 as the image feature amount of the image data.
  • this vector has 64 dimensions.
  • step S103 the image feature quantity calculating unit 11 records the image feature quantity output in step S102 in the feature quantity data 34a as an image feature quantity corresponding to the content identifier of the image data.
  • step S151 to step S155 is repeated for the video data of each moving image data.
  • step S151 the image feature amount calculation unit 11 extracts the video data portion of the moving image data corresponding to one content identifier, and calculates a 64-dimensional vector for each frame.
  • the image feature amount calculation unit 11 calculates a color histogram in the RGB display system for image data of one frame.
  • the number of RGB bins is set to 4, 4, and 4, for example.
  • step S152 the image feature quantity calculating means 11 outputs the vector obtained in step S151 as the feature quantity of the frame.
  • the vector acquired in step S152 is 64 dimensions.
  • step S153 When a 64-dimensional vector is acquired for each frame of the video data portion of one moving image data, a vector median is calculated from the 64-dimensional vector of each frame in step S153, and output as an image feature amount of the video data in step S154. To do.
  • the image feature amount calculating unit 11 records the image feature amount output in step S154 in the feature amount data 34a as an image feature amount corresponding to the content identifier of the moving image data.
  • the semantic feature quantity calculation means 12 calculates a semantic feature quantity.
  • the semantic feature quantity calculation unit 12 calculates a semantic feature quantity from these metadata.
  • the semantic feature quantity calculation means 12 may calculate the semantic feature quantity by converting these data into a text format.
  • the semantic feature quantity calculating unit 12 may convert the singing voice data into a text format to acquire lyrics data and calculate the semantic feature quantity.
  • step S201 a process in which the semantic feature quantity calculating means 12 according to the embodiment of the present invention calculates a semantic feature quantity for each content data.
  • step S208 is repeated for the text data of each content data.
  • the semantic feature quantity calculation means 12 repeats the processing from step S201 to step S205 for each word included in the text data of each content data, and acquires TFIDF.
  • TFIDF is calculated based on two indexes of characteristic words in the text: TF (Term Frequency: appearance frequency) and IDF (Inverse Document Frequency: reverse appearance frequency).
  • step S201 the semantic feature quantity calculation means 12 calculates the number of times TF each word appears in the content.
  • step S202 the semantic feature quantity calculating unit 12 calculates the number of contents DF in which each word appears, and in step S203, calculates the IDF using the DF calculated in step S202.
  • step S204 the semantic feature quantity calculation means 12 calculates the TFIDF of each word using the TF calculated in step S201 and the IDF calculated in step S203.
  • step S205 the semantic feature quantity calculation unit 12 normalizes the TFIDF calculated in step S204.
  • the semantic feature quantity calculation means 12 calculates as a feature vector in step S206.
  • the feature vector is a vector whose number of dimensions is the number of words included in all contents.
  • the semantic feature quantity calculation unit 12 records the feature vector calculated in step S206 in the feature quantity data 34a as a semantic feature quantity corresponding to the content identifier of the content data.
  • the acoustic feature amount calculating means 13 calculates an acoustic feature amount for the music data 33a stored in the music data storage unit 33. Furthermore, the acoustic feature quantity calculation means 13 calculates an acoustic feature quantity for the acoustic data in the moving image data 32 a stored in the moving image data storage unit 32.
  • or step S306 is repeated about the acoustic signal of each music data or acoustic data.
  • step S301 to step S304 the acoustic feature quantity calculating means 13 calculates a chroma vector for the acoustic signal at each time. Specifically, the acoustic feature quantity calculating means 13 applies a band pass filter to the acoustic signal at a predetermined time in step S301, and extracts the power for each scale in step S302. Thereby, the power distribution of the scale at each time can be obtained.
  • step S303 the acoustic feature quantity calculation means 13 converts the power of the frequency corresponding to each scale extracted in step S302 for each octave, and calculates a chroma vector having each frequency power as an element in step S304.
  • the acoustic feature quantity calculation means 13 calculates a scale transition matrix representing the temporal change from the chroma vector at each time in step S305. calculate. At this time, the acoustic feature quantity calculating means 13 calculates the transition matrix so that the mean square error when the chroma vector at the predetermined time is estimated from the chroma vector one unit time before the predetermined time is minimized. In step S306, the acoustic feature quantity calculation means 13 records each element of the scale transition matrix calculated in step S305 in the feature quantity data 34a as an acoustic feature quantity corresponding to the content identifier of the content data.
  • the unknown feature quantity calculation means 14 calculates an unknown feature quantity of the feature type not associated with the content identifier from the feature quantity associated with the content identifier in the feature quantity data 34a, and the feature estimated value As feature value data 34a. For example, as shown in FIG. 2, the image feature quantity is calculated by the image feature quantity calculation means 11 for the image data 31a. However, since the image data 31a does not have an acoustic signal, the acoustic feature amount is not calculated. In addition, when the metadata is not added to the image data 31a, the semantic feature amount is not calculated. Therefore, the unknown feature quantity calculation means 14 calculates an acoustic feature quantity and a semantic feature quantity for the image data 31a as shown in FIG.
  • the image feature amount is calculated by the image feature amount calculation unit 11 and the acoustic feature amount is calculated by the image feature amount calculation unit 13.
  • the unknown feature quantity calculation means 14 calculates a semantic feature quantity for the moving image data 32a as shown in FIG.
  • the acoustic feature quantity is calculated by the acoustic feature quantity calculation means 13.
  • the unknown feature quantity calculating means 14 calculates an image feature quantity and a semantic feature quantity for the music data 33a as shown in FIG.
  • the unknown feature quantity calculation means 14 preferably selects one of the calculation methods according to the data status, the required processing capacity, and the like.
  • the unknown feature quantity calculation means 14 performs principal component analysis on each feature quantity obtained by the feature quantity calculation means 10 to obtain its eigenspace. Using the eigenspace calculated in this way, the unknown feature quantity calculation means 14 can calculate an unknown feature quantity in each content data.
  • the unknown feature quantity calculation means 14 calculates a feature value vector x for each content data. Specifically, in step S401, the unknown feature quantity calculation unit 14 calculates an image feature vector (image feature quantity), an acoustic feature vector (acoustic feature quantity), and a semantic feature vector (meaning) for predetermined content data from the feature quantity data 34a. (Feature amount) is extracted. In step S402, the unknown feature quantity calculating unit 14 obtains the vector x by arranging the vectors extracted in step S401. At this time, default values are set for unknown feature quantities such as acoustic feature quantities of image data.
  • the unknown feature amount calculation means 14 When the vector x is calculated for all the content data, the unknown feature amount calculation means 14 performs principal component analysis on the vector x of each content in step S403, and acquires a matrix U in which eigenvectors are arranged.
  • the unknown feature amount calculation means 14 calculates a feature value for a feature type that is not associated with a feature value for each content data. Specifically, in step S404, the unknown feature quantity calculation means 14 determines whether or not all feature quantities are associated with a vector x of predetermined content data. For example, when the content data is moving image data and metadata is associated with the moving image data, or when the voice data or caption is included in the moving image data. If all the feature values are associated, the unknown feature value calculation unit 14 processes step S404 for the next content data.
  • the unknown feature quantity calculation unit 14 distributes the process according to the content type in step S405.
  • the unknown feature amount calculation unit 14 calculates a vector in which the acoustic features of the content data are estimated using the matrix U acquired in step S403. If no semantic feature value is associated with the content data, the unknown feature value calculation unit 14 further calculates a vector that estimates the semantic feature of the content data.
  • the unknown feature amount calculation means 14 calculates a vector in which the image features of the content data are estimated using the matrix U acquired in step S403. If no semantic feature value is associated with the content data, the unknown feature value calculation unit 14 further calculates a vector that estimates the semantic feature of the content data.
  • step S408 the unknown feature amount calculation unit 14 calculates a vector in which the semantic feature of the content data is estimated using the matrix U acquired in step S403.
  • Step S404 to S409 are executed for all the content data, the unknown feature amount calculation process ends.
  • the unknown feature quantity calculation means 14 performs a canonical correlation analysis on each feature quantity obtained by the feature quantity calculation means 10, and obtains a canonical correlation coefficient that maximizes the correlation of the features and its correlation.
  • step S501 the unknown feature quantity calculation means 14 reads the feature quantity data 34a and extracts the feature quantity of each content data.
  • the unknown feature quantity calculating means 14 performs canonical correlation analysis on the feature quantity extracted in step S501.
  • the unknown feature amount calculation unit 14 calculates a canonical correlation coefficient that maximizes the correlation between the feature amounts and the correlation.
  • the unknown feature amount calculation means 14 calculates a feature value for a feature type that is not associated with a feature value for each content data. Specifically, in step S604, the unknown feature amount calculation unit 14 determines whether all feature amounts are associated with the vector x of predetermined content data. For example, when the content data is moving image data and metadata is associated with the moving image data, or when the voice data or caption is included in the moving image data. If all the feature values are associated, the unknown feature value calculation unit 14 processes step S504 for the next content data.
  • step S505 the unknown feature quantity calculation means 14 calculates an unknown feature quantity using the canonical correlation coefficient calculated in step S503 and its correlation.
  • step S506 the unknown feature quantity calculation unit 14 registers each feature quantity calculated in step S505 in the feature quantity data 34a in association with the identifier of the content data.
  • the distance calculation means 15 calculates a distance indicating the similarity of each content data based on the feature amount and the feature estimated value stored in the feature amount data 34a. The distance decreases as the contents data are similar, and the distance increases as the contents data are not similar. The calculated distance is stored in the feature data storage unit 34.
  • the content search apparatus 1 can associate the image feature amount, the semantic feature amount, and the acoustic feature amount with respect to all the content data without questioning the content type. Accordingly, it is possible to calculate the similarity between different contents such as the similarity between image data and music data and the similarity between moving image data and music data. Therefore, the user can search for similar content for content of different content types without specifying a specific content type. By associating highly similar contents, for example, “music suitable for images” and “music suitable for moving images” can be extracted. Therefore, in the past, the content could not be associated unless it was a known content. However, according to the embodiment of the present invention, a new content can be created by connecting content unknown to the operator, Can help.
  • the distance is calculated for each of the image feature, the semantic feature, and the acoustic feature. Accordingly, the distance calculation unit 14 pays attention to one feature such as “music data similar to video data (image features) of moving image data” and “image data similar to semantic features of moving image data”. You can also search.
  • the distance calculation means 15 calculates either the unweighted distance or the weighted distance for each feature. With reference to FIG. 11 and FIG. 12, the distance calculation process by the distance calculation means 15 is demonstrated.
  • FIG. 11 illustrates a case where the distance between predetermined query content data stored in the content data storage unit 31 and other search target content data is calculated.
  • the L2 distance of the feature amount is output as the distance between contents.
  • the distance calculation means 15 extracts the feature amount associated with the content identifier of the query content data in step S601 from the feature amount data 34, and extracts the feature amount associated with the content identifier of the search target content data in step S602. To do.
  • the feature amounts extracted in step S601 and step S602 are the image feature amount, the semantic feature amount, and the acoustic feature amount calculated by the feature amount calculation unit 10 and the unknown feature amount calculation unit 14, respectively.
  • step S603 the distance calculating unit 15 calculates the L2 distance of each feature quantity vector extracted in step S601 and step S602 as the distance between the query content and the search target content.
  • the distance calculation means 15 calculates the unweighted distance of the image feature, the unweighted distance of the semantic feature, and the unweighted distance of the acoustic feature.
  • step S604 the L2 distance of each feature calculated in step S603 is output as the distance between contents.
  • the distance calculation unit 15 repeats the processing of steps S601 to S604 for other search target contents, and outputs the query content and the distances of the image feature, semantic feature, and acoustic feature for each search target content. To do.
  • the process for calculating the weighted distance will be described.
  • the Mahalanobis general distance calculated using the covariance matrix is output as the distance between contents.
  • step S651 the distance calculation means 15 obtains a covariance matrix of image features, semantic features, and acoustic features for each content data.
  • step S652 the distance calculation unit 15 calculates a weighted distance of each feature based on the Mahalanobis general distance from the covariance matrix of each feature calculated in step S651.
  • the distance between contents calculated by the distance calculation means 15 is used for calculation of the position where each content is displayed by the display means 16.
  • the display unit 16 searches for content similar to the query content and displays the result.
  • the display means 16 determines the display position of the thumbnail corresponding to each content data based on the distance calculated by the distance calculation means 15 and displays it on the display device 105. For example, the display unit 16 displays the query content at the center of the screen. Further, the display unit 16 displays similar content with a small distance near the query content, and displays content with a large distance that is not similar to the query content.
  • the display unit 16 determines a display position based on the distance between contents using, for example, a multidimensional scaling method (MDS: MultiDimensional Scaling), and displays the display position on the display device 105.
  • MDS MultiDimensional Scaling
  • the “multidimensional scaling method” is one method of multivariate analysis.
  • the “multidimensional scaling method” expresses the relationship between classification objects by the positional relationship of points in a low-dimensional space. In the embodiment of the present invention, by applying to the distance between the feature vectors calculated for each content, the search result holding the similar relationship between the contents is visualized.
  • the display means 16 is a user interface for reproducing various contents such as image data, video data, and music data.
  • the display means 16 realizes reproduction of video data, reproduction of image data, reproduction of music data, and the like.
  • the reproduction of the image data by the display means 16 will be described.
  • the display unit 16 arranges the thumbnail of the image data 31 a in the image data storage unit 31 at an arbitrary position on the display screen of the display device 105 and reproduces the image data 31 a.
  • the display unit 16 generates decorations that shine in the colors included in the image data 31a according to the vertical and horizontal sizes of the image data 31a.
  • the display means 16 arranges and displays this decoration around the image data 31a. In this way, by decorating the periphery of the image data 31a, when displaying on the screen at the same time as the moving image data 32a, a visual effect can be obtained that clarifies the difference in content type from the moving image data 32a.
  • the reproduction of video data by the display means 16 will be described.
  • the display unit 16 arranges the thumbnail of the moving image data 32 a in the moving image data storage unit 32 at an arbitrary position on the display screen of the display device 105 and reproduces the moving image data 32 a.
  • the display means 16 displays the current frame of the moving image data 32a being played back, and arranges an image of the frame behind the frame being played back behind the frame being played back in the three-dimensional space. indicate.
  • the display means 16 always updates the image of the frame currently being reproduced and the image of the frame displayed thereafter as the moving image data 32a is reproduced. Thereby, a visual effect such that an image flows from the back toward the front during reproduction of the moving image data 32a is obtained.
  • the reproduction of music data by the display means 16 will be described.
  • the display means 16 arranges the thumbnail of the music data 33a in the music data storage unit 33 at an arbitrary position on the display screen of the display device 105, and reproduces the music data 33a.
  • the display means 16 obtains a visual effect indicating that the music data 33a is being reproduced by performing an animation such as rotating the thumbnail at the position where the thumbnail of the music data 33a is arranged.
  • the display means 16 performs Fourier transform on the signal length of the music data 33a and the music data 33a, generates animation data based on the result, and displays the animation data on the display device 105.
  • the display unit 16 displays a search result of content similar to the query content.
  • the display unit 16 of the content search device 1 converts the content data being reproduced into query content data.
  • the similar content is searched from the content data storage unit 30 and the search result is displayed on the display device 105.
  • content data having a small distance from the query content data is extracted from various content data stored in the content data storage unit 30 based on the distance between the content calculated by the distance calculation means 15. .
  • the display unit 16 extracts a content identifier having a small distance from the query content data from the distance data 35a, and outputs the content data corresponding to the extracted content identifier as similar content data.
  • the display means 16 can search for similar content data by paying attention only to image features. Further, the display means 16 can search for similar content data by setting a weight with an acoustic feature of 3 and a semantic feature of 7.
  • the display means 16 When searching for similar content data, the display means 16 displays a thumbnail of the content data on the display device 105 based on the positional relationship calculated by the multidimensional scale construction method. On the display screen of the display device 105, the query content data is displayed in a two-dimensional space with the display position of the thumbnail as the origin. The display means 16 gives the coordinates calculated using the multidimensional scale construction method to each search result, and determines the display position and size of each search result. When the thumbnail of the content data is further selected by the user, the display unit 16 can search for similar content using the content data of the selected thumbnail as query content data.
  • thumbnails of images surrounded by double frames are thumbnails of image data.
  • the thumbnail of the image surrounded by the single frame is a thumbnail of the moving image data.
  • the thumbnail of the music score image is a thumbnail of the music data. While this music data is being played, an animation indicating that the thumbnail of the music data is being played back by rotating it is executed.
  • thumbnails of search result content data are displayed regardless of content types such as image data, moving image data, music data, and the like.
  • the coordinates of the two-dimensional space calculated using the multidimensional scaling method with the thumbnail of the query content data as the center Based on the above, the coordinates of the thumbnails of the search result content data are recalculated and arranged on the display screen of the display device 105.
  • the user visually determines the degree of similarity between the query content data and the searched content data, and the degree of similarity between the searched content data, depending on the positional relationship between the plurality of displayed contents. Can be grasped.
  • the content search device 1 according to the embodiment of the present invention is a screen displayed first.
  • a frame for designating query content data is provided.
  • the content search device 1 according to the embodiment of the present invention is similar to the query content data among the various content data stored in the content data storage unit 30.
  • the content data is searched and the result is displayed as shown in the screen of FIG.
  • a thumbnail of query content data is displayed at the center.
  • thumbnails of similar content data are displayed around the thumbnails of the query content data, and are displayed closer as they are similar.
  • the example shown in FIG. 16 is similar to the example shown in FIG. 13 in that a thumbnail of the query content data is displayed at the center of the screen and a thumbnail of the content data of the search result is displayed around it.
  • the thumbnails of the search result content data are displayed regardless of the content type.
  • the display area is divided for each content data type. Is different.
  • the thumbnail of the image data is displayed on the left of the screen
  • the thumbnail of the music data is displayed on the upper right of the screen
  • the thumbnail of the moving image data is displayed on the lower right of the screen.
  • the display unit 16 coordinates the coordinates of the two-dimensional space using the multidimensional scaling method with the thumbnail of the query content data as the center. Is calculated. Further, the display unit 16 recalculates the coordinates of the thumbnails for each content type of the content data of the search result based on the calculated coordinates of the two-dimensional space, and arranges them on the display screen of the display device 105.
  • the user can search for the type of the searched content, the degree of similarity between the query content data and the searched content data, and the searched content. The degree of similarity between data can be grasped visually.
  • thumbnails are displayed in the center. Further, a thumbnail of image data is displayed on the left side of the thumbnail of the query content data, a thumbnail of music data is displayed on the upper right, and a thumbnail of moving image data is displayed on the lower right.
  • thumbnails of query content data is displayed at the upper left of the screen, and thumbnails of search result content data are displayed radially from the thumbnail of the query content data.
  • thumbnails of search result content data are displayed for content data of the same type as the query content data, such as image data, video data, music data, and the like.
  • the display unit 16 arranges the query on the screen edge, and uses a multidimensional scale construction method centering on the thumbnail of the query content data. Based on the calculated coordinates of the two-dimensional space, the coordinates of the thumbnails of the search result content data are recalculated for each medium and arranged on the display screen of the display device 105.
  • a search result displayed in an arrangement in which one medium is focused can visually grasp the degree of similarity between the query content data and the search result based on the positional relationship of the displayed content.
  • the search result is displayed by focusing only on one of the image data, the moving image data, and the music data. In this case, it is not necessary to recalculate the coordinates of the content type thumbnail that is not focused.
  • thumbnails shown in FIG. 15 or FIG. 17 are selected, the search result is displayed by focusing on the content type of the selected thumbnail.
  • “focus” means to search and display by specifying any content type of “moving image”, “sound” or “image”. When the focus is not applied, it means searching and displaying for all content types of “moving image”, “sound” and “image”.
  • FIG. 19 a thumbnail of moving image data similar to the moving image data of the query is displayed with the moving image data focused.
  • a video is played.
  • a plurality of images of frames to be reproduced from now on are displayed three-dimensionally from the center of the screen toward each thumbnail.
  • a music data thumbnail similar to the query content data is displayed with focus on the music data.
  • a thumbnail of image data similar to moving image data is displayed with focus on the image data.
  • the image feature amount, the semantic feature amount, and the acoustic feature amount are calculated for various contents. Therefore, the content search device 1 can search for similar content data such as image data and music data, moving image data and image data, moving image data and music data, regardless of the content type.
  • the retrieved content data can be displayed for each content type by the display means 16.
  • the display means 16 In addition, focusing on predetermined content, it is also possible to search for content similar to the content using the content as query content data.
  • the semantic feature quantity calculating means 12 of the feature quantity calculating means 10 can calculate the semantic feature quantity from the text data. Furthermore, the unknown feature quantity calculation means 14 can calculate the image feature quantity and the acoustic feature quantity. As a result, the image feature amount, the semantic feature amount, and the acoustic feature amount can be calculated for the text data. The distance can be calculated for each. Therefore, similar content data can be searched for text data regardless of the content type.
  • Feature amount calculation algorithm Below, the algorithm of the feature amount calculation process by the feature amount calculation means 10 will be described.
  • a color histogram is used as the image feature amount of the video data of the image data 31a and the moving image data 32a.
  • TFIDF is used as the semantic feature amount of the image data 31a, the moving image data 32a, and the music data 33a.
  • a feature based on the scale transition is used as the acoustic data of the moving image data 32a and the acoustic feature of the music data 33a.
  • the image feature quantity calculation means 11 obtains an HSV color histogram from the still image f still and uses a vector v still in which the elements are arranged in order as the feature vector of the still image f still .
  • the obtained feature vector is p-dimensional.
  • the value is the product of the number of bins in the histogram of hue, saturation and lightness.
  • the image feature amount calculation means 11 calculates an HSV color histogram for each frame of the moving image signal f video and calculates a vector in which the elements are arranged in order.
  • the image feature quantity calculating unit 11 obtains a vector median from the entire feature vectors of all frames, make it an image feature vector v fideo.
  • Meaning feature calculating unit 12 in the embodiment of the present invention calculates the TF-IDF by the following process.
  • the TF-IDF method is a method for calculating the degree of characterizing the content for each word appearing in the content.
  • the degree to which a word is characteristic is calculated by the following equation.
  • TFIDF (t i , C j ) The value of TFIDF (t i , C j ) calculated by the above equation increases as TF (t i , C j ) increases and DF (t i ) decreases. That is, if many words t i appear in the content C j and do not appear so much in other contents, the value of TFIDF (t i , C j ) increases.
  • the semantic feature quantity calculation means 12 normalizes the value of TFIDF by the following equation.
  • it means feature calculating unit 12, by applying the TF-IDF method moving image signal f fideo, feature vectors of text in the content C j Get.
  • feature calculating unit 12 by applying the TF-IDF method moving image signal f fideo, feature vectors of text in the content C j Get.
  • each content C j has a text t i as a feature quantity other than the TF-IDF method, If not age, The feature quantity can also be used.
  • the acoustic feature quantity calculating means 13 calculates an index representing a melody focused on the transition of the scale in the music.
  • the acoustic signal included in the acoustic signal f music and moving image signal f fideo it calculates a feature amount based on the transition of the scale.
  • a short-time Fourier transform (STFT) using a window function h (t), which is a Hanning window is calculated by a fast Fourier transform (FFT) as preprocessing.
  • STFT short-time Fourier transform
  • FFT fast Fourier transform
  • the acoustic feature quantity calculation means 13 calculates a chroma vector from all the processing target sections. Furthermore, the acoustic feature quantity calculation means 13 calculates a scale transition matrix as an index representing a melody by using the obtained chroma vector.
  • a scale transition matrix as an index representing a melody by using the obtained chroma vector.
  • the chroma vector is represented in 12 dimensions, and each dimension of the vector represents the power of the scale with different equal temperament.
  • FIG. 22 shows an outline of chroma vector calculation.
  • the acoustic feature quantity calculation means 13 calculates the STFT for the input music signal at time t, and then converts the frequency axis to the logarithmic scale frequency g to obtain the power spectrum ⁇ p (g, t).
  • the logarithmic scale frequency is expressed in cent units, and the frequency g Hz expressed in Hz is converted into the frequency g cent expressed in cent as follows.
  • a semitone of equal temperament corresponds to 100 cent, and one octave corresponds to 1200 cent. Therefore, the pitch name c (c is an integer of 1 ⁇ c ⁇ 12 and corresponds to the scale C, C is ,..., B), the octave position h frequency Is It can be expressed as.
  • the power at the position of the scale c is added in the octave range from Oct L to Oct H to obtain a 12-dimensional vector Each dimension of Ask for.
  • BPG c, g is a band pass filter that passes the power of the scale c and the octave position h. Defined by the shape of the Hanning window.
  • the calculated vector I is normalized by the following equation to calculate a chroma vector x (t). In the embodiment of the present invention, by calculating the chroma vector in this way, it is possible to appropriately obtain a scale power distribution even in a music signal including multiple sounds.
  • the acoustic feature quantity calculating means 13 calculates a scale transition matrix using the chroma vector x (t).
  • the time t is changed to t + 1.
  • the transition of the scale is expressed by the following equation using the transition matrix A.
  • the transition matrix A is obtained as follows.
  • the transition matrix A obtained by the above equation is 12 ⁇ 12, and each element thereof represents the degree of scale transition from time t to t + 1.
  • the transition matrix A is calculated based on the chroma vector X that is the power distribution of the scale, the major scale transitions are reflected in the elements of the matrix A even in the music signal including multiple sounds. Therefore, it can be considered that the transition matrix A can express a characteristic musical scale transition.
  • the feature vectors of the acoustic signals included in the acoustic signal f music and the moving image signal f video respectively, Is used.
  • the scale transition is expressed by equation (1). Therefore, a melody that is a scale transition can be obtained as the transition matrix A without estimating the fundamental frequency indicated by a specific musical instrument sound that is conventionally difficult to estimate. Thereby, the element of the matrix A can be used as a feature amount.
  • the unknown feature quantity calculating means 14 analyzes the unknown feature quantity based on principal component analysis or canonical correlation analysis.
  • Principal component analysis is used as a technique for extracting explanatory variables from multivariable data in the field of multivariate analysis.
  • a method for estimating a feature amount based on principal component analysis will be specifically described.
  • the unknown feature quantity calculation means 14 is a vector in which they are arranged in order. Ask for. If any one of v j , a j , and w j is unknown, the unknown feature amount calculation unit 14 sets all the elements of the vector to the same value.
  • Unknown feature quantity computing means 14 further obtained vector x 1, x 2, ⁇ ⁇ ⁇ , subjected to principal component analysis on x N, the eigenvectors u 1, u 2, ⁇ , u D (D dimension ) In order Get.
  • an unknown feature quantity is estimated for new content as follows.
  • the unknown feature amount calculation unit 14 calculates the vector x.
  • the unknown feature quantity calculating means 14 is a vector in which the acoustic feature and the semantic feature are estimated.
  • the unknown feature amount calculating unit 14 calculates the vector x
  • the unknown feature quantity calculation means 14 obtains a vector x pca that estimates the image feature and the semantic feature, using Expression (2).
  • the unknown feature quantity calculation means 14 calculates the vector x when the semantic feature is unknown among the image feature v, the acoustic feature a, and the semantic feature w. And The unknown feature quantity calculation means 14 obtains a vector x pca whose semantic feature is estimated by using the equation (2).
  • the feature quantity calculation means 10 is a feature quantity for each of image, sound, and meaning from each content data of image data, music data, and moving image data to which text representing the content of the object is added in advance. Is calculated. Thereafter, the unknown feature quantity calculation means 14 performs principal component analysis on each obtained feature quantity to obtain its eigenspace. Using the eigenspace calculated in this way, the content search device 1 according to the embodiment of the present invention enables estimation of unknown feature quantities in each data. However, it is preferable that each feature amount obtained from each content data of image data, music data, and moving image data subjected to principal component analysis is widely selected so as to sufficiently reflect the characteristics of the target data.
  • the unknown feature quantity calculation means 14 performs linear transformation in canonical correlation analysis.
  • the weight vector w i obtained by However, the unknown feature quantity calculation means 14
  • the average of each component contained in is assumed to be 0.
  • the unknown feature calculating unit 14 for each component of y and X i w i as the following equation, the w i that minimizes the sum of squares of the differences presume.
  • the unknown feature quantity calculation means 14 first assumes that y is known and the above equation is the minimum for each component of the vector w i , from the property of the least square method. It becomes. The equal sign is It is established when
  • the unknown feature quantity calculation means 14 can obtain a linear transformation that maximizes the correlation between different R sets of variable groups.
  • the unknown feature quantity calculation means 14 estimates an unknown feature quantity from a known feature for a new content by any one of the following formulas.
  • the unknown feature quantity calculation means 14 estimates an unknown image feature quantity from a known feature for the new content by any one of the following formulas.
  • the unknown feature quantity calculation means 14 estimates the unknown acoustic feature quantity from the known features for the new content by any one of the following formulas.
  • the unknown feature quantity calculation means 14 estimates an unknown semantic feature quantity from a known feature with respect to the new content by one of the following formulas.
  • the unknown feature quantity calculation means 14 is a vector in which unknown features are estimated. Get.
  • the feature quantity calculation means 10 is a feature quantity for each of image, sound, and meaning from each content data of image data, music data, and moving image data to which text representing the content of the object is added in advance. Is calculated. Thereafter, the unknown feature quantity calculation means 14 performs a canonical correlation analysis on each obtained feature quantity, and obtains a canonical correlation coefficient that maximizes the correlation of each feature and its correlation. As a result, in the embodiment of the present invention, it is possible to compare each feature amount that cannot be compared as it is. However, it is preferable that each feature amount obtained from each content data of image data, music data, and moving image data subjected to canonical correlation analysis is widely selected so as to sufficiently reflect the characteristics of the target data.
  • the distance calculation means 15 calculates an unweighted distance or a weighted distance.
  • the distance calculation process when calculating the unweighted distance will be described. Assume that the query content is C q and the target content is C f . At this time, the distance calculation means 15 uses the unweighted distance of the image feature between the contents. , Unweighted distance of acoustic features , And unweighted distance of semantic features Are calculated by the following equations. However, vector Are image feature vectors in Cq and Cf vectors x obtained by unknown feature value calculation processing by the unknown feature value calculation means 14, respectively. As well Is a vector of acoustic and semantic features.
  • the distance calculation means 15 is a weighted distance of image features between the contents based on the Mahalanobis general distance. , Weighted distance of acoustic features , And weighted distance of semantic features are calculated by the following equations.
  • the matrices W v , W a , and W w are covariance matrices of images, sounds, and semantic features in all the contents to be searched and classified, and are obtained by the following equations.
  • N is the total number of contents.
  • the display unit 16 displays the search result on the display screen of the display device 105 based on the distance data 35 output by the distance calculation unit 15.
  • the smaller the distance between the predetermined content and the query content more specifically, the closer the content is, the closer the thumbnail of the content is displayed near the thumbnail of the query content.
  • the thumbnail of the content is displayed farther from the query content.
  • a multidimensional scaling method is applied to the distance between feature vectors calculated for each content, thereby visualizing a search result that retains the similarity between the contents. .
  • x 1 ,..., x n be feature vectors calculated for n contents
  • D be an n ⁇ n matrix whose elements are values obtained by squaring the distances between x i and x j
  • J be an n ⁇ n matrix obtained as a result of subtracting a 1 / n matrix of all elements from the unit matrix.
  • the content search apparatus 1 calculates one or more feature quantities of image, meaning, and sound from content data of any one of image, video, and music. Furthermore, the content search apparatus 1 can calculate an unknown feature amount in the content data from the feature amounts calculated for each content data, and can associate all feature amounts of image, meaning, and sound with each content data. .
  • a content search device 1 it is possible to perform a cross-sectional search regardless of the type of content, such as music data similar to image data, image data similar to moving image data, and the like. Therefore, the user can use the content search apparatus 1 to search for similar content data one after another from the query content data. The user can search for desired content data from a large amount of content data. Further, by outputting the search results across the board, it is possible to acquire sensory search results such as searching for music data that matches the image data.
  • First modification As a first modified example of the present invention, a case will be described in which a feature amount focused on a repeated portion of an acoustic signal is calculated.
  • the repeated portion is, for example, a “rust” portion of a song.
  • the feature amount is calculated from the entire music piece. Therefore, the calculated feature amount is smoothed by the time length, and the extraction accuracy may be deteriorated. Therefore, in the first modification, by introducing a method for detecting repeated sections of music, the section that appears most frequently in the music is detected, and the similarity between the songs is determined using the transition matrix obtained from the section. Is calculated. As described above, by using the similarity calculated from the repeated section of the music, in the first modification, it is possible to extract a high-precision similar music.
  • the content search device 1a differs from the content search device 1 according to the embodiment of the present invention described with reference to FIG. .
  • the acoustic feature quantity calculation means 13 identifies a melody that repeatedly appears in the acoustic signal, and sets the feature quantity of the repeated melody as the feature quantity of the acoustic feature. Therefore, the acoustic feature stored in the feature amount data storage unit 34 is considered to be a feature amount for the repeated section of the acoustic signal, and a feature amount that focuses on the feature of the music.
  • the music processed by the acoustic feature quantity calculation means 13 is an acoustic data portion of the moving image data stored in the moving image data storage unit 32 of the content data storage unit 30. And music data stored in the music data storage unit 33.
  • Feature calculating unit 13 divides the music signal into frames of a fixed length as a pretreatment, calculates a chroma vector X t as a feature amount from the frame at time t. Furthermore, the acoustic feature quantity calculating means 13 detects the repeated section by using the similarity calculated for all the combinations of frames.
  • the acoustic feature quantity calculating means 13 calculates the correlation coefficient between X t and X t ⁇ l (0 ⁇ l ⁇ t) by the similarity r (t, l) ( ⁇ 1 ⁇ r (t, l) ⁇ Obtained as 1).
  • the similarity r (t, l) is drawn on the tl plane, where the horizontal axis is t and the vertical axis is l, the region where the similarity is continuously increased corresponding to the repeated section in the music is the time. Appears as a line parallel to the axis. Therefore, by detecting such a line segment, the acoustic feature quantity calculating means 13 can obtain a repeated section in the music.
  • a chroma vector in which each element is almost equal tends to have a high similarity with other chroma vectors, and may appear as a straight line with a high similarity in the tl plane.
  • the acoustic feature quantity calculation means 13 according to the first modification of the present invention emphasizes a line segment parallel to the time axis using a moving average filter, thereby achieving high accuracy. Detect repeated intervals.
  • the acoustic feature quantity calculation means 13 uses the feature quantity extracted from such a section, thereby Calculate the appropriate similarity.
  • the acoustic feature quantity calculating means 13 calculates a feature quantity that represents a musical scale transition from a repeated section.
  • the time change from the chroma vector X t to X t + 1 is expressed by the following equation using the transition matrix A.
  • t in the repeated section A matrix A that minimizes the average of is obtained as follows.
  • X t and X t + 1 are respectively It is represented by
  • T represents the total number of chroma vectors calculated from the repeated section.
  • the acoustic feature quantity calculation means 13 calculates the correlation coefficient of the transition matrix as the similarity between music pieces using the feature quantity representing the scale transition.
  • the acoustic feature quantity calculating means 13 calculates the correlation coefficient between the repeated section n of the query song and the repeated section m of the song stored in the content data storage unit 30 by the following equation. However, Is obtained by the following equation.
  • the storage device 107 includes a user enforcement data storage unit 36 and an important user data storage unit 37, as compared with the content search device 1 according to the embodiment of the present invention shown in FIG. And the central processing control apparatus 101 is different in that the important user determination means 17 is provided. Further, in FIG. 25, the processing of the distance calculation means 15a and the display means 16a differs from the processing of the distance calculation means 15 and the display means 16 shown in FIG.
  • the user preference data storage unit 36 is a storage area in which user preference data 36a is stored.
  • the user preference data 36a is data in which a user identifier is associated with a content identifier that matches the user's preference.
  • the user preference data 36a may be generated from a playlist stored in a user terminal used by the user.
  • the content search device 1b may receive the user identifier and the content identifier recorded in the playlist from the user terminal, and generate the user preference data 36a.
  • the user preference data 36a displays, for example, a screen for inputting content that suits the user terminal, and the content search device 1b receives the content individually specified by the user, and receives the user identifier and the user identifier.
  • the user preference data 36a may be generated by associating with the content identifier.
  • the important user data storage unit 37 stores important user data 37a.
  • the important user data 37a is data in which an identifier of an important user representing the set among a set of users who like the content is stored. Therefore, the important user data 37a is data in which a content identifier is associated with an important user identifier of the content.
  • the important user determining means 17 described later determines an important user, generates important user data 37a, and stores it in the important user data storage unit 37. Only one important user may be selected for one content. Further, the important user is a user whose score calculated by the following equation (6) is a predetermined value or more, and a plurality of users may be selected for each content.
  • the important user determination unit 17 For each content identifier, the important user determination unit 17 creates a set of user identifiers associated with the content in the user preference data 36a, creates a directed side between users in each set, and represents each set. Decide which important users to use.
  • An important user is, for example, a user who can express the characteristics of many other users by a content identifier associated with the important user.
  • the important user is a user who is deemed to have qualifying information regarding the input keyword.
  • a relatively small number of content identifiers are associated with important users, and these content identifiers are preferably associated with other users.
  • the important user determining unit 17 creates a directed edge between users based on the user's preference, and forms a user network.
  • a directed side (link) is provided, and when the user does not have common content, the directed side is not provided.
  • this directed side a user who has a large amount of content is a link source, and a small number of users is a link destination.
  • the important user determining means 17 applies an HITS (Hypertext Induced. Topic Selection) algorithm to this network to determine the authority.
  • the important user determining means 17 outputs the user as the authority as the important user.
  • step S701 the important user determining unit 17 reads the user preference data 36a, and in step S702, creates a set of users who prefer the same content. One set of users is created for one content identifier. Further, in step S702, the important user determining unit 17 creates a directed edge between the users in each set based on the content preferred by the user.
  • step S704 the important user determining unit 17 defines a set of contents, in which the users created in step S703 are associated with directed sides, as a user network.
  • step S705 the important user determining unit 17 applies the HITS algorithm to the network defined in step S704.
  • step S706 the important user determining unit 17 determines and outputs the authority as the important user.
  • the distance calculation means 15a extracts the content identifier associated with the user identifier of the important user in the user preference data 36a. Further, the distance calculation unit 15a extracts a feature amount and a feature estimated value corresponding to the extracted content identifier from the feature amount data 34a, and based on the feature amount and the feature estimated value, a distance indicating the similarity of each content data Is calculated. When calculating the distance indicating the similarity of each content data based on the feature amount and the feature estimated value stored in the feature amount data 34a, the distance calculating unit 15a uses the user identifier of the important user in the user preference data 36a. In consideration of the associated content identifier, a distance indicating the similarity of each content data is calculated.
  • the distance calculation means 15 does not consider the preference data of users who are not important users for the set of content identifiers associated with the identifiers of important users in the user preference data 36a, and principal component analysis or canonical correlation analysis. May be applied. Further, the distance calculation unit 15 may calculate the distance based on the city area distance or the Mahalanobis distance after the principal component analysis or the canonical correlation analysis, and calculate the similarity between the contents. By calculating the similarity using only the content associated with a specific important user, it is possible to calculate the similarity with high accuracy with a small amount of calculation.
  • the display unit 16a determines the display position of the thumbnail corresponding to the content data based on the distance calculated by the distance calculation unit 19, and displays a screen as shown in FIG. Further, the display unit 16a extracts a plurality of user identifiers associated with the predetermined content in the user preference data 36a, and each of the plurality of user identifiers is considered as a node and a directed side between the users. The user network including this link is displayed and displayed on the display device 105.
  • the display unit 16a extracts the content identifier associated with the user identifier corresponding to the node in the user preference data 36a.
  • a list of identifiers of the contents may be displayed on the display means 16a. For example, a user selects a node of a user having high similarity, that is, a user's node that is displayed nearby in the user network and connected by a thick link, and refers to a list of contents in which the user is interested. be able to. Thus, the user can grasp the content that matches his / her preference from the content list of the user who has a preference similar to that of the user.
  • the link distance of the user network is determined by the similarity of the feature amount.
  • the thickness of the link of the user network corresponds to the number of common content identifiers among the content identifiers associated with these user identifiers in the user preference data 36a. For example, when the similarity of the feature amount of the user's favorite content is high and many common contents are owned, the link length between the nodes becomes short and the link becomes thick.
  • the content search apparatus 1b creates a set of users who prefer the same content for each content. And a directed side is created between each user based on the inclusion relation of the content which each user likes.
  • link analysis or the like By applying link analysis or the like to the directed graph obtained in this way, it is possible to extract important users in each network.
  • the amount of calculation can be reduced while maintaining the accuracy of the similarity. Also, by displaying this user network and acquiring a content list that suits the user's preference, the user can know new content.
  • each user when each user likes the same content, each user belongs to the same network.
  • the network corresponding to each content has a matrix L k (k ⁇ ⁇ 1, 2,..., N; N is the total number of contents) represented by the following expression having a link relationship between users as an element: ).
  • L k an element of i rows and j columns of the matrix L k is represented by L k (i, j).
  • Total content preferred by the user i is represented by F i.
  • the number of common contents that user i and user j prefer is represented by C i, j .
  • the second modified example of the present invention performs processing such as link analysis on the obtained matrix L k , so that important users in the network taking into account the content that the user likes (hereinafter referred to as authority ( authority)) can be extracted. Therefore, it is possible to present similar content in consideration of individual user's preference by focusing on the content that the extracted authority likes.
  • a method using the HITS algorithm will be described as an example of a specific method for extracting an authority in order to realize a search for similar content in consideration of user preferences.
  • HITS is a technique for obtaining, by link analysis, a user (authority) who has accurate information regarding an input keyword and a user (hub) having a plurality of links to these authorities.
  • authorities and hubs are recursively defined as “good authorities are linked from multiple hubs and good hubs are linked to multiple authorities”.
  • Authority and hub are obtained by scoring by link analysis based on this definition.
  • the link is calculated based on the feature amount of the favorite content associated with each user in the user preference data. For example, if the user has many blue images in the image data, the user is connected with a user who has many blue images by a thick link. In the following, the processing procedure of HITS is shown.
  • HITS HITS, the existence of a link between users belonging to the same host l is ignored, and an adjacency matrix is created.
  • Equation (6) For the user i, two kinds of scores, an authority score a i and a hub score h i , are defined as shown in Equation (6) and Equation (7), respectively. Furthermore, both scores are calculated according to equations (6) and (7).
  • n represents the total number of users belonging to the base set.
  • ⁇ and ⁇ represent normalization constants.
  • a process of “substituting a i obtained by Expression (6) into a j of Expression (7)”; and a process of “substituting h i obtained by Expression (7) into h j of Expression (6)”. Are repeated and updated until a i and h i no longer change. This update process is performed for all users included in the base set.
  • Procedure (3) A user having a high authority score and a user having a large hub score are referred to as authority and hub, respectively. This procedure (3) is repeated until each user's authority score and hub score converge.
  • the authority score of the user i is calculated from the sum of the hub scores of the users who link to the user i.
  • the hub score of the user i is calculated from the sum of the authority scores of the users linked from the user i.
  • the distance is calculated in consideration of the feature of the content that the authority determined by the above-mentioned HITS prefers. To do.
  • the distance calculation method will be described below with respect to distance calculation based on city distance and distance calculation based on Mahalanobis general distance.
  • the distance calculation means 15a calculates a weight matrix using all contents that are preferred by the authority for the query content q determined by HITS.
  • the total content preferred by the authority is content corresponding to the content identifier associated with the identifier of the user who is the authority in the user preference data 36a.
  • the weight matrix is calculated by the following formula.
  • the distance calculation means 15a calculates the distance according to the calculation method described in the distance calculation means 15 of the embodiment of the present invention using the above weight matrix.
  • the authority in the network of the user who likes the query content appropriately expresses the content that all users in the network like. Therefore, the distance calculation unit 15a can calculate the distance as described above, thereby weighting the distance in consideration of the content desired by the authority. Thereby, the content search apparatus 1b can implement
  • the user network display is operated by the user during the reproduction of the content such as the moving image signal, whereby the network of the user who likes the content being reproduced is constructed, and the display means 16 a displays the construction result on the display device 105.
  • the user network is displayed based on the coordinate position relationship in the three-dimensional space calculated by the multidimensional scaling method.
  • each user existing in the network is displayed as a node.
  • the display unit 16a displays a list of contents that the user likes.
  • the display unit 16a displays the selected user, the user as the authority in the network, and the user as the hub in different colors and patterns.
  • the link relationship between users in the network is expressed by the thickness of the line and the flow of the ball.
  • the direction of the link is displayed by displaying so that the ball flows from the link source to the link destination.
  • the larger the value, the thicker the line and the link direction is expressed by the flow of the ball.
  • the display unit 16a displays the displayed search results as coordinates of the two-dimensional space calculated using the multidimensional scaling method with the query as the center. Based on, the coordinates are recalculated, arranged and displayed. Thereby, the search result reflecting the user's preference in the network is displayed, and the user can visually grasp the degree of similarity between the contents based on the positional relationship between the displayed contents.
  • the content search apparatus described in the embodiment of the present invention may be configured on one piece of hardware as shown in FIG. 1, or may be configured on a plurality of pieces of hardware according to the functions and the number of processes. May be. Moreover, you may implement

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 コンテンツ検索装置1は、複数の種別の各コンテンツデータについて、各コンテンツデータが有する画像特徴、音響特徴および意味特徴のうちいずれか一つ以上の特徴量を算出し、特徴量データ34aを記憶する特徴量算出手段10と、特徴量データにおいて34a、コンテンツ識別子に対応づけられた特徴種別の特徴量から、コンテンツ識別子に対応づけられていない特徴種別の未知の特徴量を算出し、特徴推定値として特徴量データ34aに記憶する未知特徴量算出手段14と、特徴量データ34aに記憶されている特徴量および特徴推定値に基づいて、各コンテンツデータの類似度を示す距離を算出する距離算出手段15と、距離算出手段15によって算出された距離に基づいて、コンテンツデータに対応するサムネイルの表示位置を決定して、表示装置に表示する表示手段16とを備える。

Description

コンテンツ検索装置およびコンテンツ検索プログラム
 本発明は、類似するコンテンツデータを検索するコンテンツ検索装置およびコンテンツ検索プログラムに関する。
 近年の情報通信ネットワークや記憶媒体の発達に伴い、ユーザは大量のコンテンツデータを取得することができるようになった。ユーザは、自身が作成したコンテンツデータを取得できるのみならず、配信サイトなどに接続してコンテンツデータを取得することができる。このコンテンツデータは、画像データ、動画データ、音楽データ等の各種のコンテンツデータが含まれる。画像データは、静止画等のデータである。動画データは、テレビ録画物、ビデオ録画物、映画やアニメーションなどのデータである。音楽データは、クラッシック音楽、歌謡曲、BGMなどのデータである。
 これらコンテンツデータの数は膨大である。従ってユーザは、膨大な数のコンテンツデータから所望のコンテンツデータを検索するために、コンピュータにより実現される検索システムを利用することが一般的である。
 一般的には、これらの各コンテンツ種別について、所望のコンテンツを検索する装置が開示されている。例えば動画データを検索する検索装置(例えば、特許文献1参照。)、音楽データを検索する検索装置(例えば、特許文献2参照。)などがある。また、楽曲の繰り返し区間を検出する方法もある(例えば、非特許文献1参照。)。
国際公開第2002/033589号 特開2005-10771号公報
M. A. Bartsch and G. H. Wake_eld, "To chatch a chorus: using chroma-based representations for audio thumbnailing," Proc. WAS-PAA'01, pp. 15-18, 2001.
 しかしながら、上記特許文献1または特許文献2に記載の検索システムにおいては、各種コンテンツデータのうち、特定の1種類のコンテンツデータのみを検索対象としている。従って、従来の検索システムにおいては、動画像、画像、音楽のそれぞれのコンテンツの検索において個別の検索システムを用いなければならなかった。また、動画像と画像、画像と音楽、および音楽と動画像など、異なるコンテンツ種別のコンテンツデータから、類似するコンテンツを検索することはできなかった。
 また、従来、各コンテンツデータについて予め、作成者、コンテンツ内容等のメタデータが付与されており、これらのメタデータを用いて類似するコンテンツデータを検索する検索システムが多い。このような検索システムを利用する場合、予め各コンテンツデータにメタデータを付与する必要があり、膨大な数のコンテンツデータの処理をするに際し、弊害となるおそれがある。
 そこで、ユーザが、コンテンツ種別を意識することなく、またメタデータがなくとも所望のコンテンツデータを容易に検索することができる技術の開発が期待されている。
 従って本発明の目的は、異なる種別のコンテンツデータについて、類似するコンテンツデータを検索するコンテンツ検索装置およびコンテンツ検索プログラムを提供することである。
 上記課題を解決するために、本発明の第1の特徴は、異なる種別のコンテンツデータについて、類似するコンテンツデータを検索するコンテンツ検索装置に関する。即ち本発明の第1の特徴に係るコンテンツ検索装置は、画像特徴、音響特徴および意味特徴のうちいずれか一つ以上を有する複数のコンテンツデータが、コンテンツ識別子に対応づけて記憶装置に記憶されたコンテンツデータ記憶部と、コンテンツデータ記憶部に記憶された各コンテンツデータについて、各コンテンツデータが有する画像特徴、音響特徴および意味特徴のうちいずれか一つ以上の特徴量を算出し、コンテンツ識別子と、画像特徴、音響特徴および意味特徴の特徴種別と、その特徴量とを関連づけた特徴量データを、記憶装置に記憶する特徴量算出手段と、特徴量データにおいて、コンテンツ識別子に対応づけられた特徴種別の特徴量から、コンテンツ識別子に対応づけられていない特徴種別の未知の特徴量を算出し、特徴推定値として特徴量データに記憶する未知特徴量算出手段と、特徴量データに記憶されている特徴量および特徴推定値に基づいて、各コンテンツデータの類似度を示す距離を算出する距離算出手段と、距離算出手段によって算出された距離に基づいて、コンテンツデータに対応するサムネイルの表示位置を決定して、表示装置に表示する表示手段とを備える。
 ここで、未知特徴量算出手段は、例えば、特徴量データにおいて、コンテンツ識別子に対応づけられた特徴種別の特徴量から、主成分分析を用いて特徴推定値を算出する。また他の例としては、未知特徴量算出手段は、特徴量データにおいて、コンテンツ識別子に対応づけられた特徴種別の特徴量から、正準相関分析を用いて特徴推定値を算出する。
 特徴量算出手段は、音響特徴の特徴量を算出する際、音響信号のうち繰り返し現れるメロディーを特定し、その繰り返しメロディーの特徴量を、音響特徴の特徴量としても良い。
 第1の特徴に係るコンテンツ検索装置は、さらに、ユーザ識別子と、当該ユーザの嗜好に合うコンテンツ識別子とが関連づけられたユーザ嗜好データが、記憶装置に記憶されたユーザ嗜好データ記憶部と、各コンテンツ識別子について、ユーザ嗜好データにおいて当該コンテンツに関連づけられたユーザ識別子の集合を作成するとともに、各集合において、ユーザ間に有向辺を作成し、各集合を代表する重要ユーザを決定する重要ユーザ決定手段と、をさらに備えても良い。この場合、距離算出手段は、ユーザ嗜好データにおいて重要ユーザのユーザ識別子に関連づけられたコンテンツ識別子を抽出し、抽出したコンテンツ識別子に対応する特徴量および特徴推定値に基づいて、各コンテンツデータの類似度を示す距離を算出することが好ましい。
 表示手段はさらに、ユーザ嗜好データにおいて、所定のコンテンツに関連づけられた複数のユーザの識別子を抽出し、複数のユーザの識別子のそれぞれをノードと、ユーザ間の有向辺を考慮したノード間のリンクを含むユーザネットワークを表示して、表示装置に表示しても良い。
 本発明の第2の特徴は、異なる種別のコンテンツデータについて、類似するコンテンツデータを検索するコンテンツ検索プログラムに関する。即ち本発明の第2の特徴に係るコンテンツ検索プログラムは、コンピュータに、画像特徴、音響特徴および意味特徴のうちいずれか一つ以上を有する複数のコンテンツデータが、コンテンツ識別子に対応づけて記憶装置に記憶された各コンテンツデータについて、各コンテンツデータが有する画像特徴、音響特徴および意味特徴のうちいずれか一つ以上の特徴量を算出し、コンテンツ識別子と、画像特徴、音響特徴および意味特徴の特徴種別と、その特徴量とを関連づけた特徴量データを、記憶装置に記憶する特徴量算出手段と、特徴量データにおいて、コンテンツ識別子に対応づけられた特徴種別の特徴量から、コンテンツ識別子に対応づけられていない特徴種別の未知の特徴量を算出し、特徴推定値として特徴量データに記憶する未知特徴量算出手段と、特徴量データに記憶されている特徴量および特徴推定値に基づいて、各コンテンツデータの類似度を示す距離を算出する距離算出手段と、距離算出手段によって算出された距離に基づいて、コンテンツデータに対応するサムネイルの表示位置を決定して、表示装置に表示する表示手段として実現させる。
 ここで、未知特徴量算出手段は、例えば、特徴量データにおいて、コンテンツ識別子に対応づけられた特徴種別の特徴量から、主成分分析を用いて特徴推定値を算出する。また他の例としては、未知特徴量算出手段は、特徴量データにおいて、コンテンツ識別子に対応づけられた特徴種別の特徴量から、正準相関分析を用いて特徴推定値を算出する。
 特徴量算出手段は、音響特徴の特徴量を算出する際、音響信号のうち繰り返し現れるメロディーを特定し、その繰り返しメロディーの特徴量を、音響特徴の特徴量としても良い。
 第2の特徴に係るコンテンツ検索プログラムは、ユーザ識別子と、当該ユーザの嗜好に合うコンテンツ識別子とが関連づけられたユーザ嗜好データが、記憶装置に記憶されたユーザ嗜好データにおいて当該コンテンツに関連づけられたユーザ識別子の集合を、各コンテンツ識別子について作成するとともに、各集合において、ユーザ間に有向辺を作成し、各集合を代表する重要ユーザを決定する重要ユーザ決定手段と、をさらにコンピュータに実行させても良い。この場合、距離算出手段は、ユーザ嗜好データにおいて重要ユーザのユーザ識別子に関連づけられたコンテンツ識別子を抽出し、抽出したコンテンツ識別子に対応する特徴量および特徴推定値に基づいて、各コンテンツデータの類似度を示す距離を算出することが好ましい。
 表示手段はさらに、ユーザ嗜好データにおいて、所定のコンテンツに関連づけられた複数のユーザの識別子を抽出し、複数のユーザの識別子のそれぞれをノードと、ユーザ間の有向辺を考慮したノード間のリンクを含むユーザネットワークを表示して、表示装置に表示しても良い。
 本発明によれば、異なる種別のコンテンツデータについて、類似するコンテンツデータを検索するコンテンツ検索装置およびコンテンツ検索プログラムを提供することができる。
図1は、本発明の実施の形態に係るコンテンツ検索装置の機能を説明する図である。 図2は、本発明の実施の形態に係るコンテンツ検索装置で算出する特徴量を説明する図である。 図3は、本発明の実施の形態に係るコンテンツ検索装置で算出する未知の特徴量を説明する図である。 図4は、本発明の実施の形態に係るコンテンツ検索装置のハードウェア構成を説明する図である。 図5は、本発明の実施の形態に係るコンテンツ検索装置の特徴量データのデータ構造とデータの一例を説明する図である。 図6は、本発明の実施の形態に係るコンテンツ検索装置の画像特徴量算出処理を説明するフローチャートである。 図7は、本発明の実施の形態に係るコンテンツ検索装置の意味特徴量算出処理を説明するフローチャートである。 図8は、本発明の実施の形態に係るコンテンツ検索装置の音響特徴量算出処理を説明するフローチャートである。 図9は、本発明の実施の形態に係るコンテンツ検索装置において、主成分分析による未知特徴量算出処理を説明するフローチャートである。 図10は、本発明の実施の形態に係るコンテンツ検索装置において、正準相関分析による未知特徴量算出処理を説明するフローチャートである。 図11は、本発明の実施の形態に係るコンテンツ検索装置において、重みなし距離を算出する距離算出処理を説明するフローチャートである。 図12は、本発明の実施の形態に係るコンテンツ検索装置において、重み付き距離を算出する距離算出処理を説明するフローチャートである。 図13は、本発明の実施の形態に係るコンテンツ検索装置において、画面中央にクエリコンテンツデータのサムネイルを表示し、その周囲に検索結果のコンテンツデータのサムネイルを表示する画面構成を説明する図である。 図14は、本発明の実施の形態に係るコンテンツ検索装置において、クエリコンテンツデータを指定する画面の一例を説明する図である。 図15は、本発明の実施の形態に係るコンテンツ検索装置において、画面中央にクエリコンテンツデータのサムネイルを表示し、その周囲に検索結果のコンテンツデータのサムネイルを表示する画面の一例を説明する図である。 図16は、本発明の実施の形態に係るコンテンツ検索装置において、コンテンツデータの種別毎に表示エリアを分けて表示する画面構成を説明する図である。 図17は、本発明の実施の形態に係るコンテンツ検索装置において、コンテンツデータの種別毎に表示エリアを分けて表示する画面の一例を説明する図である。 図18は、本発明の実施の形態に係るコンテンツ検索装置において、画面左上にクエリコンテンツデータのサムネイルを表示し、クエリコンテンツデータのサムネイルから放射状に検索結果のコンテンツデータのサムネイルを表示する画面構成を説明する図である。 図19は、本発明の実施の形態に係るコンテンツ検索装置において、画面左上にクエリコンテンツデータのサムネイルを表示し、クエリコンテンツデータのサムネイルから放射状に、検索結果の一つの動画データにフォーカスをあてて表示する画面の一例を説明する図である。 図20は、本発明の実施の形態に係るコンテンツ検索装置において、画面左上にクエリコンテンツデータのサムネイルを表示し、クエリコンテンツデータのサムネイルから放射状に、検索結果の一つの音楽データにフォーカスをあてて表示する画面の一例を説明する図である。 図21は、本発明の実施の形態に係るコンテンツ検索装置において、画面左上にクエリコンテンツデータのサムネイルを表示し、クエリコンテンツデータのサムネイルから放射状に、検索結果の一つの画像データにフォーカスをあてて表示する画面の一例を説明する図である。 図22は、本発明の実施の形態に係るコンテンツ検索装置において、クロマベクトル算出の概要を説明する図である。 図23は、本発明の実施の形態に係るコンテンツ検索装置において、遷移行列を説明する図である。 図24は、本発明の実施の形態に係るコンテンツ検索装置において、正準相関分析で得られた相関行列を説明する図である。 図25は、本発明の第2の変形例に係るコンテンツ検索装置の機能を説明する図である。 図26は、本発明の第2の変形例に係るコンテンツ検索装置において、重要ユーザを決定する重要ユーザ決定処理を説明するフローチャートである。 図27は、本発明の第2の変形例に係るコンテンツ検索装置において、ユーザネットワークを表示する画面の一例を説明する図である。
 次に、図面を参照して、本発明の実施の形態を説明する。以下の図面の記載において、同一又は類似の部分には同一又は類似の符号を付している。
(実施の形態)
 図1に示すように、本発明の実施の形態に係るコンテンツ検索装置1は、異なる種別のコンテンツデータについて、類似するコンテンツデータを検索する。具体的にはコンテンツ検索装置1は、コンテンツデータ記憶部30に記憶された各種コンテンツデータについて、各コンテンツデータから特徴量を算出する。この際、コンテンツ検索装置1は、各種コンテンツデータにメタデータが付与されているか否かにかかわらず、特徴量を算出する。
 さらにコンテンツ検索装置1は、各コンテンツデータの未知の特徴量を、算出可能な特徴量から推定する。コンテンツ検索装置1は、算出された特徴量および推定された特徴量から、各コンテンツデータの距離を算出し、類似度を決定し、表示装置105に検索結果を3次元の空間として表現して表示する。
 本発明の実施の形態において「コンテンツデータ」は、画像データ、動画データおよび音楽データを示す。またコンテンツデータとして、テキストデータが含まれていても良い。また本発明の実施の形態において「特徴量」は、画像特徴量、意味特徴量および音響特徴量を示す。画像特徴量は、静止画の画像データや動画の各フレームのデータの色ヒストグラムに基づいて算出される。意味特徴量は、単語が出現する頻度などに基づいて算出される。音響特徴量は、音階の時間変化に基づいて算出される。
 図2および図3を参照して、各コンテンツデータについて、算出される特徴量と、推定される未知の特徴量とを説明する。
 図2に示すように、画像データは画像特徴を有しているので、コンテンツ検索装置1は、画像データから画像特徴量を算出する。また、画像データにメタデータが付与されている場合、コンテンツ検索装置1は、画像データのメタデータから意味特徴量も算出する。さらにコンテンツ検索装置1は、未知特徴量として音響特徴量を算出するとともに、メタデータがない場合、さらに意味特徴量も算出する。これにより、図3に示すように画像データは、画像特徴量、意味特徴量および音響特徴量の全ての特徴量を有する。
 図2に示すように、音楽データは音響特徴を有しているので、コンテンツ検索装置1は、音楽データから音響特徴量を算出する。また、音楽データにメタデータが付与されている場合、コンテンツ検索装置1は、音楽データのメタデータから意味特徴量も算出する。さらにコンテンツ検索装置1は、未知特徴量として画像特徴量を算出するとともに、メタデータがない場合、さらに意味特徴量も算出する。これにより、図3に示すように音楽データは、画像特徴量、意味特徴量および音響特徴量の全ての特徴量を有する。
 図2に示すように、動画データは画像特徴および音響特徴を有しているので、コンテンツ検索装置1は、動画データから画像特徴量および音響特徴量を算出する。また、動画データにメタデータが付与されている場合、コンテンツ検索装置1は、動画データのメタデータから意味特徴量も算出する。また、動画データに人の声やキャプションなどが含まれている場合、これらのデータをテキストデータとして抽出することにより、コンテンツ検索装置1は、動画データの意味特徴量も算出する。意味特徴量が算出されない場合、さらにコンテンツ検索装置1は、未知特徴量として意味特徴量を算出する。これにより、図3に示すように動画データは、画像特徴量、意味特徴量および音響特徴量の全ての特徴量を有する。
 このように、本発明の実施の形態に係るコンテンツ検索装置1は、コンテンツの種別にかかわらず、各コンテンツデータについて、画像特徴量、意味特徴量および音響特徴量を算出することができる。さらに、コンテンツ検索装置1は、各コンテンツデータに対応付けられた画像特徴量、意味特徴量および音響特徴量に基づいてコンテンツ間の距離を算出し、コンテンツの類似度を算出することができる。従って、コンテンツの種別にかかわらず、類似するコンテンツを検索することができる。
 このようなコンテンツ検索装置1は、例えば、画像データに類似する音楽データを検索することにより、画像に合う音楽を抽出することができる。また、コンテンツ検索装置1は、音楽データに類似する動画データを検索することにより、音楽に合う動画を抽出することができる。
(コンテンツ検索装置のハードウェア構成)
 図4に示すように、本発明の実施の形態に係るコンテンツ検索装置1は、中央処理制御装置101、ROM(Read Only Memory)102、RAM(Random Access Memory)103及び入出力インタフェース109が、バス110を介して接続されている。入出力インタフェース109には、入力装置104、表示装置105、通信制御装置106、記憶装置107及びリムーバブルディスク108が接続されている。
 中央処理制御装置101は、入力装置104からの入力信号に基づいてROM102からコンテンツ検索装置1を起動するためのブートプログラムを読み出して実行し、更に記憶装置107に記憶されたオペレーティングシステムを読み出す。更に中央処理制御装置101は、入力装置104や通信制御装置106などの入力信号に基づいて、各種装置の制御を行ったり、RAM103や記憶装置107などに記憶されたプログラム及びデータを読み出してRAM103にロードするとともに、RAM103から読み出されたプログラムのコマンドに基づいて、データの計算又は加工など、後述する一連の処理を実現する処理装置である。
 入力装置104は、操作者が各種の操作を入力するキーボード、マウスなどの入力デバイスにより構成されており、操作者の操作に基づいて入力信号を作成し、入出力インタフェース109及びバス110を介して中央処理制御装置101に送信される。表示装置105は、CRT(Cathode Ray Tube)ディスプレイや液晶ディスプレイなどであり、中央処理制御装置101からバス110及び入出力インタフェース109を介して表示装置105において表示させる出力信号を受信し、例えば中央処理制御装置101の処理結果などを表示する装置である。通信制御装置106は、LANカードやモデムなどの装置であり、コンテンツ検索装置1をインターネットやLANなどの通信ネットワークに接続する装置である。通信制御装置106を介して通信ネットワークと送受信したデータは入力信号又は出力信号として、入出力インタフェース109及びバス110を介して中央処理制御装置101に送受信される。
 記憶装置107は半導体記憶装置や磁気ディスク装置であって、中央処理制御装置101で実行されるプログラムやデータが記憶されている。リムーバブルディスク108は、光ディスクやフレキシブルディスクのことであり、ディスクドライブによって読み書きされた信号は、入出力インタフェース109及びバス110を介して中央処理制御装置101に送受信される。
 本発明の実施の形態に係るコンテンツ検索装置1の記憶装置107には、コンテンツ検索プログラムが記憶されるとともに、図1に示すように、記憶装置107は、コンテンツデータ記憶部30、特徴量データ記憶部34および距離データ記憶部35を備える。また、コンテンツ検索プログラムがコンテンツ検索装置1の中央処理制御装置101に読み込まれ実行されることによって、特徴量算出手段10、未知特徴量算出手段14、距離算出手段15および表示手段16が、コンテンツ検索装置1に実装される。
 次に図1を参照して、本発明の実施の形態に係るコンテンツ検索装置1を説明する。
 記憶装置107は、コンテンツデータ記憶部30、特徴量データ記憶部34および距離データ記憶部35を備える。
 コンテンツデータ記憶部30は、コンテンツデータが記憶された記憶領域である。コンテンツデータは、画像特徴、音響特徴および意味特徴のうちいずれか一つ以上を有している。コンテンツデータ記憶部30において、各コンテンツデータは、コンテンツ識別子に対応づけられて記憶されている。コンテンツデータ記憶部30は、画像データ記憶部31、動画データ記憶部32および記憶された音楽データ記憶部31を備える。画像データ記憶部31には、画像データ31aがコンテンツ識別子と関連づけられて記憶されている。画像データ記憶部31に、複数の画像データが記憶されていても良い。動画データ記憶部32には、動画データ32aがコンテンツ識別子と関連づけられて記憶されている。動画データ記憶部32に、複数の動画データが記憶されていても良い。音楽データ記憶部33には、音楽データ33aがコンテンツ識別子と関連づけられて記憶されている。音楽データ記憶部33に、複数の音楽データが記憶されていても良い。
 特徴量データ記憶部34には、特徴量データ34aが記憶されている。特徴量データは、各コンテンツデータの画像特徴量、音響特徴量および意味特徴量を関連づけたデータである。特徴量データ34aは、各コンテンツ識別子と、画像特徴量、音響特徴量および意味特徴量を関連づけたデータである。各特徴量は、後述する特徴量算出手段10によって算出された特徴量、または未知特徴量算出手段14によって算出された特徴量である。
 図5を参照して、本発明の実施の形態に係る特徴量データ34aを説明する。図5(a)に示す特徴量データ34aは、コンテンツ識別子、コンテンツ種別、画像特徴量、音響特徴量および意味特徴量の各項目を有する。コンテンツ識別子は、各コンテンツデータ記憶部30に記憶されたコンテンツデータに関連づけられた識別子である。コンテンツ種別は、コンテンツデータ記憶部30に記憶されたコンテンツの種別であり、図5に示す例では、画像、音楽および動画のいずれかの種別を有する。画像特徴量、音響特徴量および意味特徴量の各項目には、コンテンツデータの各特徴の特徴量が関連づけられている。
 特徴量算出手段10によって各コンテンツデータの特徴量が算出されると、図5(a)に示すように、特徴量算出手段10によって算出された特徴量が特徴量データ34aに登録される。図5(a)に示すように、コンテンツ種別が「画像」の場合、画像特徴量が、関連づけられる。コンテンツ種別が「音楽」の場合、音響特徴量が関連づけられる。コンテンツ種別が「動画」の場合、画像特徴量および音響特徴量がそれぞれ関連づけられる。メタデータ、音声データまたはキャプチャデータ等からテキストデータを取得できる場合、各コンテンツ識別子に、意味特徴量が関連づけられる場合もある。
 さらに未知特徴量算出手段14によって各コンテンツデータの未知の特徴量が算出されると、図5(b)に示すように、特徴量算出手段10によって算出された特徴量が特徴量データ34aに登録され、各コンテンツデータについて、画像特徴量、音響特徴量および意味特徴量が関連づけられる。図5(b)に示すように、コンテンツ種別が「画像」の場合、音響特徴量が、コンテンツ種別が「音楽」の場合、画像特徴量が、それぞれ新たに関連づけられる。各コンテンツデータについて特徴量算出手段10によって意味特徴量が関連づけられていない場合、未知特徴量算出手段14によって算出される意味特徴量が関連づけられる。
 距離データ記憶部35には、距離データ35aが記憶されている。距離データ35aは、コンテンツデータ記憶部30に記憶される各コンテンツデータの任意の2つのコンテンツデータのコンテンツ識別子と、画像特徴量、意味特徴量および音響特徴量のそれぞれの類似度を示す距離を関連づけたデータである。後述する特徴量算出手段10および未知特徴量算出手段14によって、コンテンツデータ記憶部30に記憶される全てのコンテンツデータについて、画像特徴量、意味特徴量および音響特徴量が算出され、コンテンツ識別子に対応付けられた特徴量データ34aが生成される。さらに距離算出手段15は、特徴量データ34aから任意の2つのコンテンツデータの画像特徴量、意味特徴量および音響特徴量を抽出し、画像特徴、意味特徴および音響特徴のそれぞれについて、この2つのコンテンツデータの類似度となる距離を算出する。距離算出手段15は、この2つのコンテンツデータの識別子と、画像特徴の距離、意味特徴の距離および音響特徴の距離を関連づけて、距離データ35aを生成する。
 中央処理制御装置101には、コンテンツ検索プログラムがインストールされることにより、特徴量算出手段10、未知特徴量算出手段14、距離算出手段15および表示手段16が実装される。
 特徴量算出手段10は、コンテンツデータ記憶部30に記憶された各コンテンツデータについて、各コンテンツデータが有する画像特徴、音響特徴および意味特徴のうちいずれか一つ以上の特徴量を算出し、コンテンツ識別子と、画像特徴、音響特徴および意味特徴の特徴種別と、その特徴量とを関連づけた特徴量データ34aを、記憶装置107の特徴量データ記憶部34に記憶する。特徴量算出手段10は、画像特徴量算出手段11、意味特徴量算出手段12および音響特徴量算出手段13を備える。
 画像特徴量算出手段11は、画像データ記憶部31に記憶された画像データ31aについて、画像特徴量として、色ヒストグラムを算出する。さらに画像特徴量算出手段11は、動画データ記憶部32に記憶された動画データ32aのうち映像データについて、全フレームからそれぞれ色ヒストグラムを算出し、そのベクトルメジアンを画像特徴量とする。
 図6(a)を参照して、本発明の実施の形態に係る画像特徴量算出手段11が、画像データ31aについて画像特徴量を算出する処理を説明する。各画像データについて、ステップS101ないしステップS103の処理が繰り返される。
 具体的には、ステップS101において画像特徴量算出手段11は、一つのコンテンツ識別子に対応する画像データについて、RGB表示系における色ヒストグラムを算出する。このときのRGBの各ビン数は、例えば4、4および4とする。次にステップS102において画像特徴量算出手段11は、ステップS101で得られたベクトルを、当該画像データの画像特徴量として出力する。ステップS101においてRGBのビン数を4、4および4にした場合、このベクトルは64次元である。ステップS103において画像特徴量算出手段11は、ステップS102で出力した画像特徴量を、当該画像データのコンテンツ識別子に対応する画像特徴量として、特徴量データ34aに記録する。
 図6(b)を参照して、本発明の実施の形態に係る画像特徴量算出手段11が、動画データ32aについて画像特徴量を算出する処理を説明する。各動画データの映像データについて、ステップS151ないしステップS155の処理が繰り返される。
 具体的には、ステップS151において画像特徴量算出手段11は、一つのコンテンツ識別子に対応する動画データの映像データ部分を抽出し、各フレームについて、64次元ベクトルを算出する。まずステップS151において画像特徴量算出手段11は、一つのフレームの画像データについて、RGB表示系における色ヒストグラムを算出する。このときのRGBの各ビン数は、例えば4、4および4とする。次にステップS152において画像特徴量算出手段11は、ステップS151で得られたベクトルを、当該フレームの特徴量として出力する。ステップS151においてRGBのビン数を4、4および4にした場合、ステップS152で取得されるベクトルは64次元である。
 一つの動画データの映像データ部分の各フレームについて64次元ベクトルが取得されると、ステップS153において、各フレームの64次元ベクトルからベクトルメジアンを算出し、ステップS154として当該映像データの画像特徴量として出力する。ステップS155において画像特徴量算出手段11は、ステップS154で出力した画像特徴量を、当該動画データのコンテンツ識別子に対応する画像特徴量として、特徴量データ34aに記録する。
 意味特徴量算出手段12は、意味特徴量を算出する。画像データ31a、動画データ32aおよび音楽データ33aにテキスト形式のメタデータが付与されている場合、意味特徴量算出手段12は、これらのメタデータから意味特徴量を算出する。意味特徴量算出手段12は、さらに、動画データ32aに人の声やキャプチャのデータが含まれている場合、これらのデータをテキスト形式に変換して意味特徴量を算出しても良い。また意味特徴量算出手段12は、音楽データ33aに歌声が含まれている場合、この歌声のデータをテキスト形式に変換して歌詞データを取得し、意味特徴量を算出しても良い。
 図7を参照して、本発明の実施の形態に係る意味特徴量算出手段12が、各コンテンツデータについて意味特徴量を算出する処理を説明する。各コンテンツデータのテキストデータについて、ステップS201ないしステップS208の処理が繰り返される。
 まず意味特徴量算出手段12は、各コンテンツデータのテキストデータに含まれる各単語について、ステップS201ないしステップS205の処理を繰り返し、TFIDFを取得する。TFIDFは、テキスト中の特徴的な単語について、TF(Term Frequency:出現頻度)およびIDF(Inverse Document Frequency:逆出現頻度)の二つの指標に基づいて算出される。
 ステップS201において意味特徴量算出手段12は、各単語がコンテンツ中に出現する回数TFを算出する。次にステップS202において意味特徴量算出手段12は、各単語が出現するコンテンツ数DFを算出し、ステップS203において、ステップS202で算出されたDFを用いてIDFを算出する。ステップS204において意味特徴量算出手段12は、ステップS201で算出されたTFと、ステップS203で算出されたIDFとを用いて、各単語のTFIDFを算出する。ステップS205において意味特徴量算出手段12は、ステップS204で算出したTFIDFを正規化する。
 所定のコンテンツに含まれる各単語について、TFIDFが正規化されると、ステップS206において意味特徴量算出手段12は、特徴ベクトルとして算出する。特徴ベクトルは、全コンテンツに含まれる単語数を次元数とするベクトルである。ステップS207において意味特徴量算出手段12は、ステップS206において算出された特徴ベクトルを、当該コンテンツデータのコンテンツ識別子に対応する意味特徴量として、特徴量データ34aに記録する。
 音響特徴量算出手段13は、音楽データ記憶部33に記憶された音楽データ33aについて、音響特徴量を算出する。さらに音響特徴量算出手段13は、動画データ記憶部32に記憶された動画データ32aのうち音響データについて、音響特徴量を算出する。
 図8を参照して、本発明の実施の形態に係る音響特徴量算出手段13が、音楽データ33aと動画データ32aのうちの音響データについて画像特徴量を算出する処理を説明する。各音楽データまたは音響データの音響信号について、ステップS301ないしステップS306の処理が繰り返される。
 ステップS301ないしステップS304において音響特徴量算出手段13は、各時刻の音響信号についてクロマベクトルを算出する。具体的には音響特徴量算出手段13は、ステップS301において、所定時刻の音響信号について帯域通過フィルタを施し、ステップS302において、各音階に対するパワーを抽出する。これにより、各時刻における音階のパワーの分布を得ることができる。ステップS303において音響特徴量算出手段13は、ステップS302で抽出した各音階に対応する周波数のパワーを、オクターブ毎に換算し、ステップS304において各周波数パワーを要素とするクロマベクトルを算出する。
 所定の音楽データまたは音響データの各時刻の音響信号についてクロマベクトルが算出されると、ステップS305において音響特徴量算出手段13は、各時刻のクロマベクトルから、その時間変化を表す音階の遷移行列を算出する。このとき音響特徴量算出手段13は、所定時刻の1単位時間前のクロマベクトルから、所定時刻のクロマベクトルを推定した際の平均二乗誤差が最小となるように、遷移行列を算出する。ステップS306において音響特徴量算出手段13は、ステップS305において算出された音階の遷移行列の各要素を、当該コンテンツデータのコンテンツ識別子に対応する音響特徴量として、特徴量データ34aに記録する。
 未知特徴量算出手段14は、特徴量データ34aにおいて、コンテンツ識別子に対応づけられた特徴種別の特徴量から、コンテンツ識別子に対応づけられていない特徴種別の未知の特徴量を算出し、特徴推定値として特徴量データ34aに記憶する。
 例えば、図2に示すように、画像データ31aについて、画像特徴量算出手段11によって画像特徴量が算出される。しかし画像データ31aは音響信号を有していないので、音響特徴量は算出されない。また、画像データ31aにメタデータが付与されていない場合、意味特徴量は算出されない。そこで、未知特徴量算出手段14は、画像データ31aについて、図3に示すように音響特徴量および意味特徴量を算出する。
 動画データ32aについて、画像特徴量算出手段11によって画像特徴量が算出されるとともに、画像特徴量算出手段13によって音響特徴量が算出される。動画データ32aにメタデータが付与されていない場合や、人の声やキャプションなどが含まれていない場合、意味特徴量は算出されない。そこで、未知特徴量算出手段14は、動画データ32aについて、図3に示すように意味特徴量を算出する。
 音楽データ33aについて、音響特徴量算出手段13によって音響特徴量が算出される。しかし音楽データ31aは画像信号を有していないので、画像特徴量は算出されない。また、音楽データ33aにメタデータが付与されていない場合、意味特徴量は算出されない。そこで、未知特徴量算出手段14は、音楽データ33aについて、図3に示すように画像特徴量および意味特徴量を算出する。
 未知の特徴量を算出するためには、異なる特徴間の相関が求める必要がある。未知の特徴量を算出する方法としては、主成分分析による方法、正準相関分析による方法などが考えられる。
 正準相関分析が異なる特徴間の相関求めるのに最適な方法であるのに対して、主成分分析による方法では、同一特徴間での相関も求める。その一方、主成分分析では、全ての特徴間で相関が求まっていることから、どの特徴が既知である、未知であることの拘束は存在しない。従って、主成分分析では、計算量を削減することができる。
 これに対し正準相関分析による方法では、既知のデータ、未知のデータがはっきりとしている場合に、最適な相関を算出することが可能である。
 未知特徴量算出手段14は、データの状況や、要求される処理能力等に応じて、いずれかの計算手法を選択することが好ましい。
 図9を参照して、未知特徴量算出手段14の主成分分析による未知特徴量算出処理を説明する。未知特徴量算出手段14は、特徴量算出手段10によって得られた各特徴量に対して主成分分析を施し、その固有空間を得る。このように算出される固有空間を用いて、未知特徴量算出手段14は、各コンテンツデータにおける未知の特徴量を算出することができる。
 まずステップS401におよびステップS402において未知特徴量算出手段14は、各コンテンツデータについて、その特徴値のベクトルxを算出する。具体的にはステップS401において未知特徴量算出手段14は、特徴量データ34aから、所定のコンテンツデータについて、画像特徴ベクトル(画像特徴量)、音響特徴ベクトル(音響特徴量)および意味特徴ベクトル(意味特徴量)を抽出する。ステップS402において未知特徴量算出手段14は、ステップS401で抽出した各ベクトルを並べて、ベクトルxを求める。このとき、画像データの音響特徴量などの未知の特徴量については、デフォルト値を設定する。
 全てのコンテンツデータについてベクトルxが算出されると、ステップS403において未知特徴量算出手段14は、各コンテンツのベクトルxについて主成分分析を施し、固有ベクトルを並べた行列Uを取得する。
 ステップS404ないしステップS409において未知特徴量算出手段14は、各コンテンツデータについて特徴値が関連づけられていない特徴種別について、特徴値を算出する。具体的には、ステップS404において未知特徴量算出手段14は、所定のコンテンツデータのベクトルxについて、全ての特徴量が関連づけられているか判定する。例えば、コンテンツデータが動画データの場合で、かつ、動画データにメタデータが関連づけられている場合や、動画データ中に人の声やキャプションが含まれている場合である。全ての特徴量が関連づけられている場合、未知特徴量算出手段14は、次のコンテンツデータについて、ステップS404を処理する。
 一方、いずれかの特徴量が関連づけられていない場合、ステップS405において未知特徴量算出手段14は、コンテンツ種別に応じて処理をふりわける。コンテンツデータが画像データの場合、ステップS406において未知特徴量算出手段14は、ステップS403で取得した行列Uを利用して、当該コンテンツデータの音響特徴を推定したベクトルを算出する。当該コンテンツデータに意味特徴量が関連づけられていない場合、未知特徴量算出手段14はさらに、当該コンテンツデータの意味特徴を推定したベクトルを算出する。
 コンテンツデータが音楽データの場合、ステップS407において未知特徴量算出手段14は、ステップS403で取得した行列Uを利用して、当該コンテンツデータの画像特徴を推定したベクトルを算出する。当該コンテンツデータに意味特徴量が関連づけられていない場合、未知特徴量算出手段14はさらに、当該コンテンツデータの意味特徴を推定したベクトルを算出する。
 コンテンツデータが動画データの場合、ステップS408において未知特徴量算出手段14は、ステップS403で取得した行列Uを利用して、当該コンテンツデータの意味特徴を推定したベクトルを算出する。
 ステップS406ないしステップS408で、行列Uを利用して未知の特徴量が算出されると、ステップS409において、算出された特徴量を、当該コンテンツデータの識別子に関連づけて特徴量データ34aに登録する。
 全てのコンテンツデータについてステップS404ないしステップS409が実行されると、未知特徴量算出処理は終了する。
 図10を参照して、未知特徴量算出手段14の正準相関分析による未知特徴量算出処理を説明する。未知特徴量算出手段14は、特徴量算出手段10によって得られた各特徴量に対して正準相関分析を施し、その特徴の相関が最大となる正準相関係数およびその相関を得る。
 まずステップS501において未知特徴量算出手段14は、特徴量データ34aを読み出し、各コンテンツデータの特徴量を抽出する。ステップS502において未知特徴量算出手段14は、ステップS501で抽出した特徴量に対して、正準相関分析を施す。ステップS503において未知特徴量算出手段14は、特徴量間の相関が最大となる正準相関係数およびその相関を算出する。
 ステップS504ないしステップS506において未知特徴量算出手段14は、各コンテンツデータについて特徴値が関連づけられていない特徴種別について、特徴値を算出する。具体的には、ステップS604において未知特徴量算出手段14は、所定のコンテンツデータのベクトルxについて、全ての特徴量が関連づけられているか判定する。例えば、コンテンツデータが動画データの場合で、かつ、動画データにメタデータが関連づけられている場合や、動画データ中に人の声やキャプションが含まれている場合である。全ての特徴量が関連づけられている場合、未知特徴量算出手段14は、次のコンテンツデータについて、ステップS504を処理する。
 一方、いずれかの特徴量が関連づけられていない場合、ステップS505において未知特徴量算出手段14は、ステップS503で算出した正準相関係数およびその相関を用いて、未知の特徴量を算出する。ステップS506において未知特徴量算出手段14は、ステップS505で算出した各特徴量を、当該コンテンツデータの識別子に関連づけて特徴量データ34aに登録する。
 全てのコンテンツデータについてステップS504ないしステップS506が実行されると、未知特徴量算出処理は終了する。
 距離算出手段15は、特徴量データ34aに記憶されている特徴量および特徴推定値に基づいて、各コンテンツデータの類似度を示す距離を算出する。各コンテンツデータが類似するほど距離は小さくなり、類似しないほど距離は大きくなる。算出された距離は、特徴データ記憶部34に記憶される。
 本発明の実施の形態においてコンテンツ検索装置1は、全てのコンテンツデータについて、コンテンツ種別を問うことなく、画像特徴量、意味特徴量および音響特徴量が関連づけることができる。従って、画像データと音楽データの類似性、動画データと音楽データの類似性など、異なるコンテンツ間の類似度を算出することができる。
 従って、ユーザは特定のコンテンツの種類を指定することなく、異なるコンテンツ種別のコンテンツについて、類似するコンテンツを検索することができる。
 類似性の高いコンテンツを関連づけることにより、例えば「画像に合う音楽」や「動画に合う音楽」などを抽出することができる。従って、従来は知っているコンテンツでなければ関連づけができなかったところ、本発明の実施の形態によれば、操作者にとって未知のコンテンツを結びつけて新たなコンテンツを制作したり、コンテンツ制作の発想を支援することができる。
 また、本発明の実施の形態においては、画像特徴、意味特徴および音響特徴のそれぞれについて距離を算出する。従って距離算出手段14は、「動画データの映像データ(画像特徴)に類似する音楽データ」や、「動画データの意味特徴に類似する画像データ」など、一つの特徴に着目して類似するコンテンツを検索することもできる。
 本発明の最良の実施の形態において距離算出手段15は、各特徴について、重みなしの距離、および重み付き距離のいずれかを算出する。図11および図12を参照して、距離算出手段15による距離算出処理を説明する。
 図11を参照して、重みなしの距離を算出する処理を説明する。図11では、コンテンツデータ記憶部31に記憶された所定のクエリコンテンツデータと、それ以外の検索対象のコンテンツデータとの距離を算出する場合について説明する。図11に示す例では、特徴量のL2距離を、コンテンツ間の距離として出力する。
 距離算出手段15は、特徴量データ34から、ステップS601においてクエリコンテンツデータのコンテンツ識別子に関連づけられた特徴量を抽出するとともに、ステップS602において検索対象コンテンツデータのコンテンツ識別子に関連づけられた特徴量を抽出する。ステップS601およびステップS602で抽出される特徴量は、特徴量算出手段10および未知特徴量算出手段14によって算出された画像特徴量、意味特徴量および音響特徴量である。
 ステップS603において距離算出手段15は、クエリコンテンツと検索対象コンテンツ間の距離として、ステップS601およびステップS602で抽出した各特徴量のベクトルのL2距離を算出する。距離算出手段15は、画像特徴の重みなし距離、意味特徴の重みなし距離、および音響特徴の重みなし距離をそれぞれ算出する。ステップS604において、ステップS603で算出した各特徴のL2距離を、コンテンツ間の距離として出力する。
 さらに、距離算出手段15は、他の検索対象コンテンツについてもステップS601ないしステップS604の処理を繰り返し、クエリコンテンツと、各々の検索対象コンテンツについて、画像特徴、意味特徴および音響特徴のそれぞれの距離を出力する。
 図12を参照して、重み付き距離を算出する処理を説明する。図12に示す例では、共分散行列を用いて算出されるマハラノビス汎距離を、コンテンツ間の距離として出力する。
 まずステップS651において距離算出手段15は、各コンテンツデータについて、画像特徴、意味特徴および音響特徴の共分散行列を求める。ステップS652において距離算出手段15は、ステップS651で算出した各特徴の共分散行列から、マハラノビス汎距離に基づいた各特徴の重み付き距離を算出する。
 距離算出手段15によって算出されたコンテンツ間の距離は、表示手段16によって各コンテンツが表示される位置の算出に用いられる。
 表示手段16は、クエリコンテンツが与えられた場合に、そのクエリコンテンツに類似するコンテンツの検索や、その結果を表示する。表示手段16は、距離算出手段15によって算出された距離に基づいて、各コンテンツデータに対応するサムネイルの表示位置を決定して、表示装置105に表示する。表示手段16は例えば、クエリコンテンツを画面の中央に表示する。さらに表示手段16は、距離が小さく類似するコンテンツをクエリコンテンツの近くに表示するとともに、距離が大きく類似しないコンテンツをクエリコンテンツの遠くに表示する。
 表示手段16は、例えば、多次元尺度構成法(MDS:MultiDimensional Scaling)を用いて、コンテンツ間の距離に基づく表示位置を決定し、表示装置105に表示する。「多次元尺度構成法」は、多変量解析の一手法である。「多次元尺度構成法」は、分類対象物の関係を低次元空間における点の位置関係によって表現する。本発明の実施の形態においては、各コンテンツにおいて算出された特徴ベクトル間の距離に対して適用することで、コンテンツ間の類似関係を保持した検索結果を可視化する。
 表示手段16は、さらに、画像データ、映像データおよび音楽データの各種コンテンツを再生するユーザインタフェースである。表示手段16は、映像データの再生、画像データの再生、音楽データの再生などを実現する。
 表示手段16による画像データの再生を説明する。表示手段16は、画像データ記憶部31の画像データ31aのサムネイルを、表示装置105の表示画面の任意の位置に配置するとともに、画像データ31aを再生する。このとき、表示手段16は、画像データ31aに含まれる色に光る装飾を画像データ31aの縦横のサイズに合わせて生成する。表示手段16は、画像データ31aの周囲にこの装飾を配置して表示する。このように、画像データ31aの周囲に装飾を行うことにより、動画データ32aと同時に画面に表示する場合、その動画データ32aとのコンテンツ種別の差異を明確にする視覚効果が得られる。
 表示手段16による映像データの再生を説明する。表示手段16は、動画データ記憶部32の動画データ32aのサムネイルを、表示装置105の表示画面の任意の位置に配置するとともに、動画データ32aを再生する。このとき表示手段16は、再生中の動画データ32aの現在のフレームを表示するとともに、現在再生中のフレームより後方のフレームの画像を、3次元空間上で再生中のフレームの後方に配置して表示する。表示手段16は、動画データ32aの再生に伴って、現在再生しているフレームの画像と、その後に表示されるフレームの画像を常に更新する。これにより、動画データ32aの再生中に、画像が奥から手前に向かって流れているような視覚効果が得られる。
 表示手段16による音楽データの再生を説明する。表示手段16は、音楽データ記憶部33の音楽データ33aのサムネイルを、表示装置105の表示画面の任意の位置に配置するとともに、音楽データ33aを再生する。このとき表示手段16は、音楽データ33aのサムネイルの配置された位置で、サムネイルを回転させるなどのアニメーションを行うことにより、音楽データ33aが再生中であることを表す視覚効果が得られる。表示手段16は、音楽データ33aの信号長や、音楽データ33aをフーリエ変換し、この結果に基づいて、アニメーションデータを生成し、表示装置105に表示する。
 クエリコンテンツが与えられた場合に、表示手段16が、そのクエリコンテンツに類似するコンテンツの検索結果を表示する場合を説明する。本発明の実施の形態においては、動画データ等のコンテンツデータの再生中に、ユーザによって検索指示が入力されると、コンテンツ検索装置1の表示手段16は、再生中のコンテンツデータを、クエリコンテンツデータとして、コンテンツデータ記憶部30から類似するコンテンツを検索し、表示装置105に検索結果を表示する。
 コンテンツの検索においては、距離算出手段15によって算出されたコンテンツ間の距離に基づいて、コンテンツデータ記憶部30に記憶された各種コンテンツデータから、クエリコンテンツデータとの距離の小さいコンテンツデータが抽出される。具体的には、表示手段16は、距離データ35aから、クエリコンテンツデータと距離の小さいコンテンツ識別子を抽出し、抽出されたコンテンツ識別子に対応するコンテンツデータを、類似するコンテンツデータとして出力する。ここで、距離データ35aは画像特徴、意味特徴および音響特徴のそれぞれについて距離が算出されているので、画像特徴、意味特徴および音響特徴の各パラメータに重みを設定して類似するコンテンツデータを出力してもよい。これによれば、表示手段16は、画像特徴のみに着目して類似するコンテンツデータを検索することができる。また表示手段16は、音響特徴を3、意味特徴を7とする重みを設定して、類似するコンテンツデータを検索することができる。
 表示手段16は、類似するコンテンツデータを検索すると、多次元尺度構成法によって算出された位置関係に基づいて、そのコンテンツデータのサムネイルを表示装置105に表示する。表示装置105の表示画面において、クエリコンテンツデータのサムネイルの表示位置を原点とした2次元空間で表示される。表示手段16は、多次元尺度構成法を用い算出された座標をそれぞれの検索結果に与え、各検索結果の表示位置および大きさを決定する。さらにユーザによってそのコンテンツデータのサムネイルが選択されると、表示手段16は、選択されたサムネイルのコンテンツデータをクエリコンテンツデータとした類似コンテンツを検索することができる。
 表示手段16が、クエリコンテンツデータと、クエリコンテンツデータに類似するコンテンツデータを表示する際、例えば、図13、図16および図18に示すような表示パターンが考えられる。図13、図16および図18の表示パターンで表示した具体例を、それぞれ図14、図15、図17および図19ないし図21に示す。図15、図17および図19ないし図21において、二重枠で囲まれている画像のサムネイルは、画像データのサムネイルである。また一重枠で囲まれている画像のサムネイルは、動画データのサムネイルである。この動画データのサムネイルでは、動画データが再生されていても良い。また、音譜の画像のサムネイルは、音楽データのサムネイルである。この音楽データが再生されている間、その音楽データのサムネイルは、回転するなどして再生中であることを示すアニメーションが実行される。
 図13に示す例では、画面中央にクエリコンテンツデータのサムネイルを表示し、その周囲に検索結果のコンテンツデータのサムネイルを表示している。クエリコンテンツデータのサムネイルに近いほど、類似するコンテンツデータである。図13に示す例では、画像データ、動画データ、音楽データ等のコンテンツの種別に関係なく、検索結果のコンテンツデータのサムネイルが表示される。
 この場合、動画データ32a等のコンテンツデータの再生中に、ユーザによって検索指示が入力された場合、クエリコンテンツデータのサムネイルを中心として、多次元尺度構成法を用いて算出された2次元空間の座標に基づいて、検索結果のコンテンツデータのサムネイルの座標を再計算し、表示装置105の表示画面に配置する。図13に示す例において、表示されている複数のコンテンツの位置関係によって、ユーザは、クエリコンテンツデータと検索されたコンテンツデータの類似する度合い、および検索されたコンテンツデータ同士が類似する度合いを、視覚的に把握することができる。
 図14および図15を参照して、図13に示す例に従ってサムネイルを表示した画面例を説明する。まず図14において、本発明の実施の形態に係るコンテンツ検索装置1が、最初に表示する画面である。図14の中央に、クエリコンテンツデータを指定する枠が設けられている。ユーザによって、この枠にクエリコンテンツデータが設定されると、本発明の実施の形態に係るコンテンツ検索装置1は、コンテンツデータ記憶部30に記憶された各種コンテンツデータのうち、クエリコンテンツデータに類似するコンテンツデータを検索し、図15に示す画面の様に、その結果を表示する。図15においては、中心にクエリコンテンツデータのサムネイルが表示される。またクエリコンテンツデータのサムネイルの周辺には、類似するコンテンツデータのサムネイルが表示され、類似するほど近くに表示される。
 図16に示す例では、画面中央にクエリコンテンツデータのサムネイルを表示し、その周囲に検索結果のコンテンツデータのサムネイルを表示する点で図13に示す例と類似する。図13に示す例では、検索結果のコンテンツデータのサムネイルを表示する際、コンテンツ種別に関係なく表示していたが、図16に示す例では、コンテンツデータの種別毎に表示エリアを分けている点が異なる。図16に示す例では、検索結果のコンテンツデータのサムネイルのうち、画面左に画像データのサムネイルを、画面右上に音楽データのサムネイルを、画面右下に動画データのサムネイルを表示している。
 この場合、動画データ32a等のコンテンツ再生中に、ユーザによって検索指示が入力された場合、表示手段16は、クエリコンテンツデータのサムネイルを中心として、多次元尺度構成法を用いて2次元空間の座標を算出する。さらに表示手段16は、算出された2次元空間の座標に基づいて、検索結果のコンテンツデータのコンテンツ種別ごとに、そのサムネイルの座標を再計算し、表示装置105の表示画面に配置する。図16に示す例において、表示されている複数のコンテンツのエリアおよび位置関係によって、ユーザは、検索されたコンテンツの種別、クエリコンテンツデータと検索されたコンテンツデータの類似する度合い、および検索されたコンテンツデータ同士が類似する度合いを、視覚的に把握することができる。
 図17を参照して、図16に示す例に従ってサムネイルを表示した画面例を説明する。図17に示す例では、中央にクエリコンテンツデータのサムネイルが表示されている。また、クエリコンテンツデータのサムネイルの左側には画像データのサムネイルが、右上には音楽データのサムネイルが、右下には動画データのサムネイルが、それぞれ表示されている。
 図18に示す例では、画面左上にクエリコンテンツデータのサムネイルを表示し、クエリコンテンツデータのサムネイルから放射状に検索結果のコンテンツデータのサムネイルを表示する。図18に示す例では、画像データ、動画データ、音楽データ等の、クエリコンテンツデータと同じ種類のコンテンツデータについて、検索結果のコンテンツデータのサムネイルが表示される。
 この場合、動画データ32a等のコンテンツ再生中に、ユーザによって検索指示が入力された場合、表示手段16は、クエリを画面端に配置し、クエリコンテンツデータのサムネイルを中心として多次元尺度構成法を用いて算出された2次元空間の座標に基づいて、検索結果のコンテンツデータのサムネイルの座標を、メディア別に再計算し表示装置105の表示画面に配置する。
 一つのメディアにフォーカスを当てた配置で表示される検索結果は、表示されているコンテンツの位置関係によって、クエリコンテンツデータと検索結果が類似する度合いを視覚的に把握することができる。図18に示す例では、画像データ、動画データおよび音楽データのいずれか一つのメディアにのみフォーカスを当てて、検索結果を表示する。この場合、フォーカスが当てられていないコンテンツ種別のサムネイルについては、座標を再計算する必要はない。
 図19ないし図21を参照して、図18に示す例に従ってサムネイルを表示した画面例を説明する。図19ないし図21に示す画面例は、例えば図15または図17において示されたサムネイルのいずれか一つが選択された場合に、その選択されたサムネイルのコンテンツ種別にフォーカスをあてて検索結果を表示した画面例である。ここで、「フォーカスをあてる」とは、「動画像」、「音響」または「画像」のいずれかのコンテンツ種別を特定して検索および表示することを言う。フォーカスを当てない場合は、「動画像」、「音響」および「画像」の全てのコンテンツ種別について検索および表示することを言う。
 図19では、動画データにフォーカスをあてて、クエリの動画データに類似する動画データのサムネイルが表示されている。各サムネイルでは、動画が再生されている。また、画面の中央から各サムネイルに向かって、これから再生されるフレームの複数の画像が3次元的に表示されている。図20では、音楽データにフォーカスをあてて、クエリコンテンツデータに類似する音楽データのサムネイルが表示されている。図21では、画像データにフォーカスをあてて、動画データに類似する画像データのサムネイルが表示されている。
(効果)
 このように本発明の実施の形態に係るコンテンツ検索装置1によれば、各種コンテンツについて、画像特徴量、意味特徴量および音響特徴量を算出する。従って、コンテンツ検索装置1は、画像データと音楽データ、動画データと画像データ、動画データと音楽データなど、コンテンツ種別にかかわらず、類似するコンテンツデータを検索することができる。
 さらに、検索されたコンテンツデータについて、表示手段16は、コンテンツ種別ごとに表示することもできる。また、所定のコンテンツに着目して、そのコンテンツをクエリコンテンツデータとして、そのコンテンツに類似するコンテンツを検索することもできる。
 なお、コンテンツデータとして、文字や音声のみからなるテキストデータを用いても良い。テキストデータから、特徴量算出手段10の意味特徴量算出手段12が意味特徴量を算出することができる。さらに、未知特徴量算出手段14が画像特徴量および音響特徴量を算出することができる。これによりテキストデータについても、画像特徴量、意味特徴量および音響特徴量を算出することができるので、距離算出手段15は、テキストデータと音楽データ、テキストデータと画像データ、テキストデータと動画データのそれぞれについても距離を算出できる。従って、テキストデータについても、コンテンツ種別にかかわらず類似するコンテンツデータを検索することができる。
 以下で、各処理手段の詳細なアルゴリズムについて説明する。
(特徴量算出処理のアルゴリズム)
 以下で、特徴量算出手段10による特徴量算出処理のアルゴリズムを説明する。本発明の実施の形態においては、画像データ31aと、動画データ32aの映像データの画像特徴量として、色ヒストグラムが用いられる。画像データ31a、動画データ32aおよび音楽データ33aの意味特徴量として、TFIDFが用いられる。動画データ32aの音響データと、音楽データ33aの音響特徴量として、音階の遷移に基づく特徴量が用いられる。
 まず、画像特徴量算出手段11による画像特徴量算出のアルゴリズムを説明する。本発明の実施の形態において画像特徴量算出手段11は、静止画像fstill からHSV色ヒストグラムを求め、その要素を順に並べたベクトルvstillを静止画像fstillの特徴ベクトルとして用いる。このとき、得られる特徴ベクトルはp次元である。またその値は、色相、彩度、明度のヒストグラムのビン数の積となる。また、画像特徴量算出手段11は、動画像信号fvideoの各フレームについて、HSV色ヒストグラムを求め、その要素を順に並べたベクトルを算出する。さらに、画像特徴量算出手段11は、全フレームの特徴ベクトルの全体からベクトルメジアンを求め、それを画像特徴ベクトルvfideoとする。
 つぎに、意味特徴量算出手段12による意味特徴量算出のアルゴリズムを説明する。本発明の実施の形態において意味特徴量算出手段12は、動画像信号ffideoのコンテンツに含まれるテキストに対して、以下の処理によりTF-IDFを算出する。TF-IDF法は、あるコンテンツ中に出現するそれぞれの単語に対して、そのコンテンツを特徴づける度合いを算出する手法である。TF-IDF法では、単語が特徴的である度合を以下の式により算出する。
Figure JPOXMLDOC01-appb-M000001
 上式により算出されるTFIDF(t,C)の値は、TF(t,C)が大きくDF(t)が小さいほど大きくなる。つまり、単語tがコンテンツC中に多く出現し、他のコンテンツ中にあまり出現しなければ、TFIDF(t,C)の値は大きくなる。ここで、コンテンツ中の単語の総数が多い場合にTFIDFが大きくなりやすいため、コンテンツ間でTFIDFの値を比較する際、正規化した値を用いることが望ましい。そこで、意味特徴量算出手段12は、TFIDFの値を以下の式により正規化する。
Figure JPOXMLDOC01-appb-M000002
 本発明の最良の実施の形態において、意味特徴量算出手段12は、TF-IDF法を動画像信号ffideoに適用することで、コンテンツCにおけるテキストの特徴ベクトル
Figure JPOXMLDOC01-appb-M000003
を得る。なお、TF-IDF法以外の特徴量として、各コンテンツCがテキストtを持つ場合に
Figure JPOXMLDOC01-appb-M000004
そうでない場合を
Figure JPOXMLDOC01-appb-M000005
とし、
Figure JPOXMLDOC01-appb-M000006
とする特徴量も利用できる。
 さらに、音響特徴量算出手段13による音響特徴量算出のアルゴリズムを説明する。本発明の実施の形態において音響特徴量算出手段13は、楽曲中の音階の遷移に着眼したメロディーを表す指標を算出する。本発明の実施の形態においては、音響信号fmusicおよび動画像信号ffideoに含まれる音響信号から、音階の遷移に基づく特徴量を算出する。前処理としてハニング窓である窓関数h(t)を用いた短時間フーリエ変換(STFT)を、高速フーリエ変換(FFT)によって計算する。FFTのフレームは時間軸方向にシフトすることで、楽曲全体に処理が施される。本発明の実施の形態において音響特徴量算出手段13は、全ての処理対象区間からクロマベクトルを算出する。さらに、音響特徴量算出手段13は、得られるクロマベクトルを用いて、音階の遷移行列を、メロディーを表す指標として算出する。
 以下で、クロマベクトルの算出および音階の遷移行列の算出について説明する。
 まず、クロマベクトルの算出について説明する。一般に楽音が12音階によって進行していることから、本発明の実施の形態ではクロマベクトルを12次元で表現し、ベクトルの各次元が平均律の異なる音階のパワーを表すものとする。図22に、クロマベクトル算出の概要を示す。音響特徴量算出手段13は、時刻tの入力楽曲信号に対するSTFTを計算した後に、周波数軸を対数スケールの周波数gに変換して、パワースペクトルΨ(g,t)を求める。対数スケールの周波数はcent単位で表し、Hzで表された周波数gHzを、次のようにcentで表された周波数gcentに変換する。
Figure JPOXMLDOC01-appb-M000007
平均律の半音は100centに、1オクターブは1200centに相当するため、音名c(cは1≦c≦12の整数で音階C,Cis,・ ・ ・ ,Bに対応)、オクターブ位置hの周波数
Figure JPOXMLDOC01-appb-M000008

Figure JPOXMLDOC01-appb-M000009
と表すことができる。
 この対数スケール軸のパワースペクトルΨ(g,t)から、音階c の位置のパワーをOctからOctのオクターブ範囲で加算して、12次元のベクトル
Figure JPOXMLDOC01-appb-M000010
の各次元
Figure JPOXMLDOC01-appb-M000011
Figure JPOXMLDOC01-appb-M000012
を求める。ここで、BPGc,gは、音階c、オクターブ位置hのパワーを通過させるバンドパスフィルタで、
Figure JPOXMLDOC01-appb-M000013
ハニング窓の形状で定義する。本発明の実施の形態では、算出されるベクトル
Figure JPOXMLDOC01-appb-M000014
を以下の式により正規化を行うことで、クロマベクトルx(t)を算出する。
Figure JPOXMLDOC01-appb-M000015
 本発明の実施の形態では、このようにクロマベクトルを算出することで、多重音を含む楽曲信号においても音階のパワーの分布を適切に得ることができる。
 つぎに、音階の遷移行列の算出について説明する。本発明の最良の実施の形態において音響特徴量算出手段13は、クロマベクトルx(t)を用いて音階の遷移行列を算出する。本発明の実施の形態において、時刻tにおけるクロマベクトルの集合をXt=[x(1),x(2),・・・,x(T-1)]としたとき、時刻tからt+1への音階の遷移を遷移行列Aを用いて次式によって表す。
Figure JPOXMLDOC01-appb-M000016
このとき、遷移行列Aは、次式のように得られる。
Figure JPOXMLDOC01-appb-M000017
上式により得られる遷移行列Aは12×12となり、その各要素は時刻tからt+1へ音階が遷移する度合いを表す。例えば楽曲のメロディーがC→D→A→Dと演奏される場合、図23に示されるような遷移行列Aの要素が高くなる。このとき、遷移行列Aは、音階のパワーの分布であるクロマベクトルXに基づいて算出されるために、多重音を含む楽曲信号においても主要な音階の遷移が行列Aの要素に反映される。したがって、楽曲の特徴的な音階の遷移を、遷移行列Aは表現可能であると考えられる。本発明の実施の形態では、
Figure JPOXMLDOC01-appb-M000018
と表すと、音響信号fmusicおよび動画像信号fvideoに含まれる音響信号の特徴ベクトルとして、それぞれ
Figure JPOXMLDOC01-appb-M000019
を用いる。
 本発明の実施の形態では、式(1)により音階の遷移を表現する。従って、従来では推定困難とされる特定の楽器音の示す基本周波数を推定することなく、音階の遷移であるメロディーを遷移行列Aとして得ることができる。これにより、行列Aの要素を特徴量として用いることができる。
(未知特徴量算出処理のアルゴリズム)
 以下で、未知特徴量算出手段14による未知特徴量算出処理のアルゴリズムを説明する。未知特徴量算出手段14は、主成分分析あるいは正準相関分析に基づいて、未知の特徴量を分析する。
 まず主成分分析による未知特徴量算出処理を説明する。主成分分析は、多変量解析の分野において多変数データからの説明変数を抽出する手法として用いられる。以下では、主成分分析に基づく特徴量推定の方法について具体的に説明を行う。
 本発明の実施の形態において未知特徴量算出手段14は、データベース中に存在する全てのコンテンツCj(j=1,2,・・・,N)に対してその画像特徴ベクトルv、音響特徴ベクトルa、および意味に基づく特徴ベクトルwを求める。未知特徴量算出手段14は、それらを順に並べたベクトル
Figure JPOXMLDOC01-appb-M000020
を求める。尚、v、a、wのいずれかが未知の場合、未知特徴量算出手段14は、そのベクトルの要素は全て同じ値とする。さらに未知特徴量算出手段14は、得られるベクトルx、x、・・・、xに対して主成分分析を施し、その固有ベクトルu、u、・・・、u(D次元)を順に並べた行列
Figure JPOXMLDOC01-appb-M000021
を得る。この行列を用いることで、本発明の実施の形態においては、新しいコンテンツに対して未知の特徴量を以下のように推定する。
 まず画像データについて説明する。
 未知特徴量算出手段14は、画像特徴v、音響特徴a、意味特徴wのうち、音響特徴および意味特徴が未知である場合、ベクトルxを
Figure JPOXMLDOC01-appb-M000022
とする。未知特徴量算出手段14は、その音響特徴および意味特徴を推定したベクトル
Figure JPOXMLDOC01-appb-M000023

Figure JPOXMLDOC01-appb-M000024
として求める。ただし、
Figure JPOXMLDOC01-appb-M000025
は、x(j=1,2,・・・,N)の平均ベクトルである。
 次に音楽データについて説明する。
 未知特徴量算出手段14は、画像特徴v、音響特徴a、意味特徴wのうち、画像特徴および意味特徴が未知である場合、ベクトルxを、
Figure JPOXMLDOC01-appb-M000026
とする。未知特徴量算出手段14は、その画像特徴および意味特徴を推定したベクトルxpcaを式(2)で得る。
 さらに動画データについて説明する。
 未知特徴量算出手段14は、画像特徴v、音響特徴a、意味特徴wのうち、意味特徴が未知である場合、ベクトルxを
Figure JPOXMLDOC01-appb-M000027
とする。未知特徴量算出手段14は、その意味特徴を推定したベクトルxpcaを式(2)で得る。
 本発明の実施の形態において特徴量算出手段10は、あらかじめ対象の内容を表すテキストが付与された画像データ、音楽データ、および動画データの各コンテンツデータから画像、音響、および意味の各々について特徴量を算出する。その後、未知特徴量算出手段14は、得られた各特徴量に対して主成分分析を施し、その固有空間を得る。このように算出される固有空間を用いて、本発明の実施の形態に係るコンテンツ検索装置1は、各データにおける未知の特徴量の推定を可能とする。ただし、主成分分析を施す画像データ、音楽データ、および動画データの各コンテンツデータから得られる各特徴量は対象データの特性を十分に反映するように広く選択されていることが好ましい。
 つぎに正準相関分析による未知特徴量算出処理を説明する。まず、R組の変数群
Figure JPOXMLDOC01-appb-M000028
が与えられ、これらR組の変数群に関するn個のデータ
Figure JPOXMLDOC01-appb-M000029
をR個の行列
Figure JPOXMLDOC01-appb-M000030
によって表現する。
 未知特徴量算出手段14は、正準相関分析では線形変換
Figure JPOXMLDOC01-appb-M000031
で得られる重みベクトルwを求める。ただし、未知特徴量算出手段14は、
Figure JPOXMLDOC01-appb-M000032
に含まれる各成分の平均は0とする。
 ここで、未知数からなるn次元のベクトルyを導入し、未知特徴量算出手段14は、yとXの各成分について次式のように、差の平方和を最小とするwを推定する。
Figure JPOXMLDOC01-appb-M000033
 未知特徴量算出手段14は、まず、yを既知として、上式をベクトルwの各成分について最小とすると、最小二乗法の性質より
Figure JPOXMLDOC01-appb-M000034
となる。なお、等号は
Figure JPOXMLDOC01-appb-M000035
のときに成立する。
 次にy′y=1の条件でQ(y)を最小にするためには、同一の条件下でQ(y)の第2項の符号を変えた部分をyについて最大にすればよい。したがってyは
Figure JPOXMLDOC01-appb-M000036
の固有値問題の解として求まる。また、未知特徴量算出手段14は、上式を満たす
Figure JPOXMLDOC01-appb-M000037
個の正の固有値λ(k=1,2,・・・,N)を得る。これらに対応する固有ベクトルy(k=1,2,・・・,N)から得られる重みベクトルを順に並べた行列を
Figure JPOXMLDOC01-appb-M000038
とおくと、次式が成立する。
Figure JPOXMLDOC01-appb-M000039
ここで、Λijは正準相関係数μk(k=1,2,・・・,N)を対角要素とする相関行列である。
 以上に示す正準相関分析を用いることにより未知特徴量算出手段14は、異なるR組の変数群間の相関が最大となる線形変換を求めることができる。本発明の実施の形態に係る未知特徴量算出手段14は、図24に示すように、メディア数をR=3、コンテンツ数をn個として正準相関分析を行い、相関行列を得る。これらの行列を用いることで本発明の実施の形態において未知特徴量算出手段14は、新しいコンテンツに対して既知の特徴から未知の特徴量を以下のいずれかの式により推定する。
 未知特徴量算出手段14は、新しいコンテンツに対して既知の特徴から、未知の画像特徴量を以下のいずれかの式により推定する。
Figure JPOXMLDOC01-appb-M000040
 未知特徴量算出手段14は、新しいコンテンツに対して既知の特徴から、未知の音響特徴量を以下のいずれかの式により推定する。
Figure JPOXMLDOC01-appb-M000041
 未知特徴量算出手段14は、新しいコンテンツに対して既知の特徴から、未知の意味特徴量を以下のいずれかの式により推定する。
Figure JPOXMLDOC01-appb-M000042
 また未知特徴量算出手段14は、未知の特徴が推定されたベクトル
Figure JPOXMLDOC01-appb-M000043
を得る。
 本発明の実施の形態において特徴量算出手段10は、あらかじめ対象の内容を表すテキストが付与された画像データ、音楽データ、および動画データの各コンテンツデータから画像、音響、および意味の各々について特徴量を算出する。その後、未知特徴量算出手段14は、得られた各特徴量に対して正準相関分析を施し、各特徴の相関が最大となる正準相関係数およびその相関を得る。これにより本発明の実施の形態において、そのままでは比較できなかった各特徴量を比較することが可能となる。ただし、正準相関分析を施す画像データ、音楽データ、および動画データの各コンテンツデータから得られる各特徴量は対象データの特性を十分に反映するように広く選択されていることが好ましい。
(距離算出処理のアルゴリズム)
 以下で、距離算出手段15による距離算出処理のアルゴリズムを説明する。距離算出手段15は、重みなし距離または重み付き距離を算出する。
 まず重みなし距離を算出する場合の距離算出処理を説明する。
 今、クエリコンテンツがC、対象コンテンツがCであるとする。このとき距離算出手段15は、それらコンテンツ間における画像特徴の重みなし距離
Figure JPOXMLDOC01-appb-M000044
、音響特徴の重みなし距離
Figure JPOXMLDOC01-appb-M000045
、および意味特徴の重みなし距離
Figure JPOXMLDOC01-appb-M000046
をそれぞれ以下の式で算出する。
Figure JPOXMLDOC01-appb-M000047
ただし、ベクトル
Figure JPOXMLDOC01-appb-M000048
はそれぞれ、未知特徴量算出手段14による未知特徴量算出処理で得られるCおよびCのベクトルxにおける画像特徴のベクトルである。同様に
Figure JPOXMLDOC01-appb-M000049
は、音響特徴および意味特徴のベクトルである。
 つぎに重み付き距離を算出する場合の距離算出処理を説明する。距離算出手段15は、マハラノビス汎距離に基づいたそれらコンテンツ間における画像特徴の重み付き距離
Figure JPOXMLDOC01-appb-M000050
、音響特徴の重み付き距離
Figure JPOXMLDOC01-appb-M000051
、および意味特徴の重み付き距離
Figure JPOXMLDOC01-appb-M000052
をそれぞれ以下の式で算出する。
Figure JPOXMLDOC01-appb-M000053
 ここで、行列W、W、W はそれぞれ、検索・分類対象の全コンテンツにおける画像、音響、意味特徴の共分散行列であり、次式により求められる。
Figure JPOXMLDOC01-appb-M000054
 ただし、
Figure JPOXMLDOC01-appb-M000055
であり、Nは全コンテンツ数である。
(表示処理のアルゴリズム)
 以下で、表示手段16による表示処理のアルゴリズムを説明する。表示手段16は、距離算出手段15によって出力された距離データ35に基づいて、検索結果を表示装置105の表示画面に表示する。所定のコンテンツとクエリコンテンツの距離が小さいほど、具体的にはコンテンツが類似するほど、そのコンテンツのサムネイルをクエリコンテンツのサムネイル近くに表示する。一方、所定のコンテンツとクエリコンテンツの距離が大きいほど、具体的にはコンテンツが類似しないほど、そのコンテンツのサムネイルをクエリコンテンツのサムネイル遠くに表示する。
 本発明の実施の形態において、多次元尺度構成法(MDS)を、各コンテンツにおいて算出された特徴ベクトル間の距離に対し適用することで、コンテンツ間の類似関係を保持した検索結果が可視化される。
 n個のコンテンツにおいて算出された特徴ベクトルをx,...,x とし、x,x間の距離を2乗した値を要素とするn×nの行列をDとする。また、単位行列から、全要素が1/nの行列を引いた結果、得られるn×n行列をJとする。さらに、
Figure JPOXMLDOC01-appb-M000056
とし、i番目のコンテンツに対するk次元空間の推定位置を
Figure JPOXMLDOC01-appb-M000057
、それをn行集めたn×k行列を求めるXとすると、
Figure JPOXMLDOC01-appb-M000058
は次式を最小化する。
Figure JPOXMLDOC01-appb-M000059
 Pの固有値のうち、最大のk個の固有値を対角要素とする行列をΛk、対応する固有ベクトルの行列をQとすると、多次元尺度構成法によるコンテンツの配置
Figure JPOXMLDOC01-appb-M000060
は以下の式により算出される。
Figure JPOXMLDOC01-appb-M000061
ただし、Pは最小でもk個の正の固有値が存在するものとする。式(3)により得られるコンテンツの配置
Figure JPOXMLDOC01-appb-M000062
は、式(3)を最小化し、コンテンツ間の距離を最小二乗の基準によりk次元で近似する解となる。
 このように本発明の実施の形態に係るコンテンツ検索装置1は、画像、動画または音楽のいずれかのコンテンツデータから、画像、意味、音響のいずれか一つ以上の特徴量を算出する。さらにコンテンツ検索装置1は、それぞれのコンテンツデータについて算出された特徴量から、コンテンツデータに未知な特徴量を算出し、各コンテンツデータに、画像、意味および音響の全ての特徴量を関連づけることができる。
 このようなコンテンツ検索装置1によれば、画像データに類似する音楽データ、動画データに類似する画像データなど、コンテンツの種別に関わらず、横断的に検索することができる。従って、ユーザは、コンテンツ検索装置1を使用してクエリコンテンツデータから類似するコンテンツデータを次々と検索することができる。ユーザは大量のコンテンツデータから所望のコンテンツデータを検索することができる。また、横断的に検索結果を出力することにより、画像データに似合う音楽データが検索されるなど、感覚的な検索結果を取得することができる。
(第1の変形例)
 本発明の第1の変形例として、音響信号の繰り返し部分に着目した特徴量を算出する場合について説明する。ここで、繰り返し部分とは、例えば曲の「サビ」の部分である。
 本発明の実施の形態においては、楽曲全体から特徴量を算出している。従って、算出される特徴量はその時間長により平滑化されてしまい、抽出精度が劣化する可能性がある。そこで、第1の変形例においては、楽曲の繰り返し区間を検出する手法を導入することで、楽曲中に最も多く現れる区間を検出し、その区間より得られる遷移行列を用いて楽曲間の類似度を算出する。このように、楽曲の繰り返し区間から算出される類似度を用いることで、第1の変形例においては、高精度な類似楽曲を抽出することができる。
 本発明の第1の変形例に係るコンテンツ検索装置1aは、図1を参照して説明した本発明の実施の形態に係るコンテンツ検索装置1と比べて、音響特徴量算出手段13の処理が異なる。
 音響特徴量算出手段13は、音響信号のうち繰り返し現れるメロディーを特定し、その繰り返しメロディーの特徴量を、音響特徴の特徴量とする。従って特徴量データ記憶部34に記憶される音響特徴は、音響信号の繰り返し区間についての特徴量であって、その楽曲の特徴にフォーカスをあてた特徴量であると考えられる。本発明の第1の変形例に異なるコンテンツ検索装置1aにおいて、音響特徴量算出手段13が処理する楽曲は、コンテンツデータ記憶部30の動画データ記憶部32に記憶された動画データのうち音響データ部分と、音楽データ記憶部33に記憶された音楽データである。
 つぎに、本発明の第1の変形例に係る音響特徴量算出手段13の処理を説明する。特徴量算出手段13は、前処理として楽曲信号を固定長のフレームに分割し、時刻tにおけるフレームから特徴量としてクロマベクトルXを算出する。さらに音響特徴量算出手段13は、全てのフレームの組み合わせに対して算出される類似度を用いることで、繰り返し区間を検出する。
 具体的に音響特徴量算出手段13は、XとXt-l(0≦l≦t)間の相関係数を類似度r(t,l)(-1≦r(t、l)≦1)として求める。類似度r(t,l)を、横軸がt、縦軸がlのt-l平面に描画した場合、楽曲中の繰り返し区間に対応して、類似度が連続して高くなる領域が時間軸に並行な線分として現れる。したがって、このような線分を検出することで、音響特徴量算出手段13は、楽曲中の繰り返し区間を得ることができる。
 ただし、各要素がほぼ等しいクロマベクトルは、他のクロマベクトルとの類似度が高くなってしまう傾向があり、t-l平面中に類似度の高い直線として現れる場合がある。このような直線を除去するために、本発明の第1の変形例に係る音響特徴量算出手段13は、移動平均フィルタを用いて時間軸に並行な線分を強調することで、高精度に繰り返し区間を検出する。
 本発明の第1の変形例では、このように得られる楽曲の繰り返し区間の中から、最も多く繰り返されるメロディーを含む区間に注目する。一般に、楽曲中で最も代表的な主題が提示される部分は繰り返されることが多いことから、音響特徴量算出手段13は、このような区間から抽出される特徴量を用いることで、楽曲間の適切な類似度を算出する。
 次に、音響特徴量算出手段13が、繰り返し区間から、楽曲の音階の遷移を表す特徴量を算出する処理を説明する。本発明の第1の変形例では、クロマベクトルXからXt+1への時間変化が、遷移行列Aを用いて次式によって表される。
Figure JPOXMLDOC01-appb-M000063
このとき、繰り返し区間中のtに関する
Figure JPOXMLDOC01-appb-M000064
の平均を最小とする行列Aは、次式のように得られる。
Figure JPOXMLDOC01-appb-M000065
ただし、X、Xt+1は、それぞれ、
Figure JPOXMLDOC01-appb-M000066
で表される。ここで、Tは、繰り返し区間から算出されるクロマベクトルの総数を表す。このように得られる遷移行列のサイズは、L×L(L=12)である。
 本発明の第1の変形例においては、式(4)により遷移行列Aを算出することにより、従来では困難であった、音階の遷移を表す特徴量を得ることができる。
 次に、音響特徴量算出手段13は、音階の遷移を表す特徴量を用いて、その遷移行列の相関係数を、楽曲間の類似度として算出する。
 ここで、クエリ楽曲の繰り返し区間n(n=1,2,・・・N;Nは繰り返し区間の総数)より算出される音階の遷移行列を
Figure JPOXMLDOC01-appb-M000067
、コンテンツデータ記憶部30に記憶された楽曲の繰り返し区間m(m=1,2,・・・M;Mは繰り返し区間の総数)より算出される音階の遷移行列を
Figure JPOXMLDOC01-appb-M000068
とする。
 このとき音響特徴量算出手段13は、クエリ楽曲の繰り返し区間nとコンテンツデータ記憶部30に記憶された楽曲の繰り返し区間mの相関係数を、次式により算出する。
Figure JPOXMLDOC01-appb-M000069
ただし、
Figure JPOXMLDOC01-appb-M000070
は、次式により得られる。
Figure JPOXMLDOC01-appb-M000071
Figure JPOXMLDOC01-appb-M000072
(第2の変形例)
 図25を参照して、本発明の第2の変形例に係るコンテンツ検索装置1bを説明する。図25に示すコンテンツ検索装置1bは、図1に示す本発明の実施の形態に係るコンテンツ検索装置1と比較して、記憶装置107がユーザ施行データ記憶部36および重要ユーザデータ記憶部37を備えている点と、中央処理制御装置101が、重要ユーザ決定手段17を備えている点が異なる。また、図25において距離算出手段15aおよび表示手段16aの処理は、図1に示した距離算出手段15および表示手段16のそれぞれの処理と一部の処理が異なる。
 ユーザ嗜好データ記憶部36は、ユーザ嗜好データ36aが記憶された記憶領域である。ユーザ嗜好データ36aは、ユーザ識別子と、当該ユーザの嗜好に合うコンテンツ識別子とが関連づけられたデータである。
 ユーザ嗜好データ36aは例えば、ユーザによって使用されるユーザ端末で保存されているプレイリストから生成されても良い。コンテンツ検索装置1bは、ユーザ端末から、ユーザの識別子とプレイリストで記録されているコンテンツの識別子とを受信して、ユーザ嗜好データ36aを生成しても良い。
 また、ユーザ嗜好データ36aは、例えば、ユーザ端末に嗜好にあうコンテンツを入力する画面を表示し、ユーザによって個別に特定されたコンテンツをコンテンツ検索装置1bが受信して、ユーザの識別子とその受信したコンテンツ識別子とを関連づけることにより、ユーザ嗜好データ36aを生成しても良い。
 重要ユーザデータ記憶部37には、重要ユーザデータ37aが記憶されている。重要ユーザデータ37aは、そのコンテンツを好むユーザの集合のうち、その集合を代表する重要ユーザの識別子が記憶されたデータである。従って、重要ユーザデータ37aは、コンテンツの識別子と、そのコンテンツの重要ユーザの識別子が対応づけられたデータである。
後述する重要ユーザ決定手段17が、重要ユーザを決定するとともに、重要ユーザデータ37aを生成して、重要ユーザデータ記憶部37に記憶する。
 重要ユーザは、一つのコンテンツについて一人だけ選ばれても良い。また、重要ユーザは、下記の式(6)で算出されるスコアが一定値以上のユーザであって、各コンテンツについて、複数のユーザが選ばれても良い。
 重要ユーザ決定手段17は、各コンテンツ識別子について、ユーザ嗜好データ36aにおいて当該コンテンツに関連づけられたユーザ識別子の集合を作成するとともに、各集合において、ユーザ間に有向辺を作成し、各集合を代表する重要ユーザを決定する。重要ユーザは、例えば、その重要ユーザに関連づけられたコンテンツ識別子によって、他の多数のユーザの特徴を表現できるユーザである。重要ユーザは、入力されたキーワードに関して適格な情報を持つとされるユーザである。理想的には、重要ユーザには、比較的少ない数のコンテンツ識別子が関連づけられており、それらコンテンツ識別子が、他のユーザにも関連づけられていることが好ましい。
 重要ユーザ決定手段17は、ユーザの嗜好に基づいてユーザ間に有向辺を作成し、ユーザのネットワークを形成する。ユーザが共通のコンテンツを有している場合に、有向辺(リンク)が設けられ、共通のコンテンツを有していない場合は、有向辺が設けられない。この有向辺は、所持しているコンテンツが多いユーザがリンク元となり、少ないユーザがリンク先となる。
 重要ユーザ決定手段17は、このネットワークに対し、HITS(Hypertext Induced. Topic Selection)アルゴリズムを適用し、オーソリティを決定する。本発明の実施の形態において重要ユーザ決定手段17は、このオーソリティとなるユーザを重要ユーザとして出力する。
 図26を参照して、本発明の実施の形態に係る重要ユーザ決定手段17による重要ユーザ決定処理を説明する。
 まずステップS701において重要ユーザ決定手段17は、ユーザ嗜好データ36aを読み出し、ステップS702において、同一コンテンツを好むユーザの集合を作成する。このユーザの集合は、コンテンツ識別子1つに対して、1つ作成される。さらに、ステップS702において重要ユーザ決定手段17は、それぞれの集合において、ユーザの好むコンテンツに基づき、各ユーザ間に有向辺を作成する。
 ステップS704において重要ユーザ決定手段17は、ステップS703において作成されたユーザ間が有向辺で関連づけられたコンテンツごとの集合を、ユーザのネットワークと定義する。ステップS705において重要ユーザ決定手段17は、ステップS704で定義されたネットワークに対し、HITSアルゴリズムを適用する。ステップS706において重要ユーザ決定手段17は、オーソリティを重要ユーザとして決定し、出力する。
 距離算出手段15aは、ユーザ嗜好データ36aにおいて重要ユーザのユーザ識別子に関連づけられたコンテンツ識別子を抽出する。さらに距離算出手段15aは、特徴量データ34aから、抽出したコンテンツ識別子に対応する特徴量および特徴推定値を抽出し、その特徴量および特徴推定値に基づいて、各コンテンツデータの類似度を示す距離を算出する。
 特徴量データ34aに記憶されている特徴量および特徴推定値に基づいて、各コンテンツデータの類似度を示す距離を算出する際、距離算出手段15aは、ユーザ嗜好データ36aにおいて重要ユーザのユーザ識別子に関連づけられたコンテンツ識別子を考慮して、各コンテンツデータの類似度を示す距離を算出する。
 クエリコンテンツを好みとするユーザのネットワーク内における重要ユーザは、ネットワーク内の全てのユーザが好みとするコンテンツを適切に表現していると考えられる。従って、距離算出手段15は、ユーザ嗜好データ36aにおいて重要ユーザの識別子に関連づけられたコンテンツ識別子の集合に対して、重要ユーザでないユーザの嗜好データを考慮することなく、主成分分析や正準相関分析を施しても良い。さらに距離算出手段15は、主成分分析や正準相関分析した後、市街地距離やマハラノビス距離に基づいて距離を算出し、コンテンツ間の類似度を算出しても良い。特定の重要ユーザに関連づけられたコンテンツのみを用いて類似度を算出することにより、少ない計算量で、精度の高い類似度を算出することができる。
 表示手段16aは、距離算出手段19によって算出された距離に基づいて、コンテンツデータに対応するサムネイルの表示位置を決定して、例えば図27に示すような画面を、表示装置105に表示する。さらに表示手段16aは、ユーザ嗜好データ36aにおいて、所定のコンテンツに関連づけられた複数のユーザの識別子を抽出し、複数のユーザの識別子のそれぞれをノードと、ユーザ間の有向辺を考慮したノード間のリンクを含むユーザネットワークを表示して、表示装置105に表示する。
 このユーザネットワークが表示装置105に表示されると、ノードが選択されると、表示手段16aは、ユーザ嗜好データ36aにおいて、そのノードに対応するユーザの識別子に対応づけられたコンテンツの識別子を抽出し、そのコンテンツの識別子の一覧を表示手段16aに表示しても良い。例えば、ユーザは、自分の類似度の高いユーザ、すなわちユーザネットワークで近くに表示され、太いリンクで接続されたユーザのノードを選択して、そのユーザが興味を示しているコンテンツの一覧を参照することができる。これによりユーザは、自身と嗜好の近いユーザのコンテンツリストの中から、自分の嗜好に合ったコンテンツを把握することができる。
 ここで、ユーザネットワークのリンクの距離は、特徴量の類似度によって決定される。また、ユーザネットワークのリンクの太さは、ユーザ嗜好データ36aにおいて、これらのユーザの識別子に関連づけられたコンテンツの識別子のうち、共通するコンテンツの識別子の数に対応する。例えば、ユーザの嗜好コンテンツの特徴量の類似度が高く、また共通するコンテンツを多く所有している場合、ノード間のリンクの長さは短くなり、そのリンクは太くなる。
 このような本発明の第2の変形例に係るコンテンツ検索装置1bは、同一のコンテンツを好むユーザの集合を、コンテンツ毎に作成する。そして、各ユーザが好むコンテンツの包含関係に基づき、各ユーザ間に有向辺を作成する。これにより得られる有向グラフに対してリンク解析等を適用することで、それぞれのネットワークにおける重要ユーザを抽出することができる。
 さらに、その重要ユーザの嗜好にあったコンテンツリストに基づいて、コンテンツの類似度を算出することにより、類似度の精度を維持しつつ、計算量を削減することができる。
 また、このユーザネットワークを表示し、そのユーザの嗜好にあったコンテンツリストを取得することで、ユーザは、新たなコンテンツを知ることができる。
(詳細なアルゴリズム)
 まず、重要ユーザ決定手段17による、HITSを用いたユーザの好みに基づくネットワークの作成処理を説明する。
 本発明の第2の変形例において、各ユーザが同一のコンテンツを好む場合に、各々のユーザは同一のネットワークに属するものとする。また、各々のコンテンツに対応するネットワークは、各ユーザ間のリンク関係を要素とする次式で表される行列L(k∈{1,2,・・・,N;Nはコンテンツの総数})を用いて定義される。ここで、行列Lのi行j列の要素はL(i,j)で表される。ユーザiの好むコンテンツ総数は、Fで表される。ユーザiとユーザjが好む共通のコンテンツ数は、Ci,jで表される。
Figure JPOXMLDOC01-appb-M000073
 以上により、本発明の第2の変形例は、得られる行列Lに対してリンク解析等の処理を施すことにより、ユーザが好みとするコンテンツを考慮したネットワーク内における重要ユーザ(以降、オーソリティ(authority)とも呼ぶ)を抽出することができる。したがって、抽出されるオーソリティが好みとするコンテンツに注目し検索することにより、個々のユーザの嗜好を考慮した類似コンテンツを提示することができる。
 以降では、ユーザの嗜好を考慮した類似コンテンツの検索を実現するため、オーソリティを抽出する具体的な方法の一例としてHITSアルゴリズムを用いた方法について説明する。
 HITSは、入力されたキーワードに関して的確な情報をもつとされるユーザ(オーソリティ)と、これらのオーソリティに複数のリンクをもつユーザ(ハブ)を、リンク解析により求める手法である。このようなオーソリティとハブは、「良いオーソリティは複数のハブからリンクを張られ、また良いハブは複数のオーソリティへリンクを張る」と再帰的に定義される。この定義に基づいてリンク解析によりスコア付けを行うことでオーソリティおよびハブが求められる。
 ここで、本発明においてリンクは、ユーザ嗜好データにおいて各ユーザに関連づけられた好みのコンテンツの特徴量によって算出される。例えば、画像データについてユーザが青の画像が多い場合、同じく青の画像が多いユーザと、太いリンクで結ばれることになる。
 以下において、HITSの処理手順が示される。
 手順(1)
 全てのユーザをベース集合とし、ベース集合に属するユーザのリンクパターンを全て調べ、隣接行列L=[lij]が作成される。ここで隣接行列は、ユーザiからユーザjへのリンクが存在する場合にはlij=1とし、それ以外は0とした行列である。ただし、HITSでは、同一ホストlに属するユーザ間のリンクの存在は無視して、隣接行列が作成される。
 手順(2)
 ユーザiに対し、オーソリティスコアaと、ハブスコアhの2種類のスコアが、式(6)および式(7)のようにそれぞれ定義される。さらに、式(6)、式(7)により両スコアが算出される。
Figure JPOXMLDOC01-appb-M000074
Figure JPOXMLDOC01-appb-M000075
 ここで、nは、ベース集合に属するユーザの総数を表す。αおよびβは、正規化定数を表す。「式(6)で得られるaを、式(7)のaに代入」する処理と、「式(7)で得られるhを式(6)のhに代入」する処理とが、aとhが変化しなくなるまで繰り返されて更新される。この更新処理が、ベース集合に含まれる全てのユーザに対して行われる。
 手順(3)
 オーソリティスコアが大きいユーザ、ハブスコアが大きいユーザをそれぞれオーソリティ、ハブとする。この手順(3)を、各ユーザのオーソリティスコアとハブスコアが収束するまで反復する。
 式(6)では、ユーザiにリンクを張るユーザのハブスコアの総和から、ユーザiのオーソリティスコアを算出する。また式(7)では、ユーザiからリンクを張られているユーザのオーソリティスコアの総和からユーザiのハブスコアを算出している。この算出処理を収束するまで繰り返すことにより、重要ユーザ決定手段17は、上で述べた再帰的な定義に適合するオーソリティとハブを得る。
 次に、重要ユーザ決定手段17によるオーソリティに基づいた、距離算出手段15aの距離算出処理を説明する。
 本発明の第2の変形例では、本発明の実施の形態で説明した距離算出法を用いることで、上述したHITSにより決定されるオーソリティが好みとするコンテンツの特徴を考慮して、距離を算出する。距離の算出方法について以下で、市街地距離に基づく距離算出と、マハラノビス汎距離に基づく距離算出とについて説明する。
 まず、市街地距離に基づく距離算出処理を説明する。
 距離算出手段15aは、HITSにより決定されるオーソリティが好みとするコンテンツの集合に対して、本発明の実施の形態の距離算出手段15で説明した主成分分析あるいは正準相関分析を施す。これにより距離算出手段15aは、行列UおよびW、W、W、Λva=Λ(av)、Λaw=Λ(wa)、Λvw=Λ(wv)を求め、ベクトルxpcaおよびベクトルxccaを得る。さらに距離算出手段15aは、本発明の実施の形態の距離算出手段15で説明した算出方法に従い、xpcaおよびベクトルxccaを用いて距離を算出する。
 次に、マハラノビス汎距離に基づく距離算出処理を説明する。
 距離算出手段15aは、HITSにより決定されるクエリコンテンツqに対するオーソリティが好みとする全コンテンツを用いて、重み行列を算出する。ここで、オーソリティが好みとする全コンテンツとは、ユーザ嗜好データ36aにおいて、オーソリティであるユーザの識別子に関連づけられたコンテンツ識別子に対応するコンテンツである。重み行列は、下記の式によって算出される。
Figure JPOXMLDOC01-appb-M000076
 距離算出手段15aは、以上の重み行列を用いて、本発明の実施の形態の距離算出手段15で説明した算出方法に従い、距離を算出する。
 ここで、クエリコンテンツを好みとするユーザのネットワーク内におけるオーソリティはネットワーク内の全てのユーザが好みとするコンテンツを適切に表現している。したがって、距離算出手段15aは、以上のように距離を算出することで、オーソリティが好みとするコンテンツを考慮した距離に対する重み付けが可能となる。これにより、コンテンツ検索装置1bは、ユーザの嗜好を反映した類似コンテンツの検索または分類を実現することができる。
 次に、表示手段16aが表示するユーザネットワークについて詳述する。
 本発明の第2の変形例において、動画像信号等のコンテンツの再生中にユーザネットワーク表示が、ユーザによって操作されることにより、再生中のコンテンツを好みとするユーザのネットワークが構築され、表示手段16aは、その構築結果を表示装置105に表示する。ユーザネットワークは、多次元尺度構成法によって算出された3次元空間の座標位置関係に基づいて表示される。ユーザネットワークにおいて、ネットワーク内に存在する各ユーザはノードして表示される。ネットワーク内の任意のユーザが選択されると、表示手段16aは、そのユーザが好みとするコンテンツの一覧を表示する。
 ここで表示手段16aは、選択されたユーザと、ネットワーク内におけるオーソリティとなるユーザと、ハブとなるユーザを、それぞれ異なる色や模様で表示する。また、ネットワークにおけるユーザ同士のリンク関係を、線の太さとボールの流れで表現する。本発明の第2の変形例では、リンク元からリンク先にボールが流れるように表示をすることにより、リンクの方向を表示する。このとき、式(5)で算出されるネットワークを表現する行列の要素の値に従って、その値が大きいほど線を太く、そのリンク方向をボールの流れで表現する。
 以上により可視化されるユーザネットワークは、各ユーザの嗜好を反映したユーザ同士のリンク関係やその度合いを視覚的に表現することができる。さらに、ユーザが好みとするコンテンツをクエリとして検索操作が入力されると、表示手段16aは、表示される検索結果をクエリを中心として多次元尺度構成法を用いて算出された2次元空間の座標に基づいて、座標を再計算し配置して表示する。これにより、ネットワーク内のユーザの嗜好を反映した検索結果が表示され、表示されている複数のコンテンツの位置関係によって、ユーザに、コンテンツ同士が類似する度合いを視覚的に把握させることができる。
(その他の実施の形態)
 上記のように、本発明の実施の形態、第1の変形例および第2の変形例によって記載したが、この開示の一部をなす論述及び図面はこの発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施の形態、実施例及び運用技術が明らかとなる。
 例えば、本発明の実施の形態に記載したコンテンツ検索装置は、図1に示すように一つのハードウェア上に構成されても良いし、その機能や処理数に応じて複数のハードウェア上に構成されても良い。又、既存の情報システム上に実現されても良い。
 本発明はここでは記載していない様々な実施の形態等を含むことは勿論である。従って、本発明の技術的範囲は上記の説明から妥当な特許請求の範囲に係る発明特定事項によってのみ定められるものである。

Claims (12)

  1.  異なる種別のコンテンツデータについて、類似するコンテンツデータを検索するコンテンツ検索装置であって、
     画像特徴、音響特徴および意味特徴のうちいずれか一つ以上を有する複数のコンテンツデータが、コンテンツ識別子に対応づけて記憶装置に記憶されたコンテンツデータ記憶部と、
     前記コンテンツデータ記憶部に記憶された各コンテンツデータについて、各コンテンツデータが有する画像特徴、音響特徴および意味特徴のうちいずれか一つ以上の特徴量を算出し、前記コンテンツ識別子と、画像特徴、音響特徴および意味特徴の特徴種別と、その特徴量とを関連づけた特徴量データを、前記記憶装置に記憶する特徴量算出手段と、
     前記特徴量データにおいて、前記コンテンツ識別子に対応づけられた特徴種別の特徴量から、前記コンテンツ識別子に対応づけられていない特徴種別の未知の特徴量を算出し、特徴推定値として前記特徴量データに記憶する未知特徴量算出手段と、
     前記特徴量データに記憶されている前記特徴量および前記特徴推定値に基づいて、各コンテンツデータの類似度を示す距離を算出する距離算出手段と、
     前記距離算出手段によって算出された距離に基づいて、前記コンテンツデータに対応するサムネイルの表示位置を決定して、表示装置に表示する表示手段
     とを備えることを特徴とするコンテンツ検索装置。
  2.  前記未知特徴量算出手段は、前記特徴量データにおいて、前記コンテンツ識別子に対応づけられた特徴種別の特徴量から、主成分分析を用いて前記特徴推定値を算出する
     ことを特徴とする請求項1に記載のコンテンツ検索装置。
  3.  前記未知特徴量算出手段は、前記特徴量データにおいて、前記コンテンツ識別子に対応づけられた特徴種別の特徴量から、正準相関分析を用いて前記特徴推定値を算出する
     ことを特徴とする請求項1に記載のコンテンツ検索装置。
  4.  前記特徴量算出手段は、音響特徴の特徴量を算出する際、音響信号のうち繰り返し現れるメロディーを特定し、その繰り返しメロディーの特徴量を、前記音響特徴の特徴量とする
     ことを特徴とする請求項1に記載のコンテンツ検索装置。
  5.  ユーザ識別子と、当該ユーザの嗜好に合うコンテンツ識別子とが関連づけられたユーザ嗜好データが、前記記憶装置に記憶されたユーザ嗜好データ記憶部と、
     各前記コンテンツ識別子について、前記ユーザ嗜好データにおいて当該コンテンツに関連づけられたユーザ識別子の集合を作成するとともに、各集合において、ユーザ間に有向辺を作成し、各集合を代表する重要ユーザを決定する重要ユーザ決定手段と、をさらに備え、
     前記距離算出手段は、前記ユーザ嗜好データにおいて前記重要ユーザのユーザ識別子に関連づけられた前記コンテンツ識別子を抽出し、抽出した前記コンテンツ識別子に対応する前記特徴量および前記特徴推定値に基づいて、各コンテンツデータの類似度を示す距離を算出する
     ことを特徴とする請求項1に記載のコンテンツ検索装置。
  6.  前記表示手段はさらに、前記ユーザ嗜好データにおいて、所定のコンテンツに関連づけられた複数のユーザの識別子を抽出し、前記複数のユーザの識別子のそれぞれをノードと、前記ユーザ間の有向辺を考慮した前記ノード間のリンクを含むユーザネットワークを表示して、表示装置に表示する
     ことを特徴とする請求項5に記載のコンテンツ検索装置。
  7.  異なる種別のコンテンツデータについて、類似するコンテンツデータを検索するコンテンツ検索プログラムであって、
     コンピュータに、
     画像特徴、音響特徴および意味特徴のうちいずれか一つ以上を有する複数のコンテンツデータが、コンテンツ識別子に対応づけて記憶装置に記憶された各コンテンツデータについて、各コンテンツデータが有する画像特徴、音響特徴および意味特徴のうちいずれか一つ以上の特徴量を算出し、前記コンテンツ識別子と、画像特徴、音響特徴および意味特徴の特徴種別と、その特徴量とを関連づけた特徴量データを、前記記憶装置に記憶する特徴量算出手段と、
     前記特徴量データにおいて、前記コンテンツ識別子に対応づけられた特徴種別の特徴量から、前記コンテンツ識別子に対応づけられていない特徴種別の未知の特徴量を算出し、特徴推定値として前記特徴量データに記憶する未知特徴量算出手段と、
     前記特徴量データに記憶されている前記特徴量および前記特徴推定値に基づいて、各コンテンツデータの類似度を示す距離を算出する距離算出手段と、
     前記距離算出手段によって算出された距離に基づいて、前記コンテンツデータに対応するサムネイルの表示位置を決定して、表示装置に表示する表示手段
     とを備えることを特徴とするコンテンツ検索プログラム。
  8.  前記未知特徴量算出手段は、前記特徴量データにおいて、前記コンテンツ識別子に対応づけられた特徴種別の特徴量から、主成分分析を用いて前記特徴推定値を算出する
     ことを特徴とする請求項7に記載のコンテンツ検索プログラム。
  9.  前記未知特徴量算出手段は、前記特徴量データにおいて、前記コンテンツ識別子に対応づけられた特徴種別の特徴量から、正準相関分析を用いて前記特徴推定値を算出する
     ことを特徴とする請求項7に記載のコンテンツ検索プログラム。
  10.  前記特徴量算出手段は、音響特徴の特徴量を算出する際、音響信号のうち繰り返し現れるメロディーを特定し、その繰り返しメロディーの特徴量を、前記音響特徴の特徴量とする
     ことを特徴とする請求項7に記載のコンテンツ検索プログラム。
  11.  ユーザ識別子と、当該ユーザの嗜好に合うコンテンツ識別子とが関連づけられたユーザ嗜好データが、前記記憶装置に記憶されたユーザ嗜好データにおいて当該コンテンツに関連づけられたユーザ識別子の集合を、各前記コンテンツ識別子について作成するとともに、各集合において、ユーザ間に有向辺を作成し、各集合を代表する重要ユーザを決定する重要ユーザ決定手段と、をさらに前記コンピュータに実行させ、
     前記距離算出手段は、前記ユーザ嗜好データにおいて前記重要ユーザのユーザ識別子に関連づけられた前記コンテンツ識別子を抽出し、抽出した前記コンテンツ識別子に対応する前記特徴量および前記特徴推定値に基づいて、各コンテンツデータの類似度を示す距離を算出する
     ことを特徴とする請求項7に記載のコンテンツ検索プログラム。
  12.  前記表示手段はさらに、前記ユーザ嗜好データにおいて、所定のコンテンツに関連づけられた複数のユーザの識別子を抽出し、前記複数のユーザの識別子のそれぞれをノードと、前記ユーザ間の有向辺を考慮した前記ノード間のリンクを含むユーザネットワークを表示して、表示装置に表示する
     ことを特徴とする請求項11に記載のコンテンツ検索プログラム。
PCT/JP2009/069005 2008-11-07 2009-11-06 コンテンツ検索装置およびコンテンツ検索プログラム WO2010053160A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010536802A JP5344715B2 (ja) 2008-11-07 2009-11-06 コンテンツ検索装置およびコンテンツ検索プログラム
US13/127,355 US9077949B2 (en) 2008-11-07 2009-11-06 Content search device and program that computes correlations among different features

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US19323208P 2008-11-07 2008-11-07
US61/193,232 2008-11-07

Publications (1)

Publication Number Publication Date
WO2010053160A1 true WO2010053160A1 (ja) 2010-05-14

Family

ID=42152967

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/069005 WO2010053160A1 (ja) 2008-11-07 2009-11-06 コンテンツ検索装置およびコンテンツ検索プログラム

Country Status (3)

Country Link
US (1) US9077949B2 (ja)
JP (1) JP5344715B2 (ja)
WO (1) WO2010053160A1 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012243300A (ja) * 2011-12-28 2012-12-10 Casio Comput Co Ltd 画像の表示制御装置、画像表示システム、画像表示方法並びにプログラム
JP2013114597A (ja) * 2011-11-30 2013-06-10 Canon Marketing Japan Inc 情報処理装置、及びその制御方法、プログラム
JP2013196609A (ja) * 2012-03-22 2013-09-30 Toshiba Corp データ分析支援装置およびデータ分析支援処理プログラム
JP2014215742A (ja) * 2013-04-24 2014-11-17 日本電信電話株式会社 情報処理装置、特徴量変換システム、表示制御方法及び表示制御プログラム
JP2015031927A (ja) * 2013-08-06 2015-02-16 日本電信電話株式会社 共通信号含有区間有無判定装置、方法、及びプログラム
US9100678B2 (en) 2011-03-30 2015-08-04 Casio Computer Co., Ltd. Image display method, server, and image display system
JP2016197375A (ja) * 2015-04-06 2016-11-24 日本電信電話株式会社 写像学習方法、情報圧縮方法、装置、及びプログラム
JP2017102600A (ja) * 2015-11-30 2017-06-08 日本電信電話株式会社 ベクトル量子化器生成方法、ベクトル量子化方法、装置、及びプログラム
WO2022102186A1 (ja) * 2020-11-13 2022-05-19 ソニーグループ株式会社 情報処理装置、情報処理方法、情報処理プログラム
JP7556269B2 (ja) 2020-11-16 2024-09-26 富士通株式会社 推論プログラム及び推論方法

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8788588B2 (en) * 2006-05-03 2014-07-22 Samsung Electronics Co., Ltd. Method of providing service for user search, and apparatus, server, and system for the same
JP5515890B2 (ja) * 2010-03-15 2014-06-11 オムロン株式会社 画像処理装置、画像処理方法、画像処理システム、制御プログラムおよび記録媒体
FR2959037A1 (fr) * 2010-04-14 2011-10-21 Orange Vallee Procede de creation d'une sequence media par groupes coherents de fichiers medias
CN102884523B (zh) * 2010-04-28 2016-08-24 乐天株式会社 信息提供装置、信息提供方法、信息提供处理程序以及记录了信息提供处理程序的记录介质
US9230019B2 (en) 2010-12-23 2016-01-05 Virtuanet Llc Semantic information processing
US20120259792A1 (en) * 2011-04-06 2012-10-11 International Business Machines Corporation Automatic detection of different types of changes in a business process
US8819012B2 (en) * 2011-08-30 2014-08-26 International Business Machines Corporation Accessing anchors in voice site content
US9384272B2 (en) * 2011-10-05 2016-07-05 The Trustees Of Columbia University In The City Of New York Methods, systems, and media for identifying similar songs using jumpcodes
JP2013137667A (ja) * 2011-12-28 2013-07-11 Nec Corp データ管理システムおよびデータ管理方法
US20130226957A1 (en) * 2012-02-27 2013-08-29 The Trustees Of Columbia University In The City Of New York Methods, Systems, and Media for Identifying Similar Songs Using Two-Dimensional Fourier Transform Magnitudes
AU2012202352A1 (en) * 2012-04-20 2013-11-07 Canon Kabushiki Kaisha Method, system and apparatus for determining a hash code representing a portion of an image
US10204170B2 (en) 2012-12-21 2019-02-12 Highspot, Inc. News feed
US10055418B2 (en) 2014-03-14 2018-08-21 Highspot, Inc. Narrowing information search results for presentation to a user
US9465995B2 (en) * 2013-10-23 2016-10-11 Gracenote, Inc. Identifying video content via color-based fingerprint matching
US9984310B2 (en) 2015-01-23 2018-05-29 Highspot, Inc. Systems and methods for identifying semantically and visually related content
US11062228B2 (en) * 2015-07-06 2021-07-13 Microsoft Technoiogy Licensing, LLC Transfer learning techniques for disparate label sets
KR101942459B1 (ko) * 2016-06-01 2019-01-28 네이버 주식회사 음원 컨텐츠 및 메타 정보를 이용한 플레이리스트 자동 생성 방법 및 시스템
US9645999B1 (en) 2016-08-02 2017-05-09 Quid, Inc. Adjustment of document relationship graphs
EP3842904A1 (en) * 2017-05-12 2021-06-30 QlikTech International AB Interactive data exploration
CA3062700A1 (en) * 2017-05-25 2018-11-29 J. W. Pepper & Son, Inc. Sheet music search and discovery system
US10885900B2 (en) 2017-08-11 2021-01-05 Microsoft Technology Licensing, Llc Domain adaptation in speech recognition via teacher-student learning
US20190108554A1 (en) * 2017-10-06 2019-04-11 Comscore, Inc. Systems and methods for generating and transmitting content based on association of a common device
US11182424B2 (en) * 2018-05-08 2021-11-23 Spotify Ab Image based content search and recommendations
US11055349B2 (en) * 2018-12-28 2021-07-06 Intel Corporation Efficient storage and processing of high-dimensional feature vectors
KR102031282B1 (ko) * 2019-01-21 2019-10-11 네이버 주식회사 음원 컨텐츠 및 메타 정보를 이용한 플레이리스트 자동 생성 방법 및 시스템
US11263493B2 (en) 2019-06-25 2022-03-01 Spotify Ab Automatic metadata detector based on images
CN111324773A (zh) * 2020-02-12 2020-06-23 腾讯科技(深圳)有限公司 一种背景音乐构建方法、装置、电子设备和存储介质
US20220391633A1 (en) * 2021-06-02 2022-12-08 Adobe Inc. Automatically generating an image dataset based on object instance similarity
WO2024182790A2 (en) * 2023-03-01 2024-09-06 MIIR Audio Technologies, Inc. Systems and methods for filtering large audio libraries using perceptive distribution binning

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006344155A (ja) * 2005-06-10 2006-12-21 Hokkaido Univ 画像表示位置決定装置、画像表示位置決定方法、画像表示位置決定プログラム、及びこれを記録したコンピュータ読取可能な記録媒体
WO2007066450A1 (ja) * 2005-12-08 2007-06-14 Nec Corporation 楽曲における区画を抽出する区画自動抽出システム、区画自動抽出方法および区画自動抽出プログラム
JP2007193222A (ja) * 2006-01-20 2007-08-02 Casio Comput Co Ltd メロディ入力装置及び楽曲検索装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6041311A (en) * 1995-06-30 2000-03-21 Microsoft Corporation Method and apparatus for item recommendation using automated collaborative filtering
US6430307B1 (en) * 1996-06-18 2002-08-06 Matsushita Electric Industrial Co., Ltd. Feature extraction system and face image recognition system
US6480841B1 (en) * 1997-09-22 2002-11-12 Minolta Co., Ltd. Information processing apparatus capable of automatically setting degree of relevance between keywords, keyword attaching method and keyword auto-attaching apparatus
US6629097B1 (en) * 1999-04-28 2003-09-30 Douglas K. Keith Displaying implicit associations among items in loosely-structured data sets
WO2001031502A1 (fr) * 1999-10-27 2001-05-03 Fujitsu Limited Dispositif et procede de classement et de rangement d'informations multimedia
AU2001283004A1 (en) * 2000-07-24 2002-02-05 Vivcom, Inc. System and method for indexing, searching, identifying, and editing portions of electronic multimedia files
EP1619596A3 (en) 2000-10-20 2006-05-24 Sharp Kabushiki Kaisha Search information managing apparatus for moving image contents
US7231389B2 (en) * 2003-05-26 2007-06-12 Matsushita Electric Industrial Co., Ltd. Music search device
JP4695853B2 (ja) 2003-05-26 2011-06-08 パナソニック株式会社 音楽検索装置
JP4670803B2 (ja) * 2006-12-04 2011-04-13 株式会社デンソー 操作推定装置およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006344155A (ja) * 2005-06-10 2006-12-21 Hokkaido Univ 画像表示位置決定装置、画像表示位置決定方法、画像表示位置決定プログラム、及びこれを記録したコンピュータ読取可能な記録媒体
WO2007066450A1 (ja) * 2005-12-08 2007-06-14 Nec Corporation 楽曲における区画を抽出する区画自動抽出システム、区画自動抽出方法および区画自動抽出プログラム
JP2007193222A (ja) * 2006-01-20 2007-08-02 Casio Comput Co Ltd メロディ入力装置及び楽曲検索装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DAIGO MICHIYAMA: "Eizo Kensaku no Tameno Gazo Oyobi Onkyo Shingo ni yoru Scene-kan no Soido Teigi ni Kansuru Kento", ITE TECHNICAL REPORT, vol. 32, no. 9, 21 February 2008 (2008-02-21), pages 55 - 59 *
KAZUYA KOBAYASHI: "Melody ni Chakugan shita Ruijido ni Motozuku Ruiji Gakkyoku Chushutsu no Seido ni Kansuru Ichikosatsu", ITE TECHNICAL REPORT, vol. 32, no. 9, 18 February 2008 (2008-02-18), pages 49 - 53 *
TERUHISA HOCHIN: "Kansei ni Motozuku Cross Media Kensaku System ni Tsuite", IPSJ SIG NOTES, vol. 2002, no. 67, 17 July 2002 (2002-07-17), pages 523 - 528 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9100678B2 (en) 2011-03-30 2015-08-04 Casio Computer Co., Ltd. Image display method, server, and image display system
JP2013114597A (ja) * 2011-11-30 2013-06-10 Canon Marketing Japan Inc 情報処理装置、及びその制御方法、プログラム
JP2012243300A (ja) * 2011-12-28 2012-12-10 Casio Comput Co Ltd 画像の表示制御装置、画像表示システム、画像表示方法並びにプログラム
JP2013196609A (ja) * 2012-03-22 2013-09-30 Toshiba Corp データ分析支援装置およびデータ分析支援処理プログラム
JP2014215742A (ja) * 2013-04-24 2014-11-17 日本電信電話株式会社 情報処理装置、特徴量変換システム、表示制御方法及び表示制御プログラム
JP2015031927A (ja) * 2013-08-06 2015-02-16 日本電信電話株式会社 共通信号含有区間有無判定装置、方法、及びプログラム
JP2016197375A (ja) * 2015-04-06 2016-11-24 日本電信電話株式会社 写像学習方法、情報圧縮方法、装置、及びプログラム
JP2017102600A (ja) * 2015-11-30 2017-06-08 日本電信電話株式会社 ベクトル量子化器生成方法、ベクトル量子化方法、装置、及びプログラム
WO2022102186A1 (ja) * 2020-11-13 2022-05-19 ソニーグループ株式会社 情報処理装置、情報処理方法、情報処理プログラム
JP7556269B2 (ja) 2020-11-16 2024-09-26 富士通株式会社 推論プログラム及び推論方法

Also Published As

Publication number Publication date
JPWO2010053160A1 (ja) 2012-04-05
US9077949B2 (en) 2015-07-07
JP5344715B2 (ja) 2013-11-20
US20110225153A1 (en) 2011-09-15

Similar Documents

Publication Publication Date Title
JP5344715B2 (ja) コンテンツ検索装置およびコンテンツ検索プログラム
US11636342B2 (en) Searching for music
CN103793446B (zh) 音乐视频的生成方法和系统
JP4825800B2 (ja) 楽曲分類方法
Levy et al. Music information retrieval using social tags and audio
US20090069914A1 (en) Method for classifying audio data
CN103793447B (zh) 音乐与图像间语义相似度的估计方法和估计系统
CN106649513B (zh) 基于谱聚类的音频数据聚类方法
JP5527548B2 (ja) 情報分析装置、情報分析方法、及びプログラム
Melo et al. Graph-based feature extraction: A new proposal to study the classification of music signals outside the time-frequency domain
JP5161867B2 (ja) コンテンツ空間形成装置、その方法、コンピュータ、プログラムおよび記録媒体
JPWO2006137271A1 (ja) 楽曲検索装置、楽曲検索方法および楽曲検索プログラム
CN106663110B (zh) 音频序列对准的概率评分的导出
JP7537175B2 (ja) 楽曲構造解析装置、楽曲構造解析方法および楽曲構造解析プログラム
JP2002373177A (ja) 類似オブジェクト検索方法及び装置
JP4305836B2 (ja) コンテンツ検索表示装置およびコンテンツ検索表示方法
George et al. Unsupervised analysis of similarities between musicians and musical genres using spectrograms.
JP2003316819A (ja) オブジェクト分類検索装置及びそれを実行するためのプログラム
JP2000067081A (ja) 文書検索方法、そのプログラムを記録した記録媒体、及び文書検索装置
Wan et al. Content-based audio retrieval with relevance feedback
JP2007183927A (ja) 情報処理装置および方法、並びにプログラム
Xiao et al. Learning a music similarity measure on automatic annotations with application to playlist generation
Dupont et al. Browsing sound and music libraries by similarity
Liao et al. Mining association patterns between music and video clips in professional MTV
JP2006085634A (ja) テキストデータ学習分析システム、テキストデータ学習装置、テキストデータ分析装置、方法及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09824859

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2010536802

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 13127355

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09824859

Country of ref document: EP

Kind code of ref document: A1