KR102435933B1 - 영상 컨텐츠에서의 음악 구간 검출 방법 및 장치 - Google Patents
영상 컨텐츠에서의 음악 구간 검출 방법 및 장치 Download PDFInfo
- Publication number
- KR102435933B1 KR102435933B1 KR1020200134306A KR20200134306A KR102435933B1 KR 102435933 B1 KR102435933 B1 KR 102435933B1 KR 1020200134306 A KR1020200134306 A KR 1020200134306A KR 20200134306 A KR20200134306 A KR 20200134306A KR 102435933 B1 KR102435933 B1 KR 102435933B1
- Authority
- KR
- South Korea
- Prior art keywords
- music
- frame
- music section
- section
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000001514 detection method Methods 0.000 claims description 36
- 238000000605 extraction Methods 0.000 claims description 32
- 238000012795 verification Methods 0.000 claims description 28
- 238000013145 classification model Methods 0.000 claims description 20
- 238000013528 artificial neural network Methods 0.000 claims description 19
- 238000012937 correction Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 10
- 238000012935 Averaging Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4662—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
- H04N21/4666—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms using neural networks, e.g. processing the feedback provided by the user
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8106—Monomedia components thereof involving special audio data, e.g. different tracks for different languages
- H04N21/8113—Monomedia components thereof involving special audio data, e.g. different tracks for different languages comprising music, e.g. song in MP3 format
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
도 2는 일 실시예에 따른 음악 구간 검출 방법을 설명하기 위한 흐름도이다.
도 3은 일 실시예에 따른 음악 구간 검출 방법에 기초하여 음악 구간들이 검출된 오디오 데이터의 일례이다.
도 4는 일 실시예에 따른 음악 구간 검출 방법이 수행되는 과정을 도시하는 도면이다.
도 5a 내지 도 5d는 일 실시예에 따른 영상 컨텐츠에 포함된 음악이 식별되는 과정을 도시하는 도면들이다.
도 6은 일 실시예에 따른 특징 추출 모델의 일례를 도시하는 도면이다.
도 7은 일 실시예에 따른 분류 모델 및 검증 모델의 일례를 도시하는 도면이다.
도 8은 다른 실시예에 따른 음악 구간 검출 방법을 설명하기 위한 흐름도이다.
도 9는 일 실시예에 따른 음악 구간 검출 장치의 구성을 도시하는 도면이다.
130, 435, 740: 검증 모델 900: 음악 구간 검출 장치
910: 통신기 920: 프로세서
930: 메모리 940: 데이터베이스
Claims (17)
- 영상 컨텐츠에서의 음악 구간 검출 방법에 있어서,
영상 컨텐츠에 포함된 오디오 데이터로부터 특징을 추출하는 단계;
상기 추출된 특징에 기초하여 상기 오디오 데이터로부터 음악의 시작점을 결정하는 단계;
상기 음악의 시작점에 대응하는 제1 프레임에서 추출된 특징을 저장하는 단계; 및
상기 제1 프레임의 다음 프레임인 제2 프레임에서 추출된 특징과 상기 저장된 제1 프레임에서 추출된 특징에 기초하여 상기 제2 프레임이 음악 구간에 해당되는지 여부를 결정하는 단계
를 포함하고,
상기 음악 구간에 해당되는지 여부를 결정하는 단계는,
상기 오디오 데이터의 각 프레임에 대응하는 오디오 데이터가 음악 또는 비-음악(non-music) 중 어느 하나인지를 결정하기 위한 라벨을 획득하는 단계;
상기 오디오 데이터로부터 추출된 특징을 잡음 모델, 음악 모델, 음성 모델 및 혼합 모델을 포함하는 검증 모델에 적용하여 각 모델의 스코어를 산출하는 단계; 및
상기 산출된 스코어에 기초하여, 상기 음악으로 결정된 라벨을 음악, 음악과 음성 및 음악과 잡음 중 어느 하나의 라벨로 보정하는 단계
를 포함하는,
음악 구간 검출 방법. - 제1항에 있어서,
상기 특징을 추출하는 단계는,
상기 오디오 데이터로부터 프레임 별로 MFCC(Mel-Frequency Cepstral Coefficient) 및 I-벡터 특징을 추출하는 단계; 및
상기 MFCC 및 상기 I-벡터 특징을 특징 추출 모델에 입력하여, 상기 특징 추출 모델로부터 프레임 별 X-벡터 특징을 획득하는 단계를 포함하는,
음악 구간 검출 방법. - 제2항에 있어서,
상기 특징 추출 모델은,
오디오 데이터에 포함된 잡음, 음성 및 음악을 구별하기 위한 특징을 추출하도록 학습되고,
학습된 후, 소리의 종류를 분류하기 위한 특징을 나타내는 임베딩 레이어가 출력 레이어로 변경된 심층 신경망인,
음악 구간 검출 방법. - 제1항에 있어서,
상기 음악 구간에 해당되는지 여부를 결정하는 단계는,
평균화된 X-벡터 특징을 심층 신경망 기반의 분류 모델에 입력하여, 각 프레임에 대응하는 오디오 데이터가 음악 또는 비-음악(non-music) 중 어느 하나인지를 결정하기 위한 라벨을 획득하는 단계를 포함하는,
음악 구간 검출 방법. - 제4항에 있어서,
상기 음악 구간에 해당되는지 여부를 결정하는 단계는,
상기 평균화된 X-벡터 특징을 심층 신경망 기반의 검증 모델에 적용하여 PLDA(probabilistic linear discriminant analysis) 스코어를 산출하는 단계;
상기 PLDA 스코어에 기초하여, 상기 라벨에 대해 보정을 수행하는 단계; 및
상기 보정된 라벨에 기초하여 상기 제2 프레임이 음악 구간에 해당되는지 여부를 결정하는 단계를 포함하는,
음악 구간 검출 방법. - 제1항에 있어서,
상기 음악 구간에 해당되는지 여부를 결정하는 단계는,
상기 제2 프레임이, 인덱싱된 특징에 대해 미리 정해진 조건을 만족시키는 특징을 포함하는 경우, 상기 제2 프레임을 상기 제1 프레임과 동일한 음악을 포함하는 음악 구간에 해당되는 것으로 결정하는 단계를 포함하는,
음악 구간 검출 방법. - 제1항에 있어서,
상기 제2 프레임이 음악 구간에 해당되는 것으로 결정된 경우,
상기 제2 프레임의 다음 프레임인 제3 프레임에서 추출된 특징과, 상기 제2 프레임에서 추출된 특징에 기초하여 상기 제3 프레임이 음악 구간에 해당되는지 여부를 결정하는 단계를 더 포함하는,
음악 구간 검출 방법. - 제1항에 있어서,
상기 음악 구간은,
상기 음악 구간에 대응하는 음악의 오디오 지문과 음악 메타 데이터에 기초하여, 상기 음악에 대한 정보가 식별되는,
음악 구간 검출 방법. - 하드웨어와 결합되어 제1항 내지 제8항 중 어느 하나의 항의 방법을 실행시키기 위하여 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램.
- 음악 구간 검출 방법을 수행하는 음악 구간 검출 장치에 있어서,
메모리 및 프로세서를 포함하고,
상기 메모리는 상기 프로세서에 의해 실행 가능한 인스트럭션들을 저장하고,
상기 인스트럭션들이 상기 프로세서에 의해 실행될 때, 상기 프로세서는 상기 음악 구간 검출 장치가,
영상 컨텐츠에 포함된 오디오 데이터로부터 특징을 추출하고,
상기 추출된 특징에 기초하여 상기 오디오 데이터로부터 음악의 시작점을 결정하고,
상기 음악의 시작점에 대응하는 제1 프레임에서 추출된 특징을 저장하고,
상기 제1 프레임의 다음 프레임인 제2 프레임에서 추출된 특징과 상기 저장된 제1 프레임에서 추출된 특징에 기초하여 상기 제2 프레임이 음악 구간에 해당되는지 여부를 결정하고,
상기 오디오 데이터의 각 프레임에 대응하는 오디오 데이터가 음악 또는 비-음악(non-music) 중 어느 하나인지를 결정하기 위한 라벨을 획득하고,
상기 오디오 데이터로부터 추출된 특징을 잡음 모델, 음악 모델, 음성 모델 및 혼합 모델을 포함하는 검증 모델에 적용하여 각 모델의 스코어를 산출하고,
상기 산출된 스코어에 기초하여, 상기 음악으로 결정된 라벨을 음악, 음악과 음성 및 음악과 잡음 중 어느 하나의 라벨로 보정하도록 상기 음악 구간 검출 장치를 제어하는,
음악 구간 검출 장치. - 제10항에 있어서,
상기 프로세서는 상기 음악 구간 검출 장치가,
상기 오디오 데이터로부터 프레임 별로 MFCC(Mel-Frequency Cepstral Coefficient) 및 I-벡터 특징을 추출하고,
상기 MFCC 및 상기 I-벡터 특징을 특징 추출 모델에 입력하여, 상기 특징 추출 모델로부터 프레임 별 X-벡터 특징을 획득하도록 상기 음악 구간 검출 장치를 제어하는,
음악 구간 검출 장치. - 제11항에 있어서,
상기 특징 추출 모델은,
오디오 데이터에 포함된 잡음, 음성 및 음악을 구별하기 위한 특징을 추출하도록 학습되고,
학습된 후, 소리의 종류를 분류하기 위한 특징을 나타내는 임베딩 레이어가 출력 레이어로 변경된 심층 신경망인,
음악 구간 검출 장치. - 제10항에 있어서,
상기 프로세서는 상기 음악 구간 검출 장치가,
평균화된 X-벡터 특징을 심층 신경망 기반의 분류 모델에 입력하여, 각 프레임에 대응하는 오디오 데이터가 음악 또는 비-음악(non-music) 중 어느 하나인지를 결정하기 위한 라벨을 획득하도록 상기 음악 구간 검출 장치를 제어하는,
음악 구간 검출 장치. - 제13항에 있어서,
상기 프로세서는 상기 음악 구간 검출 장치가,
상기 평균화된 X-벡터 특징을 심층 신경망 기반의 검증 모델에 적용하여 PLDA(probabilistic linear discriminant analysis) 스코어를 산출하고,
상기 PLDA 스코어에 기초하여, 상기 라벨에 대해 보정을 수행하고,
상기 보정된 라벨에 기초하여 상기 제2 프레임이 음악 구간에 해당되는지 여부를 결정하도록 상기 음악 구간 검출 장치를 제어하는,
음악 구간 검출 장치. - 제10항에 있어서,
상기 프로세서는 상기 음악 구간 검출 장치가,
상기 제2 프레임이, 인덱싱된 특징에 대해 미리 정해진 조건을 만족시키는 특징을 포함하는 경우, 상기 제2 프레임을 상기 제1 프레임과 동일한 음악을 포함하는 음악 구간에 해당되는 것으로 결정하도록 상기 음악 구간 검출 장치를 제어하는,
음악 구간 검출 장치. - 제10항에 있어서,
상기 프로세서는 상기 음악 구간 검출 장치가,
상기 제2 프레임이 음악 구간에 해당되는 것으로 결정된 경우, 상기 제2 프레임의 다음 프레임인 제3 프레임에서 추출된 특징과, 상기 제2 프레임에서 추출된 특징에 기초하여 상기 제3 프레임이 음악 구간에 해당되는지 여부를 결정하도록 상기 음악 구간 검출 장치를 제어하는,
음악 구간 검출 장치. - 제10항에 있어서,
상기 음악 구간은,
상기 음악 구간에 대응하는 음악의 오디오 지문과 음악 메타 데이터에 기초하여, 상기 음악에 대한 정보가 식별되는,
음악 구간 검출 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200134306A KR102435933B1 (ko) | 2020-10-16 | 2020-10-16 | 영상 컨텐츠에서의 음악 구간 검출 방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200134306A KR102435933B1 (ko) | 2020-10-16 | 2020-10-16 | 영상 컨텐츠에서의 음악 구간 검출 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220050530A KR20220050530A (ko) | 2022-04-25 |
KR102435933B1 true KR102435933B1 (ko) | 2022-08-24 |
Family
ID=81451928
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200134306A Active KR102435933B1 (ko) | 2020-10-16 | 2020-10-16 | 영상 컨텐츠에서의 음악 구간 검출 방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102435933B1 (ko) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4348970B2 (ja) * | 2003-03-06 | 2009-10-21 | ソニー株式会社 | 情報検出装置及び方法、並びにプログラム |
KR20170124854A (ko) * | 2016-05-03 | 2017-11-13 | 한국전자통신연구원 | 음성/비음성 구간 검출 장치 및 방법 |
KR102550598B1 (ko) * | 2018-03-21 | 2023-07-04 | 현대모비스 주식회사 | 음성 화자 인식 장치 및 그 방법 |
-
2020
- 2020-10-16 KR KR1020200134306A patent/KR102435933B1/ko active Active
Also Published As
Publication number | Publication date |
---|---|
KR20220050530A (ko) | 2022-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10262239B2 (en) | Video content contextual classification | |
CN110147726B (zh) | 业务质检方法和装置、存储介质及电子装置 | |
KR101994592B1 (ko) | 비디오 콘텐츠의 메타데이터 자동 생성 방법 및 시스템 | |
US10528821B2 (en) | Video segmentation techniques | |
KR102415503B1 (ko) | 분류기 학습 방법 및 객체 검출 방법 | |
US11727939B2 (en) | Voice-controlled management of user profiles | |
US20170200092A1 (en) | Creating deep learning models using feature augmentation | |
KR102560019B1 (ko) | 화자 식별과 결합된 화자 분리 방법, 시스템, 및 컴퓨터 프로그램 | |
US10216761B2 (en) | Generating congruous metadata for multimedia | |
KR101942459B1 (ko) | 음원 컨텐츠 및 메타 정보를 이용한 플레이리스트 자동 생성 방법 및 시스템 | |
CN113420178B (zh) | 一种数据处理方法以及设备 | |
JPWO2008050718A1 (ja) | 権利情報抽出装置、権利情報抽出方法及びプログラム | |
CN102473409B (zh) | 声音空间的基准模型适应装置、集成电路以及av设备 | |
KR20160093293A (ko) | 영상에서 장면 단위 컨텍스트 정보를 이용한 객체 검출 장치 및 방법 | |
KR102435933B1 (ko) | 영상 컨텐츠에서의 음악 구간 검출 방법 및 장치 | |
KR102399673B1 (ko) | 어휘 트리에 기반하여 객체를 인식하는 방법 및 장치 | |
KR20200063316A (ko) | 각본 기반의 영상 검색 장치 및 방법 | |
KR20250018144A (ko) | 콘텐츠를 위한 태깅 방법 및 그 시스템 | |
Stein et al. | From raw data to semantically enriched hyperlinking: Recent advances in the LinkedTV analysis workflow | |
KR102160095B1 (ko) | 미디어 컨텐츠 구간 분석 방법 및 이를 지원하는 서비스 장치 | |
KR20190009821A (ko) | 음원 컨텐츠 및 메타 정보를 이용한 플레이리스트 자동 생성 방법 및 시스템 | |
KR20220077439A (ko) | 객체 검색 모델 및 그 학습 방법 | |
CN112669833A (zh) | 一种语音交互的纠错方法及装置 | |
US20240020977A1 (en) | System and method for multimodal video segmentation in multi-speaker scenario | |
TWI883500B (zh) | 內容物標記方法及其系統及電腦程式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20201016 |
|
PA0201 | Request for examination | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20211013 Patent event code: PE09021S01D |
|
PG1501 | Laying open of application | ||
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20220523 |
|
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20220819 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20220822 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration |