JP6389296B1 - 映像データ処理装置、映像データ処理方法、及びコンピュータプログラム - Google Patents
映像データ処理装置、映像データ処理方法、及びコンピュータプログラム Download PDFInfo
- Publication number
- JP6389296B1 JP6389296B1 JP2017065066A JP2017065066A JP6389296B1 JP 6389296 B1 JP6389296 B1 JP 6389296B1 JP 2017065066 A JP2017065066 A JP 2017065066A JP 2017065066 A JP2017065066 A JP 2017065066A JP 6389296 B1 JP6389296 B1 JP 6389296B1
- Authority
- JP
- Japan
- Prior art keywords
- tag
- video data
- importance
- dictionary
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims description 11
- 238000004590 computer program Methods 0.000 title claims description 4
- 238000003860 storage Methods 0.000 claims abstract description 22
- 238000001514 detection method Methods 0.000 claims abstract description 19
- 238000003058 natural language processing Methods 0.000 claims abstract description 13
- 230000010354 integration Effects 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 13
- 239000000284 extract Substances 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 238000000034 method Methods 0.000 description 8
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 6
- 238000009826 distribution Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
Description
図1に、第1実施形態に係る映像データ処理装置1の機能構成例を示す。映像データ処理装置1は、シーン分割部10、物体認識部20、映像データ内テキスト検出部30、音声認識部40、辞書記憶部50、辞書選択部60、自然言語処理部70、重要度生成部80、重要度統合部90、タグデータベース100、映像管理部110、及び映像データベース120を備える。映像データ処理装置1は、映像データに含まれる情報に基づいて、映像データに適切なメタデータを付与したデータベースを生成する。以降において、データベースはDBと表記する。
なお、辞書記憶部50に文字認識用辞書が記憶されていない場合、映像データ内テキスト検出部30は、映像データ内テキスト検出部が備える(共通的な)辞書を用いて映像データから映像内テキストを検出する。
図9に示す重要度統合部90の動作フローを参照してその動作を説明する。
図11に、第2実施形態に係る映像データ処理装置2の機能構成例を示す。映像データ処理装置2は、映像データ処理装置1の重要度統合部90に代えてタグ管理部130を備える点で異なる。映像データ処理装置2は、タグ種の間で一致するタグに対応する重要度の統合を行わない。
図12に、第3実施形態に係る映像データ処理装置3の機能構成例を示す。映像データ処理装置3は、物体認識部23を備える点で、映像データ処理装置2と異なる。
10:シーン分割部
20、23:物体認識部
30:映像データ内テキスト検出部
40:音声認識部
50:辞書記憶部
60:辞書選択部
70:自然言語処理部
80:重要度生成部
90:重要度統合部
100:タグデータベース
110:映像管理部
120:映像データベース
Claims (5)
- 映像データごとに、該映像データを示す映像データ識別子と、映像データの内容を表す映像データタグと、該映像データタグの重要度を表すタグ重要度とを対応付けて記憶するタグデータベースと、
映像データの内容について予め設定された複数のカテゴリごとの文字認識用辞書と音声認識用辞書のどちらか一方又は両方を備える辞書記憶部と、
映像データに含まれる物体を認識し、該物体を表すタグと該タグの尤度を生成する物体認識部と、
該物体の重要度を示すデータを生成する重要度生成部と、
映像データに含まれる映像内テキストを、前記辞書記憶部に前記文字認識用辞書が記憶されていれば当該文字認識用辞書を用いて検出する映像データ内テキスト検出部と、
映像データに付与された音声を認識した音声認識テキストを、前記辞書記憶部に前記音声認識用辞書が記憶されていれば当該音声認識用辞書を用いて生成する音声認識部と、
映像内テキストから重要語を表すタグを抽出し、該タグの前記映像内テキストにおける発生頻度と他のテキストにおける発生頻度とを考慮して該タグの重要度を生成し、前記音声認識テキストから重要語を表すタグを抽出し、該タグの前記音声認識テキストにおける発生頻度と他のテキストにおける発生頻度とを考慮して該タグの重要度を生成する自然言語処理部と、
前記映像データ内テキスト検出部で用いた前記文字認識用辞書、及び前記音声認識部で用いた前記音声認識用辞書を、前記映像データ内テキスト検出部で検出した映像内テキストのタグに応じたカテゴリが変化した場合に変化したカテゴリの前記音声認識用辞書に切り替えて選択し、前記音声認識部で検出した音声認識テキストのタグに応じたカテゴリが変化した場合に変化したカテゴリの前記文字認識用辞書に切り替えて選択する辞書選択部と、
生成された3種の前記タグの内の2つ又は3つが一致する場合、又は3種の前記タグの内の2つ又は3つが類似する場合、当該タグに対応する重要度に基づいてタグ重要度を求め、当該タグを映像データタグとして、当該タグ重要度に対応する映像データ識別子と、当該映像データタグと、当該タグ重要度を対応付けて前記タグデータベースに記憶する重要度統合部と
を備え、
前記タグ重要度は、前記一致する又は前記類似するタグを抽出する抽出精度を考慮した値であり、該抽出精度の高いタグに対応する重要度に大きな重みを乗じて求める
ことを特徴とする映像データ処理装置。 - 前記重要度統合部に代えてタグ管理部を備え、
前記タグ管理部は、生成された3種の前記タグのそれぞれを映像データダグとし、且つそれぞれの重要度をタグ重要度とし、当該タグ重要度に対応する映像データの識別子と、当該映像データタグと、当該タグ重要度を対応付けて前記タグデータベースに記憶する
ことを特徴とする請求項1に記載の映像データ処理装置。 - 前記物体認識部は、複数のカテゴリに対応する物体のそれぞれの特徴を表す特徴量を記憶し、前記辞書選択部が選択した文字認識用辞書のカテゴリ又は音声認識用辞書のカテゴリに、それぞれ対応するカテゴリの前記特徴量を使用して映像データに含まれる物体を認識することを特徴とする請求項1又は2に記載の映像データ処理装置。
- 映像データ処理装置が行う映像データ処理方法であって、
前記映像データ処理装置は、
映像データごとに、該映像データを示す映像データ識別子と、映像データの内容を表す映像データタグと、該映像データタグの重要度を表すタグ重要度とを対応付けて記憶するタグデータベースと、
映像データの内容について予め設定された複数のカテゴリごとの文字認識用辞書と音声認識用辞書のどちらか一方又は両方を備える辞書記憶部とを備え、
前記映像データ処理方法においては、
映像データに含まれる物体を認識し、該物体を表すタグと該タグの尤度を生成し、
該物体の重要度を示すデータを生成し、
映像データに含まれる映像内テキストを、前記辞書記憶部に前記文字認識用辞書が記憶されていれば当該文字認識用辞書を用いて映像データからテキストを検出し、
映像データに付与された音声を認識した音声認識テキストを、前記辞書記憶部に前記音声認識用辞書が記憶されていれば当該音声認識用辞書を用いて生成し、
映像内テキストから重要語を表すタグを抽出し、該タグの前記映像内テキストにおける発生頻度と他のテキストにおける発生頻度とを考慮して該タグの重要度を生成し、前記音声認識テキストから重要語を表すタグを抽出し、該タグの前記音声認識テキストにおける発生頻度と他のテキストにおける発生頻度とを考慮して該タグの重要度を生成し、
一度選択した前記文字認識用辞書及び音声認識用辞書を、検出した映像内テキストのタグに応じたカテゴリが変化した場合に変化したカテゴリの前記音声認識用辞書に切り替えて選択し、検出した音声認識テキストのタグに応じたカテゴリが変化した場合に変化したカテゴリの前記文字認識用辞書に切り替えて選択し、
生成された3種の前記タグの内の2つ又は3つが一致する場合、又は3種の前記タグの内の2つ又は3つが類似する場合、当該タグに対応する重要度に基づいてタグ重要度を求め、当該タグを映像データタグとして、当該タグ重要度に対応する映像データの識別子と、当該映像データタグと、当該タグ重要度を対応付けて前記タグデータベースに記憶し、
前記タグ重要度は、前記一致する又は前記類似するタグを抽出する抽出精度を考慮した値であり、該抽出精度の高いタグに対応する重要度に大きな重みを乗じて求める
ことを特徴とする映像データ処理方法。 - 請求項1乃至3の何れかに記載した映像データ処理装置としてコンピュータを機能させるためのコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017065066A JP6389296B1 (ja) | 2017-03-29 | 2017-03-29 | 映像データ処理装置、映像データ処理方法、及びコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017065066A JP6389296B1 (ja) | 2017-03-29 | 2017-03-29 | 映像データ処理装置、映像データ処理方法、及びコンピュータプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6389296B1 true JP6389296B1 (ja) | 2018-09-12 |
JP2018169697A JP2018169697A (ja) | 2018-11-01 |
Family
ID=63518897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017065066A Active JP6389296B1 (ja) | 2017-03-29 | 2017-03-29 | 映像データ処理装置、映像データ処理方法、及びコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6389296B1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6669952B1 (ja) * | 2018-11-12 | 2020-03-18 | 株式会社日本経済新聞社 | 動画のためのタグ付け装置、方法、およびプログラム |
JP2021135811A (ja) * | 2020-02-27 | 2021-09-13 | 東京瓦斯株式会社 | 文字入力支援制御装置、文字入力支援システム、文字入力支援プログラム |
CN111831854A (zh) * | 2020-06-03 | 2020-10-27 | 北京百度网讯科技有限公司 | 视频标签的生成方法、装置、电子设备和存储介质 |
JP7345897B2 (ja) * | 2021-11-30 | 2023-09-19 | 政志 松本 | データ保管装置、データ保管方法、及びデータ保管プログラム |
KR102749990B1 (ko) * | 2023-02-16 | 2025-01-03 | 쿠팡 주식회사 | 영상 컨텐츠에 대응하는 태그 정보를 생성하기 위한 방법 및 전자 장치 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4100243B2 (ja) * | 2003-05-06 | 2008-06-11 | 日本電気株式会社 | 映像情報を用いた音声認識装置及び方法 |
JP2005258577A (ja) * | 2004-03-09 | 2005-09-22 | Olympus Corp | 文字入力装置、文字入力方法、文字入力プログラム及び記録媒体 |
JP2006157108A (ja) * | 2004-11-25 | 2006-06-15 | Teac Corp | 映像記録再生装置 |
JP2007082088A (ja) * | 2005-09-16 | 2007-03-29 | Matsushita Electric Ind Co Ltd | コンテンツとメタデータを記録、再生する装置、コンテンツ処理装置、プログラム |
JP4709791B2 (ja) * | 2007-03-13 | 2011-06-22 | 株式会社東芝 | 映像処理装置及び映像処理方法 |
JP5033653B2 (ja) * | 2008-01-21 | 2012-09-26 | 株式会社日立製作所 | 映像記録再生装置及び映像再生装置 |
JP5333080B2 (ja) * | 2009-09-07 | 2013-11-06 | 株式会社日本自動車部品総合研究所 | 画像認識システム |
JP5729398B2 (ja) * | 2013-01-22 | 2015-06-03 | 株式会社デンソー | 車載物標検出装置 |
JP6239318B2 (ja) * | 2013-08-30 | 2017-11-29 | 株式会社東芝 | 情報処理装置、方法およびプログラム |
JP6426971B2 (ja) * | 2014-10-16 | 2018-11-21 | 日本放送協会 | 学習データ生成装置及びそのプログラム |
-
2017
- 2017-03-29 JP JP2017065066A patent/JP6389296B1/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018169697A (ja) | 2018-11-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10621991B2 (en) | Joint neural network for speaker recognition | |
JP6389296B1 (ja) | 映像データ処理装置、映像データ処理方法、及びコンピュータプログラム | |
JP6824332B2 (ja) | 動画サービス提供方法およびこれを用いるサービスサーバ | |
US8107689B2 (en) | Apparatus, method and computer program for processing information | |
CN108986186A (zh) | 文字转化视频的方法和系统 | |
KR100828166B1 (ko) | 동영상의 음성 인식과 자막 인식을 통한 메타데이터 추출방법, 메타데이터를 이용한 동영상 탐색 방법 및 이를기록한 기록매체 | |
CN112738556B (zh) | 视频处理方法及装置 | |
CN114342353A (zh) | 用于视频分割的方法和系统 | |
JP2008533580A (ja) | オーディオ及び/又はビジュアルデータの要約 | |
JP2011082958A (ja) | ビデオ検索システムおよびそのためのコンピュータプログラム | |
CN111639228B (zh) | 视频检索方法、装置、设备及存储介质 | |
CN104798068A (zh) | 视频检索方法和装置 | |
CN110781328A (zh) | 基于语音识别的视频生成方法、系统、装置和存储介质 | |
CN115438223B (zh) | 视频处理方法、装置、电子设备及存储介质 | |
Hauptmann et al. | Video retrieval using speech and image information | |
JP6917210B2 (ja) | 要約映像生成装置およびそのプログラム | |
JP2018170001A (ja) | 映像データ処理装置、映像データ処理方法、及びコンピュータプログラム | |
CN102970618A (zh) | 基于音节识别的视频点播方法 | |
CN118741176B (zh) | 广告植入信息处理方法、相关装置和介质 | |
CN114090766A (zh) | 视频文本筛选方法、装置及电子设备 | |
JP4270118B2 (ja) | 映像シーンに対する意味ラベル付与方法及び装置及びプログラム | |
Darji et al. | A review of video classification techniques | |
CN114218437A (zh) | 自适应图片裁剪融合方法、系统、计算机设备及介质 | |
CN113869281B (zh) | 一种人物识别方法、装置、设备和介质 | |
KR102771980B1 (ko) | 인공지능 기반의 영상 태깅 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180814 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180816 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6389296 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |