Open JTalk
開発元 | 名古屋工業大学 |
---|---|
最新版 |
オンライン版:1.06, SourceForge版:1.11
/ 2012年12月25日 , SourceForge版: 2018年12月25日 |
リポジトリ |
sourceforge |
プログラミング 言語 | C++ |
使用エンジン | HTS |
対応OS | Linux、他 |
対応言語 | 日本語 |
サポート状況 | 開発中 |
種別 | 音声合成, Text-To-Speech |
ライセンス | 修正BSDライセンス |
公式サイト |
open-jtalk |
Open JTalk(おーぷんじぇいとーく)は、名古屋工業大学で開発された音声合成技術および同技術を応用した、日本語向けのテキストトゥスピーチ(文章読み上げ)ソフト。日本語の文章を入力することで音声を合成し、読み上げることができる。
概要
[編集]名古屋工業大学にて開発・メンテナンスが続けられている日本語音声合成ソフトウェア。オープンソースで公開されているスタンドアロン版と、Webサイトで公開されているオンライン版の2種類がある。
合成技術にHMM(Hidden Markov Model、隠れマルコフモデル)を採用しており、少ないメモリでも動作するのが特徴[1]。その特徴からRaspberry Pi上での音声合成ライブラリとしての利用例も多い。
パラメータとしては「声質」(フォルマントシフト)、「ピッチシフト」(声の高さ)、「話速」に対応し、ボイスを切り替えることで感情表現にも対応する。
オンライン版
[編集]公式サイト[2] 上でシステムを公開しており、誰でも無料で利用可能。
指定可能なボイス(音響モデル)は2種類(男性1種類、女性4感情4種類)。
オープンソース版
[編集]SourceForgeにてソースコードが公開されている。利用にはビルドが必要。ビルドすることで各種OSに対応する。修正BSDライセンスで公開されている。 音声合成にはさらに辞書データとボイスデータ(音響モデル、htsvoice形式)が必要[1]。 ライセンスに従うことでライブラリとして他ソフトウェアに組み込むことも可能。
導入
[編集]複数のOSに対応しているものの、OSS版はソースコードとしての公開のため導入にはビルドが必要となる。有志によって簡単に使えるように、さまざまな導入方法が用意されている。
アプリとしての導入方法
[編集]一部を除き、原則コマンドラインアプリとしての入手になる。
- SHABERU
- Windows向けのGUIのあるフリーソフト。追加音響モデルにも対応する。[3]
パッケージマネージャを利用した導入方法
[編集]辞書データや音響モデルの追加導入が必要な場合がある(APT等)。また、導入後ビルドが必要な場合もある(pyopenjtalk等)。
- Docker
docker pull u6kapps/open_jtalk
[4]- Homebrew
brew install open-jtalk
[5]- APT
apt install open-jtalk
[6]apt install open-jtalk-mecab-naist-jdic
※辞書データapt install hts-voice-nitech-jp-atr503-m001
※音響モデル- Python
pip install pyopenjtalk
[7]- .NET(NuGet)
Install-Package SharpOpenJTalk
[8]- Node.js (npm)
npm install openjtalk
[9]
音響モデル
[編集]Open JTalkで利用可能な音響モデル(ボイスライブラリ、htsvoice形式)の例。音響モデルは自作することも可能であり、SHABERU等むけにユーザーが制作した音響モデルが配布されている(規約で許可されていればOpen JTalkで利用可能)[10]。
NIT ATR503 M001
[編集]標準男声音響モデル。Open JTalk本体、辞書データと共に配布されている[11]。 クリエイティブ・コモンズ・ライセンス3.0ライセンス。
メイ
[編集]メイ(HTS Voice "Mei")は名古屋工業大学のMMD Agentを用いたデジタルサイネージでキャンパス案内を行う女性キャラクター[12]。MMD Agentと共にクリエイティブ・コモンズ・ライセンスで配布されている[13]。
Open JTalkで追加女声音響モデルとして利用可能。5つの感情別音響モデル(normal, happy, angry, sad, bashful)がある。
タクミ
[編集]タクミ(HTS Voice "Takumi")はメイと共に名古屋工業大学のMMD Agentを用いたデジタルサイネージでキャンパス案内を行う男性キャラクター[12]。MMD Agentと共にクリエイティブ・コモンズ・ライセンスで配布されている[13]。
Open JTalkで追加男声音響モデルとして利用可能。4つの感情別音響モデル(normal, happy, angry, sad)がある。
tohoku-f01
[編集]東北大学 伊藤・能勢研究室[14] によって配布されている、Open JTalkで利用可能な女声音響モデル。クリエイティブ・コモンズ・ライセンス(4.0)で配布されている[15]。
4つの感情別音響モデル(angry, happy, neutral, sad)がある。
ライブラリ・フレームワークとしての利用
[編集]音声合成を行わず、OpenJTalkの日本語処理部分のみを利用する事例がいくつか存在する。
- DeNAによるハッカドールのキャラクターを利用した音声合成研究事例[16]
- VOICEVOX - ヒホ(ヒロシバ)作の、ITAコーパス[17] を利用したボイスが利用可能なOSSなDNN音声合成ソフト[18]。
- シロワニさんのつくよみちゃんトークソフト - シロワニさん作の、フリーのDNN音声合成ソフト[19]。
関連項目
[編集]- 名古屋工業大学
- Sinsy - Open JTalkと同じ開発者らが開発・メンテナンスを続けているオープンソースの歌声合成ソフト(ボーカルシンセサイザー)。
- MMD Agent - Open JTalkと同じ開発者らが開発・メンテナンスを続けているMMDモデルを利用可能な対話エージェントシステム。音声合成部分はOpenJTalkが使われている[1]。
- 隠れマルコフモデル
- 音声合成
- CeVIO Creative Studio - スタンドアロンな日本語音声合成機能を実装した商用姉妹ソフト。開発はOpen JTalkの開発者ら[20] が立ち上げた大学ベンチャーであるテクノスピーチ社[21]。
- MeCab - 形態素解析部分に利用されている。発音辞書データもMeCab向けの「NAIST Japanese Dictionary」を利用するが、アクセント情報の付与された独自の拡張となっている[1][22]。
- NonVisual Desktop Access (NVDA) - Open JTalkが利用可能なOSSのスクリーンリーダー
脚注
[編集]- ^ a b c d 大浦圭一郎, 橋本佳, 南角吉彦, 徳田恵一「隠れマルコフモデルに基づく日本語音声合成ソフトウェア入門」『システム/制御/情報』第62巻第2号、システム制御情報学会、2018年、57-62頁、doi:10.11509/isciesci.62.2_57。
- ^ Open JTalk - HMM-based Text-to-Speech System- 公式サイト
- ^ “なんかいろいろしてみます ダウンロード”. 2021年9月23日閲覧。
- ^ “u6kapps/open_jtalk - Docker Image”. 2021年9月23日閲覧。
- ^ “open-jtalk — Homebrew Formulae”. 2021年9月23日閲覧。
- ^ “open-jtalk - Debian Package Tracker”. 2021年9月23日閲覧。
- ^ “pyopenjtalk — pyopenjtalk 0.1.6+7ad3adc documentation”. 2021年9月23日閲覧。
- ^ “NuGet Gallery”. 2021年9月23日閲覧。
- ^ “openjtalk - npm”. 2021年9月23日閲覧。
- ^ “なんかいろいろしてみます ダウンロード”. 2021年9月23日閲覧。
- ^ “ダウンロードファイル一覧 - Open JTalk - OSDN”. 2021年9月23日閲覧。
- ^ a b “メイ&タクミ公式ウェブサイト”. 2021年9月23日閲覧。
- ^ a b “mmdagent.jp”. 名古屋工業大学. 2021年9月23日閲覧。
- ^ “東北大学大学院工学研究科 伊藤・能勢研究室”. 2021年9月23日閲覧。
- ^ “icn-lab/htsvoice-tohoku-f01: Japanese female HTS voice with four emotions {angry, happy, neutral, sad}”. 2021年9月23日閲覧。
- ^ “エンタメ活用へ向けたAIによる音声生成(Part1) · DeNA Engineers' Blog”. DeNA (March 04, 2020). 2021年9月19日閲覧。
- ^ “高い、使いにくい、読みにくい──音声合成研究者を悩ませるハードルを解決する“台本”、明治大学らが発表 - ITmedia NEWS” (2021年6月18日). 2021年9月19日閲覧。
- ^ “無料のAI音声合成ソフト「VOICEVOX」公開。商用利用も可 - PC Watch”. 2021年9月19日閲覧。
- ^ “シロワニさんのつくよみちゃんトークソフト置き場 - シロワニさんの機械学習ブログ”. 2021年9月19日閲覧。
- ^ 大浦圭一郎 - 大浦准教授のプロフィール
- ^ Techno-Speech, Inc. / 株式会社テクノスピーチ
- ^ “OpenJTalk の解析資料”. 2021年9月19日閲覧。
外部リンク
[編集]- Open JTalk - HMM-based Text-to-Speech System - 公式サイト(オンライン版)
- Open JTalk - SourceForge版公式サイト
- SHABERU - フリーの音声合成ソフト。Windows向けのOpen JTalkのスタンドアロンソフト。有志による追加ボイス(音響モデル、htsvoice形式)が充実している
- pyopenjtalk - Python向けのラッパーライブラリ
- SharpOpenJTalk - C#向けのラッパーライブラリ
- node-openjtalk - Node.js向けのラッパーライブラリ
- Gyutan - Java移植版
- jtalkDLL - 各プログラミング言語から利用するための共有ライブラリ版
- OpenJTalk For Unity - Unity(ゲームエンジン)むけプラグイン
- tdmelodic_openjtalk - NEologdを基にした日本語アクセント辞書tdmelodicをOpen JTalkから利用できるようにした辞書データ。商用利用不可