2024年08月24日 更新

ColaboratoryでVOICEVOXによる読み上げを簡単に行う

どうも、クラゲジュニアです。

無料で使える中品質なテキスト読み上げソフトウェアVOICEVOXをColaboratoryでサクッと実行できるようにクラゲジュニアがコンパクトにまとめました。

コード

Open In Colab

2つのセルのみです。1つ目のセルは最初に1回だけ実行してください。

#初期設定(2023/07/24修正)
!curl -sSfL https://raw.githubusercontent.com/VOICEVOX/voicevox_core/8cf307df4412dc0db0b03c6957b83b032770c31a/scripts/downloads/download.sh | bash -s
%cd voicevox_core/
!wget https://github.com/VOICEVOX/voicevox_core/releases/download/0.14.1/voicevox_core-0.14.1+cpu-cp38-abi3-linux_x86_64.whl
!pip install voicevox_core-0.14.1+cpu-cp38-abi3-linux_x86_64.whl
!wget https://raw.githubusercontent.com/VOICEVOX/voicevox_core/406f6c41408836840b9a38489d0f670fb960f412/example/python/run.py
#実行(2023/06/15修正)
text = 'どうも、クラゲジュニアです。よろしくね'
speaker_id = 0

!python ./run.py --dict-dir "./open_jtalk_dic_utf_8-1.11" --text $text --out "../data.wav" --speaker-id $speaker_id
from IPython.display import Audio
Audio('../data.wav', autoplay=True)

別の文字列や別のキャラクターでしゃべらせたい場合

2つ目のセルについて、以下の内容を適用し実行すればできます。

  • textに代入している文字列を変更すれば、しゃべる言葉を変えられます。
  • speaker_idに代入している数値を変更すると、キャラクターを変更できます。idは050まであるようです。

各idの詳細

実行ログのvoicevox_core.METASから、キャラクターとスタイルに対する各idの割り当てが分かります。

四国めたん(ノーマル):2
四国めたん(あまあま):0
四国めたん(ツンツン):6
四国めたん(セクシー):4
四国めたん(ささやき):36
四国めたん(ヒソヒソ):37
ずんだもん(ノーマル):3
ずんだもん(あまあま):1
ずんだもん(ツンツン):7
ずんだもん(セクシー):5
ずんだもん(ささやき):22
ずんだもん(ヒソヒソ):38
春日部つむぎ(ノーマル):8
雨晴はう(ノーマル):10
波音リツ(ノーマル):9
玄野武宏(ノーマル):11
玄野武宏(喜び):39
玄野武宏(ツンギレ):40
玄野武宏(悲しみ):41
白上虎太郎(ふつう):12
白上虎太郎(わーい):32
白上虎太郎(びくびく):33
白上虎太郎(おこ):34
白上虎太郎(びえーん):35
青山龍星(ノーマル):13
冥鳴ひまり(ノーマル):14
九州そら(ノーマル):16
九州そら(あまあま):15
九州そら(ツンツン):18
九州そら(セクシー):17
九州そら(ささやき):19
もち子さん(ノーマル):20
剣崎雌雄(ノーマル):21
WhiteCUL(ノーマル):23
WhiteCUL(たのしい):24
WhiteCUL(かなしい):25
WhiteCUL(びえーん):26
後鬼(人間ver.):27
後鬼(ぬいぐるみver.):28
No.7(ノーマル):29
No.7(アナウンス):30
No.7(読み聞かせ):31
ちび式じい(ノーマル):42
櫻歌ミコ(ノーマル):43
櫻歌ミコ(第二形態):44
櫻歌ミコ(ロリ):45
小夜/SAYO(ノーマル):46
ナースロボ_タイプT(ノーマル):47
ナースロボ_タイプT(楽々):48
ナースロボ_タイプT(恐怖):49
ナースロボ_タイプT(内緒話):50

(2024/08/24改善)

参考

以上です。