特集 Vol.95（2020年1月）

テクノロジー×実演 ―歌声合成技術―

芸団協CPRA　法制広報部

レコードや放送の誕生により実演家の権利が創設されたように、実演家の権利と技術の進展は切っても切り離せない関係にある。そこで、シリーズ「テクノロジー×実演」では、最新技術の動向を追いつつ、実演家の権利について考えてみたい。初回となる今回は歌声合成技術について取り上げる。

歌声合成技術の代名詞、VOCALOID

　初音ミクの大ヒットで広く浸透したヤマハ株式会社のVOCALOID™ は着々と進化を続けている。人間らしい歌声にするにはかなりの技量と時間が必要だった調整も、現在では大幅に操作性が改善され、初心者でも気軽に歌声創作が可能になった。エディターと呼ばれる専用ソフトに歌詞と音符を入力すると、歌声の「ボイスバンク」から最も適した音声素片と呼ばれる声のパーツが自動的に選択、接続され歌声が合成される。音声素片は、専用にレコーディングした歌声から切り出し、加工して作成される。レコーディングでは歌手や声優が専用のスクリプトを一定のリズム、テンポ、音程で繰り返す。VOCALOIDの開発を担当するヤマハの吉田雅史さんは、ボイスバンクを制作する際、「ユーザーが、その歌声で一番歌わせたいであろう歌を想定し、それに合わせて作っていきます」。

　2019年9月に放映された『NHKスペシャル AIでよみがえる美空ひばり』では、AI 技術を用いた『VOCALOID：AI』により、故・美空ひばりさんの新曲ライブを実現させた。従来のVOCALOIDでは必要となるボイスバンク用のレコーディングが、故人であるためできない。そこで従来と異なる合成方式を用いた『VOCALOID：AI』を使用し、所属レコード会社や遺族から提供された音声データを用いてAIに学習させることで歌声を作り出した。

　それでは、一般の人が著名な歌手のCDを用いてAIに学習させて、その歌手の歌声で違う歌を歌わせることが簡単にできるようになったのか。吉田さんはいう。「学習には一般的に入手できないであろう歌声だけのデータが必要です。市販のCDだと、楽器など他の音も収録されているので学習に使用するのは難しいですね」。VOCALOID：AIを開発したヤマハの大道竜之介さんも指摘する。「2分程度の歌声データを読み込ませれば、その人の特徴をある程度捉えたものは作り出せます。ただし著名な歌手の場合には、聴き手側のハードルが高い。ファンの方が納得する歌声を作るには、相応のデータ量が必要です」。それではVOCALOID：AIの長所と短所は何だろうか。VOCALOID：AIの場合には、AIがメロディ、文脈に応じた歌声を推測し合成してくれる。一方、AIの解釈が付くため、ユーザーの意向に沿ってフラットに利用できる通常のVOCALOIDとは異なる。「例えば今回のプロジェクトでは、新曲をプロデュースされた秋元康さんのお考えに合わせて制作しました。創り手の意向に合わせた歌声を合成するため、AIと人間のコミュニケーションをどのように取るか、が今後の課題の一つですね」。

　「亡くなった人の歌声を蘇らせるのには、倫理的な問題もあると思います」と、ブランド戦略本部の山室大亮さんは指摘する。「今回は、ご遺族と所属レコード会社のご理解とご協力があったからこそ、実現できたのです」。例えば演歌歌手の歌声で全く違う曲調の曲、例えばロックを歌わせることはできるのだろうか。「AIに演歌歌手とロック歌手両方の歌い方を学ばせて、答えを出させることは可能だと思います」。AI美空ひばりの語り部分を担当したヤマハの才野慶二郎さんはいう。「ただし、今までのイメージとは全く違う『真っ赤な太陽』を歌ったときには、どのように歌うか、美空ひばりさんなりの創意工夫があり、全く新しいものが生まれたと思うのです。一方、AIはあくまで過去のデータから学んだものから解を出すので、その点が違うと思います」。今後の目標について、吉田さんはいう。「物凄い早口や高音、低音など、機械だからこそ出せる歌声もあります。人間らしい歌声だけでなく、人間では出せない歌声も求めていきたい。VOCALOIDは楽器のようなもの。クリエイターの思いを表現する上で出せない歌声はない、というところを目指していきます」。

統計モデル型歌声合成技術の進化

　歌声合成技術には、従来のVOCALOIDのような波形接続型のほか、歌い方を事前に機械学習して求めた統計モデルを用いて歌声を合成するVOCALOID：AIのような統計モデル型がある。「波形接続型はサンプラー、統計モデル型はヴォコーダーとイメージすれば分かりやすいかもしれません」。歌声合成技術の動向にも詳しいDTMステーションの藤本健さんはいう。藤本さんは、AI歌声合成（統計モデル型）による世界初の音楽CDを発売している。藤本さんが利用したのは名古屋工業大学と株式会社テクノスピーチが共同開発した技術で、一人の歌手の歌声約5時間を学習することで合成システムが完成し、歌詞付きの楽譜を入力するだけで人間の歌声と比べても遜色のない歌声が合成できるという。「この技術の進歩はとても早く、音楽CDを制作した段階では高速演算が可能なコンピュータでも5分の歌を合成するのに10時間近くかかっていましたが、それから1カ月くらいで処理速度が約600倍早まったそうです」。「今回学習した歌声は、約6年前、当時デビューしたばかりの声優さんのものです。プロとして実績を積んだ今、『こんな下手な歌声で新曲を出してほしくない』と思うかもしれません。一方、自分の歌声が作品として残ることに意義を見出す声優さんもいます」。最近では日本マイクロソフトの元・女子高生AI「りんな」がメジャーデビューするなど、統計モデル型にも注目が集まってきている。「どんどん人間に近い歌声に技術が進化している一方で、いかにも合成音といったロボットヴォイスを好む層も厚い。『人間の歌声』という頂上を目指す中でさらに何が生まれてくるのか。楽しみですね」。

歌声合成技術と実演家の権利

　最後に歌声合成技術と実演家の権利との関係について、藤原浩弁護士に伺った。

　「実演家の著作隣接権は、実演そのものの利用に働くこととなっているため、歌声合成技術を用いて著名な歌手の歌声で新曲を歌わせ、無断でこれを販売等した場合であっても、その歌手の実演（歌声）そのものを利用していない場合には、著作隣接権侵害には当たらないことになります。しかしそのような場合であっても、その歌手の名声やブランドイメージを利用している以上、現行法であっても、不法行為や不正競争、あるいはパブリシティ権や肖像権といった観点から、歌手の利益を保護すべきであると思います。また、AI等による実演の翻案に対する保護のあり方についても検討すべきかもしれません。次に、AI技術によって生まれた新しい歌声ですが、これを実演とみるべきか、著作物とみるべきか、あるいは産業財産権と考えるべきか、どのような形で保護すべきかについても、現時点では特段の議論も行われていないようです。実演と考えた場合であっても、誰が実演家となるのでしょうか。なお、VOCALOIDを駆使して創作活動をする、いわゆる『ボカロP』は、実演家として、芸団協CPRAから使用料の分配を受けています。これまでの既成概念では解決できない多くの問題があり、新時代における実演の保護について、これから議論していかなければならないと思います」。

〈参考文献〉

○剣持秀紀、藤本健『ボーカロイド技術論―歌声合成の基礎とその仕組み』（ヤマハミュージックメディア、2014年）

○山岸順一、徳田恵一ほか『おしゃべりなコンピュータ―音声合成技術の現在と未来』（丸善出版、2015年）

○高野敦、東将大「売れる歌声」（日経エレクトロニクス2019年8月号）

芸団協CPRA 公益社団法人日本芸能実演家団体協議会実演家著作隣接権センター

CPRA news Review

テクノロジー×実演 ―歌声合成技術―

歌声合成技術の代名詞、VOCALOID

統計モデル型歌声合成技術の進化

歌声合成技術と実演家の権利