Mashiro Chronicle

長文をまとめる練習中 割となんでも書く雑食派

ボイチェンの行きつく先は女性声優のキャラ声なのか?: あるいは、ボイチェン初心者によるボイチェン初心者のためのつぶやき

隠すことでもないので公言しておくと、1ヶ月ほど前、2021年の3月上旬から、女声へのボイスチェンジ(いわゆる「ボイチェン」)にチャレンジし始めた。

 

理由は色々あるが、言ってしまえば、「興味があったから」だ。

 

特に最近、多くの人がボイチェンに興味を持ちやすい状況になっていると思う。VTuberの活動であったり、ボイスロイドや「ゆっくり」を使ったゲーム実況であったり、そういった動画や配信を見る機会が増えているからだろう。

 

そんな中で、2021年の5月12日、こんなツイートが世間で話題になった。

 

 

公式ホームページによれば、今は亡き「ハッカドール」の流れを汲んでいるというのだから、人によってはこの話を涙なしに語れないだろう。

 

この「VOICE AVATAR」に関する現時点での詳しいレビューは後に回すとして、ひとまず触ってみた感想をざっくりいうと、「楽しい」「実験段階」である。

 

しかし、個人的には技術以前の問題として「おや」と思うところがあった。上で貼った公式ホームページにはこう書いてある。

 

[これまでのボイチェン技術では]特定のキャラクターの声へと変換をする事はできず、また男性から女性に声を変換しようとしても、入力話者の声の男性らしさが残ってしまうなど、入力音声の特徴が変換した音声に残ってしまうという課題がありました。

※[]は引用者による注釈

VOICE AVATAR 七声ニーナ VOICE AVATAR 七声ニーナ (dena.ai) 最終閲覧2021年5月12日

 

果たして、「男性から女性に」声を変換しようとした時、「入力話者の」「特徴」が残ってしまうことは「課題」なのだろうか。そもそも、「特定のキャラクターの声」へと変えることがボイチェンの目的だったのだろうか。

 

この点について、少し考えてみたい*1

 

《わたしの声》、《誰のものでもある声》

 

結論からいうと、ボイチェンは1つの根っこから2つの幹が伸びている。1つは、あくまで《わたしの声》にこだわるボイチェン、もう1つは、《着脱可能な声》、もう少し軽くいえば、ファッション感覚で着替えられるような《誰のものでもある声》へのボイチェンだ。

 

いや、こういう言い方はよくないかもしれない。というのも、《わたしの声》へのボイチェンも、人によっては着替え感覚で使っているかもしれないからだ。というか、わたしがそうである。Discordでボイチャする時、気分によってボイチェンのあるなしを使い分けている。もちろん、そうでない人、そうでないがゆえに苦しんでいる人がいるというのは重々承知しているが、少なくともわたしはそうだ。

 

ここで言いたいのは、それでもなお、《わたし》にこだわる人がいる一方で、「誰かの声でもいいじゃない」という感覚の人もいる、ということの方である。

 

上で引用した七声ニーナの公式ホームページが指摘するように、現在のボイチェン技術は、入力話者、つまりボイチェンしようとしているわたしやあなたの声の特徴が残ってしまう。その特徴を限りなく潰していくことはできるが、それには相当細かい調整が必要になる。

 

しかし、それは裏を返せば絶対に《わたしの声》である、ということだ。他の人が真似しようとしても一朝一夕ではコピーしきれない《わたしの声》が、自分のコントロールできるところにある。これは、たとえばアイデンティティの議論などに簡単につなげられるだろう。そこにこだわりが生まれてくるのも分かる。

 

一方で、もっと軽く、《誰のものでもある声》でいいじゃない、と考えている人もいる。たとえば、ボイスロイドを使ったゲーム実況に慣れ親しんだ人はこのように考えるかもしれない。そうでなくても、ファッションについて考えてみれば、オーダーメイドでもない限り、わたしたちが普段着ている服はどこかで・誰かが・幾つも作ったものだ。それを何着か用意して、気分や目的に合わせて選んでいるのだから、声もそうだっていいじゃない――こういう風に捉えてみると、《誰のものでもある声》へボイチェンしたがる人がいる、というのもうなずける。それになんといっても、《誰のものでもある声》は有名声優の声、そうでなくても最低限可愛いと思える声にしてくれるのだから、色々試行錯誤して失敗する可能性は極めて小さい。

 

こうして、色んな人が使うことを前提とした《誰のものでもある声》へのボイチェンと、オーダーメイドの一張羅的な《わたしの声》へのボイチェンの2つが併存する状況が生まれたのだろう。どちらも《着脱可能な声》としての側面を持っているから、これはつまり、ボイチェンによって自分をどう見せたいのか、ボイチェンによって自分をどうしたいのか、という、自己呈示の問題であり、自己表現の問題だ。

 

この議論を踏まえると、七声ニーナのデビューは《誰のものでもある声》の商業化に向けた大切なステップと位置づけられるだろう。その意味で、七声ニーナの開発・運営スタッフにとって「入力話者」の「特徴」が残ってしまうことは、《誰のものでもある声》を目指す上で「課題」だったのである。これは、ボイチェンというもの全てについてではなく、ボイチェンの1つのアプローチにおいて「課題」だった、と言い換えられよう。

 

《わたしの声》を目指すこれまでのボイチェンと、《誰のものでもある声》を理想とする七声ニーナのようなボイチェン、その両方を受け入れ、育てていくことが大切である。

 

《わたしの声》を目指すボイチェンのやり方と課題

 

ボイチェンには、ざっくり分けて2タイプあることが分かった。では、それぞれのタイプのボイチェンにはどのような特徴があり、何が今課題なのだろうか。それを整理してみたい。

 

まず、《わたしの声》を目指すボイチェンについて考えてみよう。これには幾つかやり方がある。

 

  1. ハードウェアを使うやり方
  2. 既成のソフトウェアを使うやり方
  3. VSTを使うやり方

 

それぞれ順番に見ていこう。①のハードウェアを使うやり方は、マイクとパソコンの間にボイチェン用の機材を挟んでしまう方法だ。RolandのVT-4が代表例だろう。VTuberが使っているということもあり、人気の機材だ。

 

www.roland.com

 

ハードウェアを使ったボイチェンは、遅延が少なく、設定しなければいけないこともさほど多くないので、「とにかく配信したい」という人に向いている。その一方で、小回りが利かないため、機材と声の相性が悪いとどうすることもできない、という欠点がある。また、機材のトライアルがしづらいところも難点だ。

 

②の既成ソフトウェアを使うやり方は、フリーソフトなど「ボイチェンをするためのソフトウェア」をパソコンにインストールしてボイチェンする方法だ。代表的なソフトウェアは「恋声」だろう。

 

koigoemoe.g2.xrea.com

 

ハードウェアを使うやり方と違い、マイク周り以外はパソコン内部で完結しているところが特徴だ。また、③のVSTを使う方法に比べ、音楽機材の知識が無くても動かせる点が魅力。要求されるパソコンのスペックもやや低い。

 

ただし、この手のソフトウェアはリリースされてから時間が経過してしまっていることがあり、サポートを受けづらい。恋声もそうだが、開発それ自体がストップしてしまっているケースも見られる。また、ソフトウェアによっては音声を入力してからの遅延がキツく、配信に使えない場合も出てくるだろう。さらに、③にも共通することとして、一部の有料ソフトウェアは体験版が極めて使いにくい。そのため、無料のものはさておき、少し高いソフトウェアになると導入を躊躇ってしまうだろう。

 

最後の③VSTを使うやり方は、DAW(Digital Audio Workstation)などを駆使し、音楽用のエフェクト類を駆使することでボイチェンを実現する手法だ。自分の声に合わせて微調整をかけられるところが魅力的で、ある意味一番理想的なボイチェンの手段といえるかもしれない。また、ゲームの配信や録画によく使われるOBS Studioにそのまま挿し込むこともできる。こういう細かい取り回しが利くところもありがたい。

 

ネックなのはなんといってもハードルの高さ。要求される知識が他の2つに比べて圧倒的に多い。また、微調整をかけられる柔軟性とボイチェンが思いどおりにいかないリスクは表裏一体だ。さらに、場合によっては配信や通話のために極めて複雑な仮想回路を組まなければならず、ボイチェンそれ自体の調整以外にも挫折するポイントが多数ある。

 

ここまで、《わたしの声》にこだわるボイチェンを実現する手段についてざっくりまとめてきた。それぞれ一長一短で、トライアンドエラーが前提、といえるだろう。

 

しかし、この《わたしの声》を目指すボイチェンについて、トライアンドエラー以前のハードルや課題があることはあまり議論されていない。どのような課題があるのだろうか。

 

まず、ボイチェンとは本来、極めて総合的な実践である、という理解が重要だ。ボイチェンを真面目にやるためにはどのような知識や技術が必要だろうか。女声へのボイチェンをする際必見ともいえる、『あたらしい女声の教科書』を開いてみよう。

 

gid-mtf-guide.net

 

この文献は、ソフトウェアやハードウェアを使わずに(生物学的な)男性が女声を出す際必要な理論と実践、その双方についてまとめられた労作だ。中には、声というものの性質、男声と女声の違い、その違いの埋め方、機械を使った自分の声のチェック方法、といった内容が収められている。

 

この読み物に書かれている内容を正確に理解しようとすると、音響工学はもちろん、言語学社会学(特にジェンダー論)、解剖学、場合によっては音楽や声楽教育史の知識を身につけることになる。もちろん、そのような専門的な知識が無くても読んで実践していくことはできる。しかし、より丁寧に効果的なトレーニングを一人で積み重ねていくためには、相当な知識量が必要になってしまう。

 

こうした知識にアクセスできる人はどれくらいいるだろうか。もちろん、ボイチェンをやっているコミュニティに参加して知識を吸収する手段もあるが、そういうことが苦手な人もいるだろう。そうなると、独学でやっていくしかない。これには凄まじいコストがかかる。

 

また、女声から男声への変換についてカバーした文献があまり無いのも気がかりだ。確かに、(生物学的な意味での)女性はその声帯の特徴から出せる声の低さに物理的/生理的な限界がある。しかし、それをソフトウェアやハードウェアの利用によってある程度克服することも可能だ。(生物学的な)女性が自己表現として低いイケメンボイスを出して何が悪いのか。こうしたジェンダー非対称性も解消していく必要があるだろう。

 

この他、機材やソフトウェアにかかる金額負担といった経済的条件も課題として挙げられる。これらの課題を技術が解消していく上では、教育水準やセクシャリティによらず誰でも触れる機材・ソフトウェアであるという配慮が第一に求められよう。その上で、どこまで技術や内部での変換手法をブラックボックスに押し込むのか、といった判断を行っていく必要がある。

 

《誰のものでもある声》を目指すボイチェンのやり方と課題

 

ここまで、《わたしの声》にこだわるボイチェンについて詳細を眺めてきた。対して、《誰のものでもある声》を目指すボイチェンの技術は今どこまで進歩したのだろうか。ここでは、それを七声ニーナの詳細レビューから考えてみたい。

 

ひとまず、サンプルを用意したのでご関心のある方は聴いていただきたい。

 

「『大好き』って言ってほしい」


www.youtube.com

 

いい感じだ。わたしの活舌の悪さが若干マイナス方向に引っ張っているものの、十分といっていいのではないか。

 

問題は、このような場合だろう。

 

「ボイスチェンジというものは、本来極めて総合的な実践なのであって、そこには音響工学など様々な知識が要求される」


www.youtube.com

 

語彙レベルの問題と分節(や文節)の問題、2つの課題を抱えていることが明らかだ。このサンプルは、もちろん、①話し言葉ではほとんど使わないような単語、②文法的に微妙な表現、の2つをあえて仕込んだ文章を使った実験結果である。実際にはこうした表現も出てくるので、実用化にはもう少し時間がかかるといっていいだろう。

 

もちろん、ゆっくり実況が普及したように、これはこれで一つの日本語表現として受け入れられる可能性も大いにある。ただし、それが《誰のものでもある声》を目指すボイチェンの理想的な姿なのかどうか考えてみるべきではないだろうか。

 

こうした課題を解決するためにボイチェンをしたいあなたができることは、とにかくたくさん七声ニーナを使ってあげること。実際、公式ホームページでも開発者ブログでも、ガンガン使ってほしいと書いてある。これは、七声ニーナが機械学習(PyTorch)を使っているからだ。おそらく、あなたの生み出した七声ニーナサンプルをデータとして活用することで七声ニーナを改善していくのだろう。

 

また、実際に使う時には遅延も気になるところだ。今はリアルタイムでのボイチェンができない仕様になっているので、用途を考えると、しばらくは遅延の小さいボイチェン技術の開発にも投資をしていくのではないか。

 

将来的な展望としては、七声ニーナが上手くいけば、他の声優の方によるバージョンが出てくるのだろう。もちろん、他の企業が同じような技術を使って別のソフトをリリースする可能性もある。いずれにしても、様々な《誰のものでもある声》が出てくることで、正しく《着脱可能な声》、気分や目的に合わせて使う製品やボイチェンを変えられる状況が生まれる。

 

こちらの技術はまだまだ発展途上といっていい。もちろん、《わたしの声》のところで触れたように、男声に変えるためのソフトウェアについても考えていく必要がある。ソフトウェアの親しみやすさについては、操作が簡単で難しい知識がいらない、という工夫がなされていて、あとはどれだけリーチを伸ばせるか、というところが焦点になる。どう展開していくにせよ、技術的に未成熟であり、とにかくデータを欲しがっている時期なので、どんな些細なことであれ、七声ニーナに触れてあげることが大切だ。

 

終わりに

 

長々と語ってきたが、要点は簡潔に2つ。①ボイチェンには2つの方向性がある。②どちらの方向性の技術にもまだまだ課題があり、門戸の広いソフトウェアに仕立て上げた上で、遅延の小さい変換技術の実装が求められる。

 

どちらの方向性がいい悪いという話ではない。どちらも大事。両方あってのボイチェン文化、ボイチェンを使った自己表現なのではないだろうか。

 

それでは、皆さまも楽しいボイチェンライフを。

 

下はわたしが最近買ったボイチェン用VST。

 

www.minet.jp

 

 

 

 (了)

 

*1:3時間仕上げなので、文章や表現が行き届いていないのは許してね☆(美少女ボイス)