肉声や音声をスマホに聞かせるだけで高精度な文字起こしをしてくれる Android アプリ「音声文字変換&音検知通知」ですが、レビューを見るとうまく文字変換しないケースがあるようです。
そこで、その原因と対策を考えました。私が使ってみたところ特に対策をしなくても肉声でもテレビの音声(日本語のニュース)でも高精度な文字変換ができたので全ての原因に対して効果を確認したわけではありませんが、対策としては有効なはずなので試してみてください。
また、電話や LINE などの通話の音声を文字変換する場合に有効な方法も考えたので合わせて参考にしてください。
音声文字変換は英語学習としても様々な活用方法がありますが、私は日本アニメの英語版のセリフをスクリプト化する場合に利用していて、とても便利です。
BGM があっても高精度な文字起こしできます!

1. 肉声と音声に共通する原因と対策
この記事では、マイクなどを通さない人間の口から出たそのままの音声を「肉声」、テレビなどのスピーカーを通しての音声を「音声」として区別しています。
肉声か音声かによって原因は異なりますが、まずは共通する原因と対策から紹介します。
以下の5つの原因と対策が考えられます。
肉声と音声に共通する原因
- スマホの内蔵マイクが低品質
(高品質でも可能性あり) - 発音が不明瞭
- 雑音や音楽が大きい
- アプリとスマホの相性
- スマホの故障 (マイク周りの故障)
対策
- 高品質な外部マイクを使う
- はっきりと発音する、してもらう
- 雑音や音楽を除去(音声の場合)
- 他の機種を使う
- スマホを修理
上記の対策のうち「スマホの内蔵マイクが低品質」と「雑音や音楽が大きい」場合の対策について詳述します。
スマホの内蔵マイクが低品質 → 外部マイクを使う
意外と見落としなのがスマホの内蔵マイクの品質かもしれません。内蔵マイクは通話の際に声を拾うためのマイクですが、低価格のスマホの場合、コストダウンのために低品質なマイクが使われている可能性があり、これが文字変換に影響していることが考えられます。
逆に、高価格のスマホで高品質な内蔵マイクが使われている場合でも、品質が高いため周囲のノイズまでしっかりと拾ってしまい、文字変換に影響する可能性が考えられます。この可能性は低そうですが、「静かな場所では問題ないのに」という場合は該当するかもしれません。
<外部マイクの選び方>
内蔵マイクが原因であれば、外部マイクを使うと解決できるはずです。スマホ用の外部マイクには用途によって様々なものがありますが、大きく分けると「単一指向性」と「全指向性」のマイクがあります。
単一指向性マイクは特定の方向からの音を拾う特徴があるので周囲のノイズを拾いづらく、文字変換に向いていると考えられます。
とはいえ、全くノイズを拾わないわけではないし、マイクがノイズの発生源を向いている場合はしっかりとノイズを拾います。あくまで全指向性マイクよりは向いている、と考えてください。講義や授業のように一方向から1人がメインで話す場合に特に向いています。
講義では話者がマイクとスピーカーを使う場合もありますが、その際も全指向性マイクに比べるとノイズは拾いづらいので適しています。なるべくスピーカーに近い席を確保するのがコツです。
会議のように複数の人が前後左右から話す場合は「全指向性」のマイクが向いていますが、集音範囲が広いためその分ノイズも拾います。
静かな環境であれば問題ありませんが、空調の音が大きかったり道路の近くで車の音が聞こえていたりするとそうした音まで拾ってしまいます。そのためノイズの影響を考えると文字変換には不向きだと考えられます。
それぞれの特徴から、単一指向性、全指向性、どちらのマイクも揃えて用途によって使い分けるのが理想ですが、単一指向性マイクを会議に使う場合でもマイクを置く場所と人の配置を工夫すれば何とかなる場合もあるので、まずは単一指向性マイクから試してみてはいかがでしょうか。
なお、マイクにはダイナミック型とコンデンサー型がありますが、スマホ用では Amazon 「スマホ ダイナミックマイク」と検索してもコンデンサー型しか出てこないので選ぶ際に考慮する必要はありません。
▽単一指向性マイク(参考商品)
Amazon でスマホ用の単一指向性マイクを探してみると SONY のピンマイクがよさそうでした。肉声やスピーカーからの音声はもちろん、講義や少人数の会議に適しています。大人数の会議でも話者がマイクとスピーカーを使う場合は問題ないはずです。
小型で軽量、持ち運びしやすいので SONY 製でこの価格なら十分だと思います。YouTube 向けの動画撮影やナレーションにも使えます。
録音された音声の雑音や音楽が大きい場合
周囲の雑音が大きかったり音楽が流れていたりする環境の場合、肉声では先に紹介した「単一指向性マイク」を使うことである程度は文字変換を改善できる可能性があります。
しかし、録音された音声の場合はスピーカーから雑音や音楽が出力されており、マイクでその音を拾うためマイクの品質や特性によって改善できる可能性はありません。
この場合は音源から雑音や音楽を除去する必要があります。これには音楽制作ソフトや専用ソフトを使う必要があります。
無料ソフトでは次のものがあります。
使い方などはネットを参考にしてください。
有料ソフトでは Steinberg SpectraLayers Pro(リンク先はソースネクストサイト)があります。リンク先にある動画ではリポーターの中継に重なったサイレンを消す作業を確認できますが、音が色分けして可視化されるので使いやすそうです。
記事執筆時(2021年2月下旬)ソースネクストでは「SOUND FORGE Pro 14 Suite」に同梱されて販売されていますが、なぜか公式サイトで買うよりも大幅に安いです。
公式サイトでは Steinberg SpectraLayers Pro 7 の体験版をダウンロードできます。
›› https://new.steinberg.net/ja/spectralayers/
さらに、音声分離ソフトは複数人が同時に喋っている場合にそれぞれの音声を分離することもできるので、文字起こしがしやすくなります。なお、できるとはいえ、男性同士など声の質が似ている場合は難しいかもしれません。
ソースネクストではときどき大幅値引きされていますが、私はそれでも文字起こしのためには高いかなと思ってしまいます。
文字起こしをする機会が多い人や「プロに依頼するのは…」という場合は検討してみてください。
2. 肉声での原因と対策
この項では肉声での原因と対策をまとめました。前項にて紹介した音声と共通する原因と対策も合わせて参考にしてください。
肉声の原因 → 対策
- 声が小さい
→ 大きな声で話す - 話者からの距離が遠い
→ スマホを話者の近くに置く - 複数が同時に喋っている
→ 1人ずつ話す
肉声と音声に共通する原因 → 対策
- スマホの内蔵マイクが低品質
→ 高品質な外部マイクを使う - 発音が不明瞭
→ はっきりと発音する、してもらう - アプリとスマホの相性
→ 他の機種を使う - スマホの故障 (マイク周りの故障)
→ スマホを修理
3. 音声での原因と対策
この項では音声での原因と対策をまとめました。すでに紹介した肉声と共通する原因と対策も合わせて参考にしてください。
音声の原因 → 対策
- スピーカーの音質が低品質
→ スピーカーを高音質のものにする
→ ライン入力をする - スピーカーからの距離が遠い
→ スマホをスピーカーの近くに置く
肉声と音声に共通する原因 → 対策
- スマホの内蔵マイクが低品質
→ 高品質な外部マイクを使う - 発音が不明瞭
→ はっきりと発音する、してもらう - アプリとスマホの相性
→ 他の機種を使う - スマホの故障 (マイク周りの故障)
→ スマホを修理
対策として「スピーカーを高音質のものにする」と「ライン入力をする」について詳述します。
スピーカーを高音質のものにする
「スピーカーを高音質のものにする」と言っても私が試したところ一般的なテレビの音質でも文字起こしには支障はありませんでした。ただし、それはニュースのアナウンサーの音声だったので元々の音声の品質が高く明瞭な発音だったからかもしれません。
録音状態や発音の明瞭さは文字変換に影響するので、録音状態が悪く不明瞭な発音の音声であっても高音質なスピーカーであれば文字変換の品質は高くなるはずです。
▽ Bluetooth スピーカー(参考商品)
音質が十分で機能的なスピーカーを探してよさそうなものを見つけました。SONY 製で文字変換には音質は十分なはずですし、低価格スマホでイヤホンジャックが低品質(イヤホンで聞くときに音が悪い)な場合は Bluetooth 接続すれば有線接続よりも高音質再生できそうなのでおすすめです。
防水で通話にも対応しているので、スマホを防水の袋に入れれば「お風呂で通話を文字変換」なんてこともできそうです。通話を文字変換する方法は事項参照。
ワイヤレス再生だけでなく有線接続もできるスピーカーでは JBL CHARGE4(リンク先は Amazon 商品ページ)がよさそうです。ただしこちらは通話には対応していません。
ライン入力をする
「ライン入力」はケーブルを介して音声を入力する方法です。例えば、テレビとスマホをケーブルで繋いだ状態で文字変換する、というものです。
これは洋画の音声をスマホで録音したいときにも使える方法ですが、スマホの内蔵マイクでテレビのスピーカーから発せられた音声を録音するよりも格段に高音質で録音できます。
このことから「録音された音声限定」ではありますが、これを文字変換する場合には内蔵マイクで行うよりも高精度なものになる可能性があります。
やり方は下記リンク先の記事にて紹介しているので参考にしてください。
録音された音声の場合はこれが最善策だと考えています。
4. 電話や LINE 通話での対策
電話や LINE などの通話アプリの音声を文字変換する場合は、通話用とは別にもう1台のスマホかタブレットを用意して、そちらで文字変換を行うとうまくいくはずです。
1台のスマホでやろうとすると通話の音声をスマホの内蔵スピーカーから出力して、その音を同じスマホの内蔵マイクに聞かせることになります。これにアプリが対応しているかは分かりませんが、対応していたとしても前途したようにスピーカーの音質と内蔵マイクの品質の影響によってうまくいかない可能性が考えられます。
スマホ1台でうまくいかない場合は、スマホを通話用と文字変換用の2台に分けて用意して行う方法を試してみてください。
電話や通話を2台のスマホで文字変換する方法
- 通話の音声を (高音質な) 外部スピーカーから出力
- 音声を文字変換用のスマホかタブレットに聞かせる
なお、通話の音声は内蔵スピーカーから出力しても文字変換できるはずですが、音質によってうまくいかない場合やより高精度で文字変換したい場合は高音質な外部スピーカーを使ってみてください。
ここまで記事を読んできてお気づきだとは思いますが、相手の声をライン入力するとさらに高精度な文字変換ができる可能性があります。
ただし、ライン入力をすると相手の声が聞こえなくなってしまいます(画面には文字が表示されます)。さらに、ライン入力をすることによって、内蔵マイクが使えなくなる可能性もあります。
とはいえ、ライン入力をしても相手の声を聞く方法はありますし、内蔵マイクはアプリを使って切り替えて使う方法があります。
このやり方は下記リンク先の記事を参考にしてください。
5. どうしてもうまくいかない場合
ここまで紹介してきた対策が全てではないかもしれませんが、どうしてもうまくいかない場合は文字起こしデバイスが販売されているので、それらを利用してみると解決するかもしれません。
▽ポケトークmimi
AI ボイス筆談機「ポケトークmimi」やその姉妹品である「タブレットmimi」は、筆談機というだけあって会話を瞬時にテキスト化するデバイスです。
音声文字変換&音検知通知を会話目的で利用することが多い人におすすめです。
▽ AutoMemo(オートメモ)
「AutoMemo(オートメモ)」は録音した音声ファイルを自動でテキスト化できるボイスレコーダーです。録音、再生だけでなく会議メモや議事録、取材記事などを作成する際に役立つので、文字起こしを頻繁にする人におすすめです。
どちらも「音声文字変換&音検知通知で十分だった」なんてことになる可能性もありますが、専用機なので操作性がシンプルで使いやすい、スマホの着信やアプリの通知、電池残量などを気にせずに使える、といったメリットがあります。
筆談機で会話する様子をスマホで撮影、なんてこともできますね。
Comment