「RecText(レックテキスト)AI」は、ソースネクストが開発・販売する、オフラインでありながら高精度な文字起こしを実現する、買い切り型のAI文字起こしソフトです。

本記事では、そんなRecText AIの文字起こし精度(一致率)を検証し、ご紹介しています。
☝️ 結論、RecText AI は「3大メリットのいずれか」に魅力を感じたら「買い」が正解。
●買い切り型で高精度(サブスク料金や従量課金がかからない) → コスパが抜群
●完全ローカル処理のため外部にデータを送信せず、セキュリティ面で安全に利用できる
●無償アップデートにより、購入後も文字起こし精度や機能が向上する
今回検証したのは以下のような音声です。
① 一般的な発音の英語(CBSニュース)
② カジュアルな発音の英語 + BGM(洋画)
③ 日本語と英語の文が混在 + 日本語由来アクセントの英語(アニメ)
④ スペイン語由来(?)アクセントの英語(TED)
⑤ 著者の英語(日本語由来アクセント)
⑥ 複数人の同時発話
※RecText AIは非対応(2025年12月上旬時点)
☝️ 今回の検証では、RecText AI の英語文字起こし一致率は「98.7%」でした。
※③⑤⑥を除く平均値。③と⑤の一致率も同程度でした。
さらに、
●文字起こし精度を上げる方法
●注意点や気になる点
●お得に購入するための割引セール情報
などもご紹介しています。
RecText AIのネットの評判やレビューも交えて評価しているので、ぜひ最後までご覧ください。
とても長い記事になりましたが、こちらの要約だけでも👍
●RecText AI の英語文字起こし一致率は「98.7%」
※著者による検証結果(2025年12月上旬時点)
✔︎最大一致率は「99.8%」
●「3大メリットのいずれか」に魅力を感じたら「買い」が正解
✔︎買い切り型で高精度 → コスパが抜群
✔︎セキュリティ面で安全(データが外部に送信されない)
✔︎購入後も文字起こし精度や機能が向上する(無償アップデートにて)
●安く買うならソースネクストの割引セール
✔︎毎月10日間ほど開催
✔︎2025年11月のセールでは 9,980円 → 4,980円
この記事は、ソースネクスト様から商品提供をいただいた のをきっかけに執筆しました。以前から RecText AI は英語学習にも便利そうだと思っていたところ、2025年10月のアップデートで日本語だけでなく英語にも対応したとのことで使ってみることにしました。
なお、ソースネクスト様から「こんなふうに書いてほしい」といった指示は一切なかったので、自由に書いています。今後の改善に活かしてほしいので、細かくダメ出しするくらいに。
今回の検証では、RecText AI を使って録画したYouTube動画や、事前に録音したアニメ音声を使用しましたが、いずれも著作権法に抵触しない方法で行っています。また、RecText AI の文字起こし結果やスクリプトのすべてを公開することはできませんが、引用の範囲にとどめつつ、可能な範囲で正確に記載しています。

1. RecText AI の3大メリット
RecText AI の導入を迷われている方は、今回の検証結果から、「3大メリットのいずれか」に魅力を感じたら「買い」が正解 だと思います。認識精度も申し分なく、文字起こしソフトとして便利に使えます。
☝️ RecText AIの3大メリット
●買い切り型で高精度(サブスク料金や従量課金がかからない) → コスパが抜群
●完全ローカル処理のため外部にデータを送信せず、セキュリティ面で安全に利用できる
●無償アップデートにより、購入後も文字起こし精度や機能が向上する

RecText AIは買い切り型なので、一度購入すれば制限なく使えます。追加費用がかからず、使い放題なので、サブスク型に比べてコスパは抜群 です。
しかも、買い切り型でありながら高精度。購入後も無償アップデートで文字起こし精度や機能が向上する のは有り難いですし、コスト面でも大きなメリットになります。
直近では2025年10月にアップデートされましたが、ユーザーにとって嬉しい内容で、今後もユーザー目線の改良を続けてくれそうな印象です。
RecText AIの、2025年10月のアップデート内容
●英語の文字起こしに対応
●文字起こし結果がより自然に
●スマホの録音形式にも対応(.m4a形式に対応)
※他にも細かな改良があったようです。
☝️ 英語の文字起こしまで無償アップデートで提供するのはすごいですよね。
また、完全ローカル処理のため、クラウドなど外部にデータを送信することがなく、ビジネスでも個人でも、セキュリティ面で安全に利用できる のも大きなメリットです。
RecText AIには、他にもメリットが多いので、以下にまとめました。
- 日本語・英語の文字起こし精度が高い
→ 雑音のある環境や早口の英語でも比較的安定して認識しやすい。
※公式発表の日本語正解率は92.1%
※著者検証の英語一致率98.7%
- 完全ローカルでインターネット未接続時も利用可能
※インストールやアップデートにはネット接続が必要
※法人では完全オフライン環境での利用に対応するようです。( 製品ページ 下部参照)
- フィラー除去できる
→ 「あー」「えー」や言い淀みなどを自動的に除去できる。
※フィラー除去機能に対応と公式は明記していないが、実際はできる。
- 文章の区切りが自然
- 操作がシンプルで使いやすい
- 動画ファイルや音声ファイルから直接文字起こしできる
→ YouTube動画やZoom録画なども取り込んで自動でテキスト化できる。 - 録画・録音して文字起こしできる
→ 画質・音質ともに高品質(設定で変更できる)。
- 複数の音声・動画フォーマットに対応している
→ mp4、wmv、wav、mp3、m4aに対応。そのまま取り込める。 - 処理速度が速い
→ 録音時間の25%~100%
→ 長尺の音声でも比較的短時間で文字起こしが完了する。
※パソコンのスペック、テキストの量、音声の状態に左右される。 - 録画・録音中にブックマークとメモを残せる
- 聞き返しが簡単
→ 録画・録音中につけたブックマークから頭出し再生できる。
→ テキストをクリックするとそこから再生できる。
→ 再生速度調節(0.5倍~2倍)や「10秒戻る・10秒進む」もできる。 - テキスト検索で聞きたいところが見つかりやすい
- テキスト編集がしやすい
→ 文字起こし結果をそのまま修正できる。 - 1ライセンスで最大3台まで使用可能
→ デバイス間でデータ共有はされない。
この辺り、RecText AIの製品ページ が分かりやすいので、ご覧ください。
会議の議事録作成や、講義・講演のまとめなどはもちろん、英語学習も格段に効率化しそうですよね。
🎉 RecText AI をお得に購入する方法
RecText AI は、ソースネクストで毎月開催されている割引セール・キャンペーンでお得に購入できます。
お得の基準は人それぞれなので、その方法を3つご紹介します。
① 定価で今すぐ購入:9,980円
お急ぎの方は、今すぐ定価で購入するのもあり だと思います。待っている間の文字起こしにかかる手間や時間的な損失は計り知れないですからね。
② 毎月開催の割引セールで購入:9,980円 → 4,980円
あまりお急ぎでない方は、ソースネクストの割引セールでの購入がおすすめ です。
RecText AIは、ソースネクストで毎月10日間ほどセール価格で提供されており、2025年11月のブラックフライデーセールでは4,980円で提供されました。
今後もこの価格で提供されるかは分かりませんが、最大3週間ほど待てる場合は狙ってみるのもよいでしょう。セール情報は、ソースネクストで会員登録をしてお気に入りに登録するとメールで通知されるので、確実に得られます。
☝️ ログイン状態によって表示される価格が異なる場合があるので、会員登録をしておくのがおすすめ!
③ 「毎ジャン」で当てて購入:9,980円 → 3,980円
まったくお急ぎでなく、最安値で買いたい方には、「毎ジャン」で当てて購入する のがいいかもしれません。
ソースネクストでは、会員が1日1回引くことのできる「毎日ジャンジャン宝くじ」があり、豪華賞品や製品の割引など、必ず何かが当たります。
RecText AIでは、先のブラックフライデーセール中に3,980円の割引が当たりました ので(著者が当てて確認)、おそらくこれが最安値です。ただし、ほぼ毎日このくじを引いている著者の感覚では、RecText AIの割引が当たるのは月に1回ほどなので、毎日くじを引ける方で、気長に待てる方なら といったところです。
ちなみに、私はAI通訳機の ポケトークS が当たったことがあります。(下が証拠画像)
特賞はめったに当たりませんが…。
それでは、次章にて、RecText AIの文字起こし検証結果をご紹介いたします。

2. RecText AI の【英語】文字起こし精度は?検証結果
RecText AI の評判やレビューでは、「日本語の認識精度は公式発表の92.1%に近く、実用的な文字起こしができる」 という評価が多いようです。
文字起こし正解率の測定:環境音が約40dbの会議室で、話者1名の音声を録音した1回の検証をテキスト化(ソースネクスト調べ/2025年6月)。精度は話し方や環境により大きく変わります。
ちなみに、「環境音が約40dbの会議室」がどのような状態なのか、ChatGPTに聞いてみました。
■ 40dB前後の音の例
- 静かな図書館
- PCのファン音や空調の弱い風切り音
- ささやき声
- 住宅街の昼間の静けさ
■ 会議室での「約40dB」の状態
- 空調の微かな音が聞こえる
- PCの動作音やコピー機の待機音など、機械の小さな動作音が聞こえる程度
- 人が動くときの椅子の擦れる音が際立って聞こえる
- 通常の会話(約60dB)は明瞭に聞こえるが、ほかに目立った騒音はない
参考:ChatGPT
「環境音約40dB」は、一般的な会議室を想定している ようです。
☝️ 今回の検証では、より大きな雑音のある環境(BGM)でも高精度な文字起こしができました!
一方、RecText AIの英語の正解率は公式発表されておらず、ユーザーレビューも少ないようなので、その実力が気になるところです。
文字起こし精度は、今後の無償アップデートで「さらに改良される」と期待 しつつ、現状どの程度なのか、実際に著者が検証しました。
今回の検証は、以下の音声で行いました。
① 一般的な発音の英語(CBSニュース)
② カジュアルな発音の英語 + BGM(洋画)
③ 日本語と英語の文が混在 + 日本語由来アクセントの英語(アニメ)
④ スペイン語由来(?)アクセントの英語(TED)
⑤ 著者の英語(日本語由来アクセント)
⑥ 複数人の同時発話
※RecText AIは非対応(2025年12月上旬時点)
☝️ 検証は全て、RecText AIの設定で[速度優先]のチェックを外して行いました。
これらの音声で検証した理由は、いずれもRecText AIのような自動文字起こしソフトの導入を検討する際に気になるポイントだと思ったからです。
一方、以下のような音声は検証していません。
●ボソボソとした話し方
●声が小さい・マイクから遠い
☝️ 著者の英語をボソボソとした話し方とできるかも。。
実際、ネットには「声が小さい・マイクから遠い話者は一気に変換できなくなる」といった感想やレビューも見られました。
とはいえ、これらを検証しても、結局は感覚的になりそうなのでやめました。(膨大な時間もかかるのでご容赦ください)
ただし、上記のような音声でも、音声補正を行ってから文字起こしにかけると改善する可能性はあります。( 第3章 と 第4章 参照)
それでは、検証結果をご紹介していきます。
☝️ 認識精度の改善方法は、「3. RecText AI の文字起こし精度を上げる方法」と「4. 文字起こし精度を改善する方法」でご紹介しています。
今回は、比較的はっきりと話す音声での検証が多いので、会議や講演などの音声では認識精度は低くなる可能性がある ことをご留意ください。
① 「一般的な発音の英語」検証結果(一致率)
Students take action after hearing couple’s honeymoon story
RecText AI の「一般的な発音の英語」の検証に使用したのは、CBS(アメリカの大手テレビ・ラジオネットワーク)のドキュメンタリー動画です。
この動画は以下の理由で、「一般的な英語の文字起こし精度を検証するのに適している」と考えたので選びました。
●標準的なアメリカ英語が話されている
●発声のプロから一般的な話し方の人まで様々な話し方で検証できる
●雑音が少ない
※CBSの番組で使われる英語は、ネイティブスピーカー向けの標準的でフォーマルなアメリカ英語で、発音・語彙・スピードも一般視聴者向けの自然な英語とされています。
英語教材「スーパーエルマー ADVANCED」の学習素材に使われているので思いついたのですが、完全なスクリプトがあり、正誤判定しやすかったのも理由です。
一般的な英語で、テレビ番組用の機材で録音・編集された、雑音が少ない音声の文字起こし。
このレベルの認識精度が低いと使いものにならない と思いますが、
結果は、なんと 一致率「99.8%」 と驚異的な数値を叩き出しました!
※RecText AIの設定で[速度優先]のチェックを外して検証。
著作権に配慮して動画が真っ黒な画面でスクショしました。
画質はデフォルトで十分キレイだと感じました。
文字起こしは、RecText AIでYouTube動画を録画する形で行いました。
RecText AIが間違えたのは、たったの1ヶ所。人物名のみでした。
RecText AIが「一般的な発音の英語」の文字起こしで間違えた箇所
※エラー箇所を赤太字、正解を太字で表記しています。
1:36
Even months after the Caldwells’ visit, kids like Emily Eshelman (Asherman) are still this affected.※Gil → Gillという表記違いもありましたが、ニュース番組のナレーションのため同じ発音として除外しました。
一致率の算出は、以下のように行いました。
(561語 – 1エラー) ÷ 561語 ≒ 99.82%
※句読点記号( , . ? など)を除外し、単語のみの一致率で計算。
単語数はChatGPTに数えさせましたが、数え方による誤差は数語程度で、結果には大きく影響しないので無視できると思います。
人物名は文字起こしソフトが間違えやすい分野なので、今回のRecText AIの結果は、実質 一致率100% としてもいいのではないでしょうか。
AshermanとEshelmanの発音の違いは、ネイティブスピーカーは聞き分けできるものの、場合によっては誤解することもあるようです。(参考ChatGPT)
☝️ AIが「Asherman」を学習していない?
アメリカでは「Eshelman」姓の方が「Asherman」姓よりはるかに多いようで、2010年のアメリカ国勢調査でEshelman姓は約2,756人、Asherman姓は約115人だったようです。(参考ChatGPT)
そのため、今回の文字起こしミスは、発音が似ているというだけでなく、AIがAshermanの単語と発音を学習していない可能性も考えられます。
実際、YouTubeの自動生成字幕でもEshelmanとなっていますし、他の文字起こしツールや、高精度な音声認識ができるAI英会話アプリ「Speak」でもEshelmanでした。AIがAshermanを学習しておらず、音が近いEshelmanと文字起こしした可能性はありそうです。
Related Article
AI 英会話アプリ「スピーク」の感想。驚きの実体験レビュー!
この検証では、RecText AIが間違えた単語は人物名の1ヶ所のみ、一致率99.8%と、ほぼ完璧な文字起こし結果となったので、「AIがこの音声を丸ごと学習していたからでは?」と思った方もいらっしゃるかもしれません。ニュース番組なので学習に使われた可能性はありますからね。
とはいえ、仮に学習していたとしても「AIは丸ごと記憶して呼び出しているのではなく、学習したパターンに近い音声だから認識がうまくいく」ようです。(参考ChatGPT)
仮にこの音声をAIが学習していたとしても、同様の音声でも RecText AIはほぼ完璧な文字起こしをする と考えていいと思います。
ちなみに、以下の括弧内をRecText AIは文字起こししませんでしたが、このエラーは除外しました。
0:24
They were greeted warmly, (Oh, how are you?) a sharp contrast to their first visit 60 years earlier.
文字起こしの一致率の検証では、「主発話と明確に無関係な挿入音声は “一致率の計算に含めない” のが正しい」ようなので。(参考ChatGPT)
なお、句読点記号( , . ? など)を含めて文字起こしの一致率を検証する場合もあるようですが、実務的ではないと感じたので省きました。とはいえ、私が確認したところでは、今回の結果の 句読点記号の位置は適切 でした。
読みやすい文に仕上がっている 点も、RecText AIの大きな評価ポイントだと思います。
☝️ RecText AIは、一般的な英語では十分使える
今回 RecText AI で検証した動画の音声は、比較的はっきりと話されていますし、テレビ番組用の機材を使って録音や編集がされたものと考えられるので(録音機材や音声補正は最高レベル)、文字起こしソフトにとって有利なものだったかもしれません。
実際の会議や講演では、録音機材や環境、話し方など、条件は多少悪くなると思われます。とはいえ、BGMがある音声も問題なく文字起こしできたので(検証結果は次項にて)、十分に使える印象です。
実は、今回選んだこの動画は、ソースネクストが販売する英語教材「スーパーエルマー ADVANCED」の学習素材に使われています。
こちらもソースネクスト様から商品提供していただいた関係で使ったことがあり、この動画が文字起こしテストにぴったりだと思い当たった次第です。(完全なスクリプトもあるので)
スーパーエルマーは、返り読みすることなく、英語の語順のままで理解できるようになるための英語教材で、様々な工夫があり、私が自信を持っておすすめしている教材の1つでもあります。
Related Article
スーパーエルマー|実際に使った感想&失敗しない選び方と勉強法

② 「カジュアルな発音の英語 + BGM」検証結果(一致率)
The Intern – Official Trailer [HD]
RecText AI の「カジュアルな発音の英語 + BGM」の検証に使用したのは、英語学習にもおすすめの洋画「The Intern(邦題:マイ・インターン)」のトレイラーです。
Related Article
洋画 The Intern / マイ・インターン でビジネス英語&大人の嗜みを学ぶ
この動画を選んだ理由は、早口かつ省略されたカジュアルな発音であるだけでなく、大きめのBGMがどのくらい文字起こしに影響するか検証するためです。(実際には環境音も入っています)
「相手にとって不足なし」といったところで、文字起こしソフトが苦手としそうな要素がてんこ盛りだくさんです。意地悪かもしれませんが、これを正確に文字起こしできれば、認識精度は最高 と言えるでしょう。
結果から言うと、一致率は「97.9%」 でした!
※RecText AIの設定で[速度優先]のチェックを外して検証。
現象単位:約97.9%
単語単位:約95.7%
※一致率の計算はChatGPTによるものです。
前回に続き、今回も私としては驚愕の結果となりました。
著作権に配慮して動画が真っ黒な画面でスクショしました。
録画は十分キレイだったので、洋画での学習も楽しいと思います。
RecText AIが間違えたのは以下の部分です。
RecText AIが「カジュアルな発音の英語 + BGM」の文字起こしで間違えた箇所
› Read※エラー箇所を赤太字、正解と現象を太字で表記しています。
0:18
No, no, no, no. (脱落) seniors in life0:22
That’s our founder and CEO Jules Austin (Ostin)1:00
I’m Fiona, the house nurse’s (masseuse).1:04
How’s that, baby (Ben)?1:04
Well, that’s an old boy. (言葉にならない発声から Oh, boy.)1:07
There you go. (脱落)1:28
Jules Austin (Ostin). You do inspire, Jules.1:38
I mean, give (get) me CEO lessons.
まとめるとこんな感じです。
No, no, no, no.(脱落。フィラー扱いで除外された?)
Ostin → Austin(×2回)
masseuse → nurse’s
Ben → baby
Oh, boy → Well, that’s an old boy(言葉にならない発声を意味ある文に変換)
There you go.(脱落)
get → give
実は、文字起こしの間違い(エラー)の数え方はいくつかあるようで、この手のど素人の私はChatGPTに相談しつつ、今回は現象単位と単語単位の両方でエラーを数え、一致率を求めました。
現象単位(実務的): 8エラー → 約97.9%
単語単位(学術的): 16エラー → 約95.7%
※エラーのカウントと計算はChatGPTによるもの。
※総単語数 = 372語として。
現象単位の方が、実務や一般的な感覚に近いかと思います。単語単位では、上記の No, no, no, no や Well, that’s an old も1語ずつエラーとして数えるので、一致率は低くなります。
また、句読点記号( , . ? など)を含めて文字起こしの一致率を検証する場合もあるようですが、実務や一般的な感覚ではないと感じたので省きました。
私としては、人物名のミスや、言葉になっていない部分を文字起こししようした結果のミスは許容できるので(AIが言葉になっていると判断してのことでしょうから、仕方ないかなと)、今回のRecText AIの検証結果は、体感的には一致率97.9%と同等かそれ以上 に感じます。
RecText AI に限らず、文字起こしソフトでは、人物名や固有名詞、専門用語などのエラーは、まだまだ仕方がない部分もありそうです。同じ間違いが多い場合は、テキストエディタでのテキストの一括置換で済みますし、許容できるかと思います。
AustinとOstinの発音の違いをChatGPTに聞いてみると、ネイティブスピーカーにとっては「一瞬で違いがわかる程度の差」とのことでした。
Austin → /ˈɔːstɪn/
「オー(長めの母音)」+「スティン」
アメリカ英語では「オースティン」と聞こえます。
Ostin → /ˈɑːstɪn/ または /ˈɒstɪn/(地域差あり)
「オ(短め)」+「スティン」
アメリカ英語では「オスティン」に近く、母音が短めで若干低めに発音される印象。
引用:ChatGPTの回答
しかし、実際に聞いてみると、特に1度目はオースティンとオーを伸ばして発音しているように聞こえます。2度目はオと短く発音されているようにも聞こえますが、やや余韻があるようにも感じられます。
なお、文字起こしソフトでは「英語圏でAustinの方が圧倒的に多い名前なので、Ostinと言われてもAustinと誤認する」可能性もあるようです。先のAshermanと同じで、AIが学習していない可能性も考えられますね。
今回、本当によく文字起こしできたなと思う箇所も多いです。特に、She hates when people don’t blink. の when(ンを軽く発音した程度)や、I mean, get me CEO lessons. の I mean なんて原型はほとんどないと私は感じるので、驚愕です(文脈から推測しているにしても)。
しかも、大きめのBGMがある中で高精度な文字起こしができた ので、RecText AIはノイズ耐性も十分 だと感じました。BGMでの検証ですが、RecText AIはソースネクストが想定している「環境音約40dB」よりも大きな環境音がある場合も高精度な文字起こしができそうです。
ただ、気になったのは、冒頭から0:29までカンマやピリオドがあまりなく、文が区切られていなかった 点です。話者が変わっても区切られず、1つの文になっていました。
こちらがその部分の、文字起こしのままです。
Okay Benjamin, I’m gonna ask you one of our more telling questions for all of our interns So I want you to like this is the one to really think about okay, where do you see yourself in ten years?
When I’m 80 Remember a few weeks ago we talked about the senior intern program seniors in high school or college seniors in life Hold on what?
That’s our founder and CEO Jules Austin any tips before I go in blink blink She hates when people don’t blink it weirds her out.
一方、この後の文章は適切に区切られていました。
相性のようなものがあるのかは分かりませんが、他の検証結果では適切だったことから、RecText AIは句読点記号を適切に挿入して文を適切に区切れることが多い とは言えそうです。
もし、句読点記号が適切でなかった場合は、ChatGPTや文章校正ツール(オフラインもある)で整形してもらうとよいでしょう。
Related Article
洋画 The Intern / マイ・インターン でビジネス英語&大人の嗜みを学ぶ

③ 「英語と日本語の文が混在する音声 + 日本語由来アクセントの英語」検証結果
RecText AI の「英語と日本語の文が混在する音声」の検証として、アニメ「ゲーセン少女と異文化交流 第1話」(prime videoで見る)を選びました。
☝️ ABEMA では無料で見れることがあります。
このアニメを選んだ理由は、英語話者と日本語話者がそれぞれの母語で会話するシーンがあり、英語と日本語の文が混在する音声を、RecText AIが文字起こしできるか検証するためです。
また、日本人キャラがカタカナ発音で話すシーンや、文法的に間違った英語を話すシーンもある ため、RecText AIが日本語由来のアクセント(訛り)や文法ミスがどう文字起こしされるか検証できるのもあります。
2つのシーンを選んで検証したので、それぞれ結果をご紹介します。
☝️ 今回は、録画ではなくAudacityで内部録音した音声ファイル(ほぼ音質劣化なし)を、RecText AIに読み込ませる形で行いました。
📝 英文スクリプトはCrunchyrollの英語字幕がセリフと同一だったので、そちらで確認しました。
※RecText AIの設定で[速度優先]のチェックを外して検証しています。
なお、この検証では、互いの言語で文字起こしされたため一致率の算出は省きました。
シーン① 「英語と日本語の文が入り混じった会話」
シーン①は、英語と日本語の文が入り混じった会話です。日本語話者は日本語で話していて、英語を話そうとしますが、発音は完全なカタカナです。英語話者はすべて英語を話しています。
シーン① 5:41〜「英語と日本語の文が入り混じった会話」の文字起こし結果
› Read※話者と日本語と英語の違いが分かりにくいのでセリフ毎に人物名を加筆し改行しています。
RecText AIの設定を「英語」にして文字起こしをした結果
Renji: Um… Japanese Yuru character! A present for you! How do I say this… Ah! Happy Valentine’s!
Lily: Valentine’s Day?
Renji: Yes, yes! Valentine’s Day! A present for you!
Lily: Are you giving this to me?
Renji: Yes!
Lily: Um, alright. Thank you. I’ll cherish it.
Renji: Oho! Yes, yes! I just said thank you. I’m glad. I really wanted that stuffed animal.
Lily: See you!
Renji: But I said Valentine’s Day randomly. Well, whatever.
RecText AIの設定を「日本語」にして文字起こしをした結果
蓮司:えっと、ジャパニーズゆるキャラ、ユーにプレゼント、なんて言えば、 ハッピーバレンタイン!
リリー:ハッピーバレンタインデー?
蓮司:イエスイエス、バレンタインデー!プレゼントフォーユー!
リリー:アリユギビングデストゥミー? イエス!
蓮司:うん。
リリー:うん、大丈夫。ありがとう。私はそれを愛しています。
蓮司:おお、はい、はい! 今、サンキューって言ったよな。よかった。あのぬいぐるみ、本当に欲しかったんだな。でも、適当にバレンタインとか言っちゃったけど。まあ、いっか。
☝️ 蓮司の英語と言えそうな部分は「プレゼントフォーユー!」のみで、A present for you! と文字起こしされました。「ユーにプレゼント」が A present for you! と訳されているのも興味深い。
文字起こし的に間違った箇所はないと思います。
RecText AIは、英語と日本語が入り混じった会話も、「設定した言語の方は」高精度に文字起こしできるようです。
興味深いことに、文字起こしに設定した言語はその言語で文字起こしされ、設定していない方の言語は翻訳されて出力されました。
つまり、こんな感じです。
英語設定 → 英語音声は英語で文字起こしされ、日本語音声は英語に翻訳されて出力される
日本語設定 → 日本語音声は日本語で文字起こしされ、英語音声は日本語に翻訳または音がカタカナ化されて出力される
☝️ RecText AIは、英語と日本語のどちらかに設定して文字起こしをする仕様です。
これ、それぞれの言語で文字起こししてほしかった 気もします。どちらかの言語でいい場合は便利かもしれませんが、音声のどの部分が英語なのか日本語なのか、分からなくなるので、「それぞれの言語で文字起こしするモード」 があるといいですよね。実際の会議でも英語と日本語が飛び交うことはあるでしょうし。
なにはともあれ、この結果から、RecText AIは英語と日本語の文が混在する音声の文字起こしでも、片方の言語であれば高精度な文字起こしができる ことが分かりました。
なお、RecText AI に自動翻訳機能は、公式発表では搭載されていないはずですが、実装はされていることも分かりました。
⚠️ 翻訳精度はいまいち
実は、先に検証したドキュメンタリーやトレイラーの音声でも「日本語で」文字起こしをしたのですが、結果は、半分以上の文章が抜けており、翻訳自体も散々でした。
今回の検証では「訳抜け」はなかったものの、明らかな誤訳では、[日→英]での、I just said thank you. と I really wanted that stuffed animal. の主語が間違っていました(どちらもSheが正しい)。日本語の主語がない文を翻訳するのは難しいようです。
なお、文字起こし(翻訳?)にも時間がかかるので、翻訳をする場合は文字起こし結果をテキスト出力して翻訳ソフトにかけた方がいいです。現状はこの音声のように部分的(短文)で、[英→日]の翻訳であれば実用的かもしれません。
オフラインの高精度翻訳ソフトでは、これまたソースネクストの「AI本格翻訳」があります。
Related Article
2025年版|AI 本格翻訳の割引セール・キャンペーンお得情報
シーン② 「文法ミスがある英文の音声」
シーン②は、日本語話者が、発音は完全なカタカナでありながら、正しい英文を話したり、文法的に間違った英文を話したりします。
この会話は全て英語です。
シーン② 9:01〜「文法ミスがある英文の音声」の文字起こし結果
› Read※エラー箇所を赤太字、正解を太字で表記しています。
Renji: I will guide you this game center.
Lily: Game center?
Renji: Yes, game center.(ゲーセンと発話)
Renji: I will (I’m) guide you this game center.(ゲーセンと発話)
Lily: Jason(ge-senのように発話), will you show me around?
なお、ゲームセンターは英語でarcadeです。
Renjiは完全にカタカナ発音ですが、正しく文字起こしできています。
RecText AIは、4行目を I will guide… と文字起こししましたが、正解は I’m guide… です。文法的には I will が正しいので、RecText AIは文法ミスを補正したようです。(ある意味正解)
他の文字起こしツールやスマホの音声認識も文法補正を行いますが、RecText AIも同様の仕様のようです。なお、他の例でも検証するべきですが、あまりこのような検証をしても有意義ではない気もしますので、文法ミスがある音声の検証はここまでです。
また、この検証結果から、RecText AIは、日本由来アクセント(訛り)の英語も高精度で文字起こしできる と言えそうです。短文での検証ではありますが、他の文字起こしツールや、AI英会話アプリ「Speak」も完全なカタカナ発音を英語として認識できるので、RecText AIのAIも日本語に由来する英語のアクセントを学習済みと考えられます。
Related Article
AI 英会話アプリ「スピーク」の感想。驚きの実体験レビュー!
☝️ 文法補正を使った英語学習方法
自分のスピーチやオンライン英会話レッスンの音声をRecText AIで文字起こしすれば、間違えて発話した部分を文法補正によって正しい英文にしてくれるので、自分の音声を聞きながら正しい英文と照らし合わせながら学習できそうです。
なお、間違いによっては正しく補正されない場合や、正しく言えていても他の単語に言い換えられる可能性もあります。(それはそれで学習になりそう)
なお、突然のJasonの登場にはびっくりしました。

④ 「スペイン語由来(?)アクセントの英語」検証結果(一致率)
These AI devices protect nature in real time
RecText AI は、先の検証で日本語由来のアクセントがある英語も文字起こしできることが分かりましたが、他の言語由来のアクセント(訛り)はどうなのか、ということで、TED動画で検証してみました。
話者のJuan M. Lavista Ferres氏はウルグアイ出身で、英語にはスペイン語由来のアクセントが含まれているようです。
検証は、冒頭から1分ほどをAudacityで内部録音し(ほぼ音質劣化なし)、音声ファイルをRecText AIに読み込ませる形で文字起こしをして、TEDのトランスクリプトと照らし合わせて行いました。
検証結果は以下となりました。
現象単位(実務的): 2エラー → 約98.5%
単語単位(学術的): 3エラー → 約97.81%
※エラーのカウントと計算はChatGPTによるもの。
※総単語数 = 137語として。
※RecText AIの設定で[速度優先]のチェックを外して検証。
またもや高精度な結果となりました。
予想していたので驚かなくなってしまいましたが、この精度を予想できるのがすごいことだなと、改めてRecText AIの実力を実感しました。
今回のエラーは、以下の部分でした。
※エラー箇所を赤太字、正解を太字で表記しています。
00:18
passing through mud and swamps (swarms) of mosquitoes00:37
and thanks to the therefore (their effort)
今回も音が似ている部分を間違えた印象です。swampsとswarmsは、音が似ているだけでなく、意味的にもAIが文脈から推測しにくかったからかもしれません。
RecText AIは、他言語由来のアクセントが含まれる英語も、高精度で文字起こしできる と言えるでしょう。
ただし、AIが学習していないアクセントが含まれる英語では、認識精度が低下する可能性がありそうです。とはいえ、メジャー言語由来のアクセントは、すでに学習してそうですね。日本語由来が学習されているので。

⑤ 「著者の英語」検証結果
本記事は、RecText AI の英語の文字起こし精度を「徹底検証」するという趣旨なので、私自身の英語音声でどうなるかも検証しました。
検証は、RecText AIの録音機能を使い、自宅の室内にて(雑音はあまりない環境)、ノートパソコン(Dell製)の内蔵マイクを使用して行いました。今回もRecText AIの設定で[速度優先]のチェックを外しています。
なお、お聞き苦しいので、私の英語音声のアップロードは自粛しました。。
😨 著者の発音レベル
私は過去に発音トレーニングを独学でしていたことがあり、英語風の発音やイントネーションは自然と出まして、「英語っぽい発音」はできる方かもしれません。とはいえ、日本人感は十分にありますし、細かい音は曖昧です。
検証したのは、先のドキュメンタリーの以下の部分です。
At the Mount Airy Resort in the Poconos of Pennsylvania, reverend Gilbert Caldwell and his wife, Grace, are arriving for their second honeymoon.
YouTube:Students take action after hearing couple’s honeymoon story
本気で英語らしくしたり、ふざけてカタカナらしくしたりして、何度も繰り返し検証しました。
人物名や固有名詞が多いので間違えやすいと思ったのですが、下手な発音でも問題ありませんでした。ほぼ毎回Airyをミスしました が、これは私の発音が悪かったのでしょう。発音に問題がなければ、一致率は100%だったと思います。
一方、iPhoneの音声認識も試したのですが、半分程度の一致率で、やるたびに悪くなるような始末でした(私が下手になっていった証拠…)。iPhoneではリアルタイム処理が原因なのか、発話中は正しく認識していても、間違った単語に補正するような挙動もありました。
これまでは高音質な音声での検証でしたが、RecText AIは、パソコンのマイクで録音した音声でも十分に高精度な文字起こしができる と言えるでしょう。ただし、パソコン(マイク)から離れると認識精度が下がる可能性があるので、会議や講演では、状況に合った外部マイクを選ぶ必要がありそうです。
余談ですが、RecText AIで文字起こしをすると、「自分は英語の発音が上手い」と錯覚する 可能性があると感じました。(むしろしてた。録音を確認すると…)

⑥ 「複数人の同時発話」検証結果
ネットには、RecText AI は「複数人の同時発声に弱いケースがある」との声もありました。
そもそも、RecText AIは、複数人が同時にかぶって話した部分の文字起こしに対応していません。混ざった形で1つの音声として認識して文字起こしする設計のようです。
複数人の同時発声は、もともと文字起こしソフトが苦手とする分野 ですが、やっぱり気になるところではあるので、一応検証してみました。あくまで確認程度にご参考ください。
⚠️ 「複数人同時発話の文字起こし」は、音響の物理的な制約があるため技術的に難しいとされています。
検証は、軽微なものと、重大なもので行いました。
結果は、RecText AIは、複数人が同時に発話していても、メインの方ならそこそこ文字起こしできる といったところでした。
軽微な「複数人の同時発話」での検証結果
軽微な同時発話の検証には、アニメ「ゲーセン少女と異文化交流 第1話」(prime videoで見る)からセリフが被っているシーンを選びました。(文字起こしソフトにとっては軽微ではないかも)
☝️ ABEMA では無料で見れることがあります。
セリフ被りは、探すとなると意外と見つからないので、今回たまたま見つけた箇所で検証することにしました。
7:24〜 「軽微な複数人の同時発話」での検証結果
※エラー箇所を赤太字、正解を太字で表記しています。
Don’t you couple with me?(Hey, Fancy a cuppa)← 大声が被っている
I(‘ve) just need (made) some tea.
Oh, I knocked properly, you know? ← この文は被っていない
You seem to quite like that soft (stuffed) toy. ← この文は被っていない
Something to do with pukey (puberty), maybe?
英文スクリプトはCrunchyrollの字幕を引用しました。(セリフと同一だったので)
このシーンは親子の会話ですが、発話は母親がメインで、娘の「アアアー」というような音が全体的に被っています。
全体的に間違いの多い結果となりましたが、Fancy a cuppa のところは大声(メインと同等の音量)の「アー」が被っているのが影響したようです。AI英会話アプリ「Speak」でもここは認識できませんでした。なお、イギリス英語なのはAIが学習済みのはずなので影響はないかと。
Related Article
AI 英会話アプリ「スピーク」の感想。驚きの実体験レビュー!
最初のHeyはフィラーとして文字起こしされなかったのかもしれませんし、I’veのveは発音されていないので、この2つはエラーから除外してもいいと思います。
stuffed → soft は文全体が被っていないものの、ChatGPTによると、発音が似ており、「 stuffed toy という表現は日常会話で less common なので、ソフトがより一般的な “soft toy” に置き換えたのかもしれません」とのこと。
今回の結果では、大声が被っている部分と、似た音の単語以外は正確だったので、RecText AIは、複数人の同時発話でも「主話者と副話者の音量差があり、軽微であれば」おおむね正確に文字起こしできる と言えそうです。
ただし、人の声が被っている部分は特に注意して確認する必要がありそうです。大きめのBGMがある音声で好成績だったのは、人の声と帯域があまり重なっていなかったからかもしれません。
なお、このセリフ被りを 「軽微」としたのはあくまで私の主観 です。開発者からすると「重大」かもしれません。
重大な「複数人の同時発話」での検証結果
重大な複数人の同時発話の検証には、先の検証に使ったドキュメンタリーの音声をAudacityで内部録音し、編集して、2話者が同時に発話している状況を再現した音声ファイルを使用しました。
音声は、冒頭から0:22までの、アナウンサー(アンカー?)とナレーター2人の音声を重ねました。
それをRecText AIに読み込ませたところ、15分ほど経っても進捗バーが最初の位置から進みませんでした。やはり、RecText AIは、複数人の同時発話の文字起こしに対応していない と確認した結果となりました。
音声分離の技術でも、帯域が近い音声同士は最も困難 なので、これは仕方がないと思います。そもそも、RecText AIは複数人の同時発話には対応していない ですからね。
なお、2人の音声に音量差をつけたり、左右に振り分けると文字起こしできたかもしれませんが、検証はしていません。「何dB差までならできる」などあるかもしれませんが、検証しても実務的ではないかなと。
☝️ 複数人の同時発話の文字起こしをする場合は、対応する文字起こしサービスを利用するか(おそらくオンラインのみ)、音声分離ソフトで処理してから行う方法があります。

3. RecText AI の文字起こし精度を上げる方法
RecText AI の文字起こし精度は録音の状態に左右されますが、実際に使ってみて、以下の改善方法があることに気がつきました。
① [速度優先]のチェックを外す
② 録画・録音時の録音レベルを最大にする
③ 動画・音声ファイルの音量を上げておく
それでは、1つずつ、ご紹介します。
☝️ 次章では、RecText AIに限らず、一般的な文字起こしソフトで精度を改善する方法をご紹介しています。本章の方法と合わせると、より改善される可能性があるので、ぜひお試しください。
① [速度優先]のチェックを外す
RecText AI の設定で[速度優先]のチェックを外すと、文字起こし精度が大幅に向上する可能性があります。
実際、同じ音声をチェックのあるなしで文字起こしして比べてみたのですが、チェックを外した方が明らかに高精度な結果となることがありました。音声によっては、あまり精度に違いがないこともありましたが、それでもチェックを外した方がエラーは少ない結果でした。
速度優先は、RecText AIの[ホーム画面右上⚙️マーク → 文字起こしタブ]と進んだところで切り替えできます。
速度優先のチェックを外し、OKをクリックします。
チェックを外すと文字起こしに時間がかかるようになります が、文字起こしの精度が向上し、結果的に効率がよくなる と私は感じました。
なお、速度優先でも満足な結果となるようでしたら、チェックは入れたままがよいでしょう。
② 録画・録音時の録音レベルを最大にする
RecText AI には、録画機能と録音機能がありますが、音量が小さいと文字起こしの精度が低下するだけでなく、文字起こし自体ができないこともあります。(他の文字起こしソフトも共通)
これは、録音レベルを最大にすると防げます。最大でなくてもいいのですが、文字起こしに必要な音量を超える必要があるため、できるだけ大きくしておくのが無難だと思います。
パソコン本体のマイクや外部マイクを使用する場合は、システムのサウンド設定で、入力レベルを大きめの声でも余裕がある程度に調節するとよいでしょう。
YouTubeを録画や録音する場合は、以下のようにしてデバイスの音量を最大にします。
●YouTube画面内の音量を最大にする
●パソコン(システム)の音量を最大にする
上記2つは、両方とも行います。
今回、私はパソコンの音声出力をヘッドホンにして、ヘッドホン出力端子にイヤホンの延長コードを繋ぎ、延長コードにイヤホンは繋がずに録画しました。こうすると、RecText AI での録画・録音を、デバイスの音量を最大にしつつも、パソコンからは音が出ない状態で行えます。
⚠️ パソコンの音量を最大にしたままスピーカーやイヤホンで再生すると大変なことになります!
うっかりパソコンの音量を最大にしたまま再生すると大音量で大変なことになるので、音声ミキシングアプリや、オーディオインターフェース、ヘッドホンアンプなどを使用するのが無難です。
Windowsの音声ミキシングアプリでは、VB-Audio VoiceMeeter(無料)が代表的なようです。
③ 動画・音声ファイルの音量を上げておく
RecText AI では、動画ファイルまたは音声ファイルを読み込ませて文字起こしすることもできます。
録音レベルが低い動画・音声ファイルでは、文字起こし精度が低くなる可能性があるため、事前に音量を上げておくとよいでしょう。
すでにRecText AIで録画や録音をした音声が小さかった場合も、フォルダに保存されているので、そちらの音量を上げてから再び文字起こしにかけると精度が改善する可能性があります。
音量を上げるには、動画ファイルでは、動画編集ソフトに音量を上げる機能があるはずなので、そちらを使用するとよいでしょう。音声ファイルでは、Audacity(無料の音声編集ソフト)で簡単にできます。
☝️ 動画ファイルから音声を抽出して、音声のみで文字起こしする方法もあります。
なお、会議などで話者によって音量差が大きく、文字起こしに影響している場合(小さい方の音声が文字起こしできない場合)は、コンプレッサーなどで補正すると認識精度が改善する可能性があります。
音声補正については、次章で詳しく説明しているのでご参考ください。

4. 文字起こし精度を改善する方法
録音環境がひどく雑音が多い、声が小さく不明瞭、といった音声では、RecText AI だけでなく、文字起こしソフト全般の認識精度が低下する(本来の性能が発揮されない)場合があります。
本章では、RecText AIでの文字起こしだけでなく、他の文字起こしソフト全般に共通する認識精度を改善するための方法をご紹介します。
「録音前、録音時、録音後」にできる対策があるので、それぞれご紹介します。
会議での録音を想定していますが、講義や講演の録音にも応用できるので、ご参考ください。
① 録音前にできる対策
会議を想定していますが、録音前では、以下の対策をしておくと文字起こし精度が改善する可能性があります。
●マイクを中央に配置(複数台の配置も有効)
●反響・空調ノイズを極力抑える
●参加者の距離を均等にする
●はっきりと話すよう指示する
●録音形式はWAV 44.1kHz
※RecText AIでの録音ならデフォルトでOK
マイクは単一指向性ではなく、無指向性(全方向性)のものを選ぶとよいでしょう。
例えばこちら。
無指向性と単一指向性を切り替えできるものもあります。
ICレコーダーで録音する場合は、録音レベルの自動調節機能を搭載したモデルがあるので、会議のように距離によって話者ごとの音量差が生じやすい環境では使用してみるとよいでしょう。
例えば、こちらのモデルに「ボイスチェイサー」という名称で搭載されています。
なお、はっきりと話してもらうだけでも文字起こし精度は格段に上がるはずなので、会議の前に一言言っておくと改善する可能性はあると思います。
② 録音中にできる対策
会議の録音中に「その場でできる対策」は意外と多く、少し意識するだけで文字起こしの精度が大幅に改善する可能性があります。
録音開始後にできる対策をまとめました。
●マイクの方向・距離を意識して発言する
※マイクから遠い人は大きめの声で話す
●同時発話を避けるよう司会が調整(同時発話をした場合は言い直す)
●机の上の雑音を軽減(マイクの下にハンカチを敷くなど)
●空調や周辺ノイズの変化に合わせてマイクの位置を微調整
●マイクに空調などの風が当たり録音に影響する場合は マイクスポンジ を使う
●重要な発言(専門用語・数字・日付など)は反復してもらう
●休憩を挟むときは録音停止 or 一時停止
●発言の頭に名前をつける
最後の「発言の頭に名前をつける」は認識精度を改善する方法ではないですが、RecText AI には話者分離機能はないので、効率化のための対策として含めました。
「田中です。今回の件ですが…」「山本です。私は〜」といったように発言するとルール化するとよいでしょう。
③ 録音後にできる対策
RecText AI では、動画ファイルまたは音声ファイルを読み込ませて文字起こしできますが、そのまま読み込ませるのではなく、音声補正を行ってから読み込ませると認識精度が向上する可能性があります。
☝️ 動画ファイルの音声補正は?
動画ファイルの音声を下処理したい場合は、動画編集ソフトで音声を補正するか、一度動画ファイルから音声のみを音声ファイルとして書き出し、そちらを編集するとよいでしょう。
なお、Macの場合はとても簡単で[Finderなどで動画ファイルを右クリック → 選択したビデオファイルをエンコード → 設定 → オーディオのみ]でできます。音質の設定はできませんが文字起こしには十分でしょう。
音声ファイルには、以下の補正を行います。
●ノイズ・BGMを除去する
●音量を上げる(録音レベルが低い場合)
●音量を均一にする(複数人の音量に差がある場合)
●声の明瞭化
●スロー再生
※音声補正ではないですが、正しい結果が得られることがあります。
●音声分離
※音声補正の範囲を超えそうですが、録音後の対策として。
ここからは、これらについて簡単にご紹介します。
音声ファイルの補正は、「オンライン音声補正サービス」ならアップロードするだけで自動で処理されるので手軽にできます。
大まかなノイズやBGMなら、ステムスプリッターでも十分です。オンラインサービスや、DAW付属のものでもよいでしょう。
とはいえ、オンラインサービスでは機密情報をアップロードするわけにはいかないですし、セキュリティが心配な場合やコストをかけたくない場合は、無料ソフトで補正する方法もあります。
ノイズ・BGM除去 → 音きりす(Windowsのみ)
音量の増幅・均一化、声の明瞭化、スロー再生 → Audacity(音声編集・録音ソフト)
ここからは具体的な内容になりますので、必要に応じてご参考ください。
☝️ RecText AIでは、よほど大きなノイズやBGMでなければ文字起こしに影響しないようなので、除去は不要かもしれません。
ノイズ・BGM除去 → 音きりす(Windowsのみ)
ノイズ・BGM除去には「音きりす」がおすすめです。空調のようなノイズ除去はAudacityでもできますが、音きりすでは空調ノイズだけでなくBGMや机と椅子がぶつかるような音も除去しやすいです。
音きりすは、視覚的に声の範囲だけ切り取るイメージで使えるので、音声の知識ゼロでも簡単にできます。
ただし、古いソフトなので正常に動作するかは不明。著者のパソコン(Windows 10)では使用できましたが、他の環境では動作しない可能性があります。
音量の増幅・均一化、声の明瞭化、スロー再生 → Audacity(音声編集・録音ソフト)
音量の増幅や均一化、声の明瞭化をする場合は、Audacityがおすすめです。ノイズ除去もできますが、そちらは音きりすの方がおすすめです。
音きりすとAudacityを併用する場合は、[音きりすでノイズ除去 → Audacityで音声そのものを補正]という手順で使用するといいです。
Audacityでは、録音レベルが低い(声が小さい)場合は、増幅(Amplify)でとても簡単に補正できます。
「音量の均一化」にはコンプレッサーを使用するのでやや難しいかもしれませんが、一度設定すれば、次回からは同じような設定で問題ないかと思います。
「スロー再生」は音声補正ではありませんが、0.7〜0.9倍速で正しく文字起こしされることがあります。Audacityでは再生速度を遅くした音声ファイルを書き出すことができます。Audacityでスロー再生することもできるので、音声ミキシングアプリで文字起こしソフトに入力する方法もあります。
なお、ICレコーダーには、話者ごとに録音レベルを自動調節する機能を搭載したモデルがあるので、コンプレッサーで処理したような形で録音できます。会議のように距離によって話者ごとの音量差が生じやすい場合は使用してみるとよいでしょう。
例えば、こちらのモデルに「ボイスチェイサー」という名称で搭載されています。
「声の明瞭化」にはイコライザーを使用します。声の明瞭度を改善するために、2〜5kHzを少し上げるとよいでしょう。
他にも、極端に大きい音が入っている場合はリミッターを使う方法もあります。
音きりすとAudacityの使い方は、ネットやChatGPTが詳しいので、そちらをご参考ください。
ChatGPTには「Audacityを使って音声を文字起こしソフト用に補正したい」などと指示すると詳しく教えてくれるのでおすすめです。
なお、実際に聞いてみたので、そのときの回答を貼っておきます。
Audacityで音声を「文字起こしソフトが認識しやすい音声」に補正する具体的な方法を、目的別にわかりやすくまとめます。
(どの文字起こしソフトでも共通して効果がある処理です)🎧 Audacityでのおすすめ音声補正手順(文字起こし向け)
以下の順番で処理すると、聞き取りやすくノイズの少ない音声になります。
① ノイズ除去(Noise Reduction)
目的: 周囲の空調音やサーッというホワイトノイズを減らす。
手順
1. ノイズ部分(話していない区間)を数秒選択
2. 「エフェクト」→「ノイズの低減」→「ノイズプロファイルを取得」
3. すべて選択
4. 再度 「ノイズの低減」 を開き
・ ノイズ低減(dB): 6〜12dB
・ 感度: 4〜6
・ 周波数平滑化: 3〜6 bands
を目安に調整し「OK」※やりすぎると声がロボットっぽくなるので注意。
② 正規化(Normalize)
目的: 音の大きさを適切に揃えて認識精度を上げる。
手順
- 「エフェクト」→ 正規化
- ピークレベル: -3.0 dB
- DCオフセット除去にチェック
→ これで全体の音量が適正になります。③ コンプレッサー(Compressor)
目的: 声が小さすぎたり大きすぎたりするのを均一化する。
手順
「エフェクト」→ コンプレッサー
おすすめ設定:
・ スレッショルド: -18〜-20 dB
・ ノイズフロア: -40 dB
・ レシオ: 3:1〜4:1
・ アタック: 0.5 ms
・ リリース: 50〜100 ms
・ メイクアップゲインを自動的に適用: ON声の強弱が整い、文字起こしの精度が上がります。
④ イコライザー(Filter Curve EQ)
目的: 声帯が出している周波数を強調して聞き取りやすくする。
推奨カーブ
- 低域(80Hz以下)を軽く下げる
→ こもりや振動を除去- 中高域(2kHz〜4kHz)を少し上げる
→ 子音の明瞭さアップ- 高域(6kHz〜10kHz)を少し上げる
→ さ行の抜けを良くする上げすぎ注意(+3〜5dBで十分)
⑤ ハイパスフィルタ(高域強調の前に入れるのも有効)
目的: 低周波ノイズ(風切り音、エアコン音など)の除去
- 「エフェクト」→ ハイパスフィルター
- カットオフ周波数: 80〜120 Hz
- スロープ: 12 dB/Oct
⑥ 余分な無音を削る(トリミング)
文字起こしソフトによっては無音が長いと誤認識することがあります。
- 「編集」→ 無音を短縮(0.3〜0.5秒程度)
📁 最終書き出し推奨フォーマット
文字起こしソフトに最適な形式:
● WAV(16bit PCM / 44.1kHz or 48kHz)
圧縮しないので音質が劣化しない
OR● MP3 192kbps〜256kbps(音声が長い場合)
最低でも 128kbps以上
💬 必要ならさらにお手伝いできます
以下のような追加サポートもできます:
- 現在の音声ファイルを分析して最適な設定値を提案
- Audacityの画面説明つき手順
- どの文字起こしソフトに最適化したいか(Whisper / AmiVoice / Notta など)
必要であれば音声の状況(環境ノイズ、大人数、マイク種類など)も教えてください。
引用:ChatGPT(GPT-5.1)
なお、ノイズに関する部分は、音きりすを先に使用していれば不要です。
Related Article
洋画の BGM を除去してセリフ音声のみ抽出する方法
複数人の音声分離
複数人の音声が被っている場合は、正直、自分の耳で確認した方が早いと思います。さらに、聞き取れなければ諦めた方が早いと思います。
それでも、どうしても聞き取りたい場合は、音声分離機能を提供するオンラインサービスや、高機能なオーディオ編集ソフトを使い、話者ごとに音声を分離したあとで文字起こしソフトにかける方法があります。
オフラインとなると、SpectraLayers Pro 12があります。(12は2025年12月上旬時点の最新版)
難しそうな印象もあるかもしれませんが、AIの自動処理で簡単に行えるようです。複数人の音声分離だけでなく、ノイズ除去もキレイにできるようなので、文字起こしや動画編集をする機会が多い方は効率化のために導入するのもいいかもしれません。
なお、お得に購入するなら、SOUND FORGE Pro 18 Suite があります。これまたソースネクストで販売されていますが、他のソフトとのバンドルなので定価は割高ですが、たまに割引セールで大幅に安くなっていたと思うので、検討してみてはいかがでしょうか。(注意:バンドルされているのはバージョン10ですが、音声分離などのAI機能は搭載されています)


4. RecText AI が対応していない機能と対策案
RecText AI には、「複数人の話者がいる場合の話者識別機能がなく、誰が話しているかが自動でわからないため手動で識別する必要がある」との声もあり、高価なサブスク型サービスと比べると機能面で物足りなさを感じるユーザーもいるようです。
RecText AIは、以下の機能に対応していないようです。(2025年12月上旬時点)
RecText AI が対応していない機能
●自動話者識別
●複数人同時発話の文字起こし
●リアルタイム文字起こし
●キーワード登録
●自動要約
●自動翻訳(実用的ではないが実装はされている)
●srtファイル(字幕形式)出力
※「複数人同時発話の文字起こし」は、音響の物理的な制約があるため将来的にも実現は難しそうです。
※「キーワード登録」も実装コストと誤爆リスクが高くなるので難しそう。
これらの機能が外せないという方は、今のところは様子見がいいかもしれません。
とはいえ、他のサービスやソフトを併用すればできることもありますし、RecText AIがあれば、文字起こしの低コスト化はもちろん、効率化もできます。
今後、これらの機能は無償アップデートで追加されるかもしれないので、早めに導入しておくのもいい かもしれません。
ソースネクストはAI技術の強化に積極的なので、RecText AIもそれに伴い精度や機能が拡充されると見られます。
実際、自動話者識別とリアルタイム文字起こしは「AutoMemo(オートメモ)」、オフライン自動翻訳は「AI本格翻訳」で提供されています。
RecText AIにも、今後のアップデートでこうした機能が追加されることを期待したいところです。
RecText AIの現在対応していない機能は、以下のようにして補うことができます。
RecText AI が対応していない機能を補う方法
●自動話者識別 → 会議では発話前に名前を言う、録画・録音中にブックマーク&メモする
●複数人同時発話の文字起こし → 音声分離処理をする( SpectraLayers Pro など)
●リアルタイム文字起こし → 他のサービスを使う( AutoMemo など)
●キーワード登録 → テキストエディタでのテキスト一括置換
●自動要約 → ChatGPTなどの外部サービス
●自動翻訳 → オフラインでは「AI本格翻訳」
●srtファイル出力 → 動画編集ソフトを使う( Movie Studio など。文字起こしもできる)
ちなみに、英語学習としては、以下の機能にも対応してほしいと思いました。
RecText AI を英語学習に使うときにあるといい機能
●単語または文章をクリックしての再生
※聞き取りにくい部分のリスニング、シャドーイング、リピーティングなどに便利
●動画・音声再生時の発話部分のテキストハイライト表示
※単語ごと、文章ごと、で切り替えできるとうれしい。
●自動翻訳機能による多言語同時テキスト表示
※以前発売されていた「超字幕」みたいなことができそう。
もちろん、RecText AIは英語学習ソフトではないですが、これらの機能は文字起こしをする際にも便利な機能だと思うので、搭載を検討してほしいところです。
「自動翻訳機能による多言語同時テキスト表示」からのテキスト出力ができれば、文字起こしから翻訳までを行う場合の効率化もできそうです。

5. RecText AI の文字起こしにかかる時間
RecText AI のデメリットや批判的な評判としてネット上によく見られたのは、「文字起こしに時間がかかる」というものでした。
「時間」は主観ですが、文字起こしにかかる時間は短いほどいいです。今回の検証では、RecText AIでの文字起こしにかかる時間も計測してみました。
☝️ 公式発表では「録音時間の25%~100%」とされています。「パソコンのスペックとパフォーマンス設定に左右されます」とのこと。
RecText AIでは、「速度優先の機能をオンにするかオフにするか」で、文字起こしにかかる時間が変わるため、どちらも計測しました。
結果は以下のようになりました。
RecText AIの文字起こしにかかかる時間(今回の検証結果)
速度優先オン:録音時間の約2/3
速度優先オフ:録音時間とほぼ同じ
※文字起こしにかかる時間は、録音の状態や文字数、パソコンの性能によって異なるようです。
※Dell Inspiron 15 Core i5 を使用しましたが、家族所有で詳細スペックは未確認です🙏
BGMが大きい洋画のトレーラーではもう少しかかっていた印象でした。
「約1/3だった」というレビューもあったので、あくまで目安としてご参考ください。
RecText AIの文字起こしにかかる時間は、そちらのレビューから録音時間の1/3とすると、1分の音声では約20秒、1時間の音声では約20分で完了することになります。

6. RecText AI の効率的な使い方
RecText AI には「文字起こしに時間がかかる」という声も見られたので、私が実際に使ってみて思いついた、RecText AIで効率的に文字起こしをする方法をご紹介します。
正確なトランスクリプトを作成する場合を想定した方法ですが、ご自身の目的に合わせてアレンジしてみてください。
まず、文字起こしの前に、以下のことをしておくとよいでしょう。
●RecText AIが文字起こししやすい状態で録画・録音する
●音声補正をしておく
●設定で[速度優先]のチェックを外しておく
1つ目と2つ目については、第3章 と 第4章 をご参考ください。
音声補正は、ノイズがひどい、声が不明瞭、複数人の声量に大きな差がある、といった場合に行うとよいでしょう。録音状態や音質がよければ不要です。
RecText AIで録画・録音をすると、停止後、自動的に文字起こしが開始されますが、一度キャンセルして、保存フォルダにある当該ファイルの音声補正をするとよいでしょう。
なお、元のファイルを残したい場合は、ファイルを複製して、音声補正した方のファイルをRecText AIに読み込ませます。
[速度優先]のチェックを外すと、チェックを入れたときよりも文字起こしに時間がかかるようになりますが、精度が上がるので、結果的に時短になると思います。
RecText AIでの文字起こしは、以下の手順で行うと効率的だと思います。
① 音声ファイルを分割する
② 分割した動画・音声ファイルを1つずつリストに追加する
③ 文字起こしが終わったものから作業する
※作業中にホーム画面を時々開く
長尺の音声ファイルでは、動画・音声ファイルを分割してRecText AIに読み込ませます。
こうすると複数のファイルが追加した順に文字起こしされるので、完了したものから作業できます。分割せずに読み込ませた場合よりも早く作業に取り掛かれる分、効率が良くなります。
このとき、以下の注意点があります。
RecText AI で複数ファイルを文字起こしするときの注意点
●複数ファイルを一括で追加すると文字起こしがフリーズする
●ときどきホーム画面を開いて文字起こしを完了させる
複数の文字起こししたいファイルがあると一括で追加したくなりますが、そうすると文字起こしがフリーズしていたので、1つずつ追加するとよいでしょう(追加は完了前でもいい)。こうすると、複数のファイルでもリストに追加した順で文字起こしされていきます。(詳しくは 第7章 にて)
文字起こし中に他の文字起こし結果を編集している(ホーム画面以外を開いている)と、文字起こしが終わっていても完了とならず、次のファイルに取り掛かれないようでした。一度ホーム画面を開くと完了するので、ときどき確認するとよいでしょう。

7. RecText AI の気になる点・注意点
RecText AI を実際に使ってみて気になった点や、注意点もあったので、本章でご紹介します。
① 文字起こしのフリーズ
② 録音レベルが低い・音量が小さいと文字起こしできない
③ 動画・音声ファイルがたまる(ストレージを圧迫する)
④ コントローラーを含めての録画
⑤ ソースネクストアップデートの自動的インストールと挙動
① 文字起こしのフリーズ
RecText AI に動画ファイルや音声ファイルを追加した後、文字起こしは開始されるものの、進捗バーが開始地点から進まないことがありました。
こうなると、その項目をリストから削除して、パソコンを再起動しないと、再び文字起こしは開始されないようでした。
数分待っても進捗バーが進まない場合は、この現象が発生していると思われるので、この方法を試してみてください。
文字起こしのフリーズが起きやすいのは、複数ファイルをドラッグ&ドロップでRecText AIに読み込ませたとき のようです。
複数のファイルでも、一括ではなく、1つずつ追加すると文字起こしのフリーズは起きにくいようで、ファイル毎に追加した順番で処理されていきます。
RecText AIで複数ファイルの文字起こしをしたい場合は、1つずつ追加して読み込ませるのが無難のようです。なお、文字起こし中でもファイルを追加できます。
② 録音レベルが低い・音量が小さいと文字起こしできない
「3. RecText AI の文字起こし精度を上げる方法」でも述べましたが、RecText AI では録画・録音するときの録音レベルが低い場合や、音声ファイルの音量が小さいと文字起こしできないことがあります。
⚠️ 録音レベルと音量は、RecText AIに限らず文字起こしソフト全般に共通する注意点です。
ただし、録音レベルを低くしたまま録画や録音をしてしまった場合や、音声ファイルの音量が小さい場合でも、音声補正をしてから再び文字起こしをすると改善する可能性があります。
この辺りについては、第3章 をご参考ください。
③ 動画・音声ファイルがたまる(ストレージを圧迫する)
RecText AI では、録画や録音をするたびに動画ファイルまたは音声ファイルが作成され、保存されます。文字起こしをする機会が多いと、当然ストレージを圧迫します。
ファイルを削除すると解消できますが、ここで注意点があります。RecText AIで作成された動画・音声ファイルは、RecText AIのリスト上から削除しても、保存フォルダに残ります。
つまり、保存フォルダから削除しないと、ストレージの圧迫は回避できません。
☝️ RecText AIの保存フォルダは、リスト上で右クリックすると開くことができます。
なお、高画質・高音質に設定すればするほどファイル容量は大きくなるので、品質を下げるとストレージ節約になります。画質は低品質にしても文字起こしへの影響はなさそうですが、音質は影響するかもしれないので、できればデフォルトのままがよいでしょう。
パソコン本体に保存すると管理しづらくなる場合は、外部ストレージへの保存がおすすめ です。
USBメモリやSDカードに保存すると手軽で便利かと思います。
ちなみに、私はmicroSD派です。MP3プレーヤーやICレコーダーのストレージを拡張したりと、汎用性が高いのが理由です。
この手のリーダーを使用すれば、USB-CとUSB-Aの接続問題もありませんし。
④ コントローラーを含めての録画
細かいかもしれませんが、RecText AI ではコントローラーも録画されるのが気になりました。
こちらのスクショの、動画ビュー内の右下部分がRecText AIのコントローラーです。
洋画で学習したいときなんかは気になりそう。
このコントローラーの位置は、録画中は自由に動かせますし、便利ですが、録画後にあると気になるというか、いらないですよね、録画後は。
なお、コントローラーの右上に×ボタンはありますが、押しても反応しなかったので、非表示にするボタンではないようです。
⑤ ソースネクストアップデートの自動的インストールと挙動
RecText AI の注意点ではないですが、レビューに不評しかないのが、ソースネクスト製品をインストールする際に自動的にインストールされる、ソースネクストアップデートのアドウェア的な挙動です。
私はこれを知っていたので、RecText AIをカスタムインストールしていたのですが、ソースネクストアップデートのインストールはキャンセルはできないようでした。
ソースネクストアップデートは、製品にアップデートがあった場合や新製品が発売された場合などに、画面上にポップアップで通知するアプリです。ソースネクスト製品の起動中だけならまだしも、パソコンを起動するだけで毎回通知されるようでしたので、レビューの不評も納得です。
ソースネクストアップデートを煩わしく感じる場合は、アンインストールで解決します。
☝️ ソースネクストアップデートのアンインストール方法
ソースネクストサイトの「表示しないようにしたい【ソースネクストアップデート】」をご参考ください。
とはいえ、ソースネクストアップデートをアンインストールすると、今後RecText AIにアップデートがあっても通知されない可能性がありそう です。自分でアップデート情報を確認して、再インストールする形でアップデートすることになるかもしれません。

8. 総評。RecText AI の英語文字起こし精度を検証して
今回、著者が調査したところ、RecText AI は、使いやすさとコストパフォーマンス、高い日本語認識精度を評価する声が多く、特にオフラインで安全に使いたいユーザーから好評 のようでした。
一方、話者識別機能がない、環境ノイズに弱い、といった点が改善の余地 として挙げられていました。
私もおおむねそのような所感です。ただし、今回の検証では、RecText AIの 英語認識精度は98.7%で、環境ノイズ(BGM)に強い印象もありました。なお、実際の会議や講演では検証していないので、実際にはもう少し低い精度になるかもしれません。
とはいえ、RecText AIの英語認識精度が公式発表の日本語認識精度92.1%よりも高い結果となったのは、英語の方が日本語よりも高い一致率になりやすい状況があるからかもしれません。もしその辺りが関係しているのであれば、RecText AIは、実際の会議や講演でも98%ほどの一致率で文字起こしできる可能性はありそう です。
今回、日本語の一致率の検証はしませんでしたが、最近の音声認識では英語との差が小さくなっているようなので、RecText AIの日本語認識精度も、今後のアップデートでの向上が期待できます。
他の文字起こしサービスに満足されている方も、導入を迷われている方も、メリットに魅力を感じ、コストを抑えたい状況であれば、最適解はRecText AIと言えるでしょう。
●RecText AI の英語文字起こし一致率は「98.7%」
※著者による検証結果(2025年12月上旬時点)
✔︎最大一致率は「99.8%」
●「3大メリットのいずれか」に魅力を感じたら「買い」が正解
✔︎買い切り型で高精度 → コスパが抜群
✔︎セキュリティ面で安全(データが外部に送信されない)
✔︎購入後も文字起こし精度や機能が向上する(無償アップデートにて)
●安く買うならソースネクストの割引セール
✔︎毎月10日間ほど開催
✔︎2025年11月のセールでは 9,980円 → 4,980円




Comment