録画した動画の文字起こしツールを開発する方法
はじめに
面談や打ち合わせなどで録画した動画を文字起こしして、議事録や社内共有に使いたい場面は多いと思います。
最近はNotionの議事録機能など便利なサービスも増えてきましたが、採用インタビューを精度高く文字起こししたいと思い、自分でも試してみました。
今回は「外部サービス」と「OpenAI Whisper」を使った方法を紹介します。
文字起こしツール(外部サービス)
まずは無料・有料含めて、外部サービスで利用できる文字起こしツールを紹介します。
どちらも日本語の精度は高いと評価されています。
Notta


Notta公式サイトはこちら
ブラウザから動画ファイルをアップロードするだけで、簡単に文字起こしができます。会議やインタビューの議事録作成におすすめです。
Vrew
Vrewは文字起こしだけでなく、動画編集機能を兼ね備えているのが特徴です。
商品紹介やプレゼン動画など、テロップ編集を前提とした動画に向いています。

Vrew公式サイトはこちら
どちらのサービスも無料プランがあるので、まずは用途に合うかどうか試してみると良いでしょう。
Whisperで文字起こしをする
ここからは本題です。
OpenAIが公開している音声認識モデル Whisper を使うと、無料で精度の高い文字起こしが可能です。
日本語にも対応しており、録画ファイル(mp4)があればすぐに使えます。
必要な準備環境
- Python 3.11系(推奨)
- ffmpeg(音声抽出用)
Homebrewでインストール例:
brew install pyenv pyenv-virtualenv ffmpeg
Whisperのインストール手順:
# Python 3.11 を用意
pyenv install 3.11.10
pyenv virtualenv 3.11.10 whisper311
pyenv local whisper311
# Whisper をインストール
pip install -U pip "setuptools<81" wheel
pip install openai-whisper==20231117
CLIで文字起こしを実行するには、動画ファイルのあるディレクトリで以下を実行します。
whisper videoname.mp4 --model medium --language Japanese
出力されるファイル
- ◉ videoname.txt → プレーンテキスト
- ◉ videoname.srt → 字幕ファイル(YouTube等で利用可能)
- ◉ videoname.vtt → Web用字幕ファイル
モデルの選び方
- small:速いけど精度低め
- medium:バランスが良い(おすすめ)
- large:精度最高だが処理が重い
まとめ
- 手軽に済ませるなら → Notta / Vrew
- Zoomクラウド録画なら → 自動字幕(Pro以上)
- 高精度で無料なら → Whisper CLI
特にWhisperはオープンソースで自由度が高く、mp4さえあればすぐに文字起こしできるのが魅力です。
WhisperとPythonのバージョンが合わず、ビルドで何度か転けましたが、3.11系にしてすんなり通りました。
外部サービスと組み合わせて、用途に合わせたワークフローを構築してみてください。