録画した動画の文字起こしツールを開発する方法

はじめに

面談や打ち合わせなどで録画した動画を文字起こしして、議事録や社内共有に使いたい場面は多いと思います。
最近はNotionの議事録機能など便利なサービスも増えてきましたが、採用インタビューを精度高く文字起こししたいと思い、自分でも試してみました。
今回は「外部サービス」と「OpenAI Whisper」を使った方法を紹介します。

文字起こしツール（外部サービス）

まずは無料・有料含めて、外部サービスで利用できる文字起こしツールを紹介します。
どちらも日本語の精度は高いと評価されています。

Notta

Notta公式サイトはこちら
ブラウザから動画ファイルをアップロードするだけで、簡単に文字起こしができます。会議やインタビューの議事録作成におすすめです。

Vrew

Vrewは文字起こしだけでなく、動画編集機能を兼ね備えているのが特徴です。
商品紹介やプレゼン動画など、テロップ編集を前提とした動画に向いています。

Vrew公式サイトはこちら
どちらのサービスも無料プランがあるので、まずは用途に合うかどうか試してみると良いでしょう。

Whisperで文字起こしをする

ここからは本題です。
OpenAIが公開している音声認識モデル Whisper を使うと、無料で精度の高い文字起こしが可能です。
日本語にも対応しており、録画ファイル（mp4）があればすぐに使えます。

必要な準備環境

Python 3.11系（推奨）
ffmpeg（音声抽出用）

Homebrewでインストール例：


brew install pyenv pyenv-virtualenv ffmpeg

Whisperのインストール手順：


# Python 3.11 を用意
pyenv install 3.11.10
pyenv virtualenv 3.11.10 whisper311
pyenv local whisper311

# Whisper をインストール
pip install -U pip "setuptools<81" wheel
pip install openai-whisper==20231117

CLIで文字起こしを実行するには、動画ファイルのあるディレクトリで以下を実行します。


whisper videoname.mp4 --model medium --language Japanese

出力されるファイル

◉ videoname.txt → プレーンテキスト
◉ videoname.srt → 字幕ファイル（YouTube等で利用可能）
◉ videoname.vtt → Web用字幕ファイル

モデルの選び方

small：速いけど精度低め
medium：バランスが良い（おすすめ）
large：精度最高だが処理が重い

まとめ

手軽に済ませるなら → Notta / Vrew
Zoomクラウド録画なら → 自動字幕（Pro以上）
高精度で無料なら → Whisper CLI

特にWhisperはオープンソースで自由度が高く、mp4さえあればすぐに文字起こしできるのが魅力です。
WhisperとPythonのバージョンが合わず、ビルドで何度か転けましたが、3.11系にしてすんなり通りました。
外部サービスと組み合わせて、用途に合わせたワークフローを構築してみてください。

NEWS & BLOG