INSIGHT

NEWS & BLOG

技術的な裏話から社内戦略、現場でのリアルな学びまで、
メンバーが語る技術の工夫や事業の舞台裏、
イベント参加で得た知見を通して、私たちの思考と挑戦を発信しています。

ツール開発

録画した動画の文字起こしツールを開発する方法

はじめに

面談や打ち合わせなどで録画した動画を文字起こしして、議事録や社内共有に使いたい場面は多いと思います。
最近はNotionの議事録機能など便利なサービスも増えてきましたが、採用インタビューを精度高く文字起こししたいと思い、自分でも試してみました。
今回は「外部サービス」と「OpenAI Whisper」を使った方法を紹介します。

文字起こしツール(外部サービス)

まずは無料・有料含めて、外部サービスで利用できる文字起こしツールを紹介します。
どちらも日本語の精度は高いと評価されています。

Notta

Notta サービス画面1
Notta サービス画面2

Notta公式サイトはこちら
ブラウザから動画ファイルをアップロードするだけで、簡単に文字起こしができます。会議やインタビューの議事録作成におすすめです。

Vrew

Vrewは文字起こしだけでなく、動画編集機能を兼ね備えているのが特徴です。
商品紹介やプレゼン動画など、テロップ編集を前提とした動画に向いています。

Vrew サービス画面

Vrew公式サイトはこちら
どちらのサービスも無料プランがあるので、まずは用途に合うかどうか試してみると良いでしょう。

Whisperで文字起こしをする

ここからは本題です。
OpenAIが公開している音声認識モデル Whisper を使うと、無料で精度の高い文字起こしが可能です。
日本語にも対応しており、録画ファイル(mp4)があればすぐに使えます。

必要な準備環境

  • Python 3.11系(推奨)
  • ffmpeg(音声抽出用)

Homebrewでインストール例:


brew install pyenv pyenv-virtualenv ffmpeg

Whisperのインストール手順:


# Python 3.11 を用意
pyenv install 3.11.10
pyenv virtualenv 3.11.10 whisper311
pyenv local whisper311

# Whisper をインストール
pip install -U pip "setuptools<81" wheel
pip install openai-whisper==20231117

CLIで文字起こしを実行するには、動画ファイルのあるディレクトリで以下を実行します。


whisper videoname.mp4 --model medium --language Japanese

出力されるファイル

  • ◉ videoname.txt → プレーンテキスト
  • ◉ videoname.srt → 字幕ファイル(YouTube等で利用可能)
  • ◉ videoname.vtt → Web用字幕ファイル

モデルの選び方

  • small:速いけど精度低め
  • medium:バランスが良い(おすすめ)
  • large:精度最高だが処理が重い

まとめ

  • 手軽に済ませるなら → Notta / Vrew
  • Zoomクラウド録画なら → 自動字幕(Pro以上)
  • 高精度で無料なら → Whisper CLI

特にWhisperはオープンソースで自由度が高く、mp4さえあればすぐに文字起こしできるのが魅力です。
WhisperとPythonのバージョンが合わず、ビルドで何度か転けましたが、3.11系にしてすんなり通りました。
外部サービスと組み合わせて、用途に合わせたワークフローを構築してみてください。

CONTACT

お問い合わせ

サービス・その他、お気軽にご連絡ください。