vget v0.12.0 リリース:AI 音声文字起こし機能を搭載
vget
ai
音声文字起こし
字幕
transcribe
vget v0.12.0 で AI 機能が登場、高品質な音声文字起こしに対応、Markdown や SRT 字幕形式で出力可能
AI 機能がついに登場
vget v0.12.0 で全く新しい AI モジュールが追加されました。最初の機能は**音声文字起こし(Speech-to-Text)**です。テストの結果、文字起こしの精度は非常に優秀で、ポッドキャスト、会議録音、動画のナレーションなど、あらゆるコンテンツを正確に認識します。
コマンドライン使用方法
CLI で vget ai transcribe コマンドを使って音声文字起こしを実行できます:
# 基本的な使い方:音声ファイルを文字起こし、デフォルトで Markdown 形式で出力
vget ai transcribe ./recording.mp3
# 言語を指定:-l パラメータで音声の言語を指定
vget ai transcribe -l zh ./interview.mp3
# 字幕ファイルを出力:-o パラメータで SRT 形式として出力
vget ai transcribe -l zh ./podcast.mp3 -o podcast.srt
# 動画ファイルを文字起こし:音声を自動抽出してから文字起こし
vget ai transcribe -l en ./lecture.mp4 -o lecture.srt
Docker Web インターフェース
Docker でデプロイした Web インターフェースでは、左側のナビゲーションバーにある AI アイコンをクリックして音声文字起こし機能にアクセスできます:
- ファイルを選択 -
/home/vget/downloadsディレクトリのファイルから選択するか、ローカルファイルを直接アップロード - 言語を設定 - 最適な認識精度を得るために音声の言語を選択
- フォーマットを選択 - Markdown テキストまたは SRT 字幕形式での出力に対応
- 文字起こし開始 - ボタンをクリックして開始、完了後に結果をダウンロード可能
対応ファイル形式
| タイプ | 対応フォーマット |
|---|---|
| 音声 | MP3, WAV, M4A, FLAC, OGG, AAC |
| 動画 | MP4, MKV, MOV, AVI, WebM |
動画ファイルの場合、vget は自動的に音声トラックを抽出してから文字起こしを行います。手動での変換は不要です。
対応言語
vget AI は複数の言語での音声認識に対応しており、-l パラメータで指定できます:
| コード | 言語 |
|---|---|
| en | 英語(デフォルト) |
| zh | 中国語 |
| ja | 日本語 |
| ko | 韓国語 |
| es | スペイン語 |
| fr | フランス語 |
| de | ドイツ語 |
出力フォーマットの詳細
Markdown 形式(デフォルト)
読みやすく、さらなる編集に最適です。文字起こし結果は段落ごとに整理され、後処理が簡単です。
SRT 字幕形式
タイムライン情報を含む標準的な字幕ファイル形式で、動画プレーヤーや編集ソフトウェアでそのまま使用できます:
1
00:00:00,000 --> 00:00:03,500
皆さんこんにちは、今回のエピソードへようこそ
2
00:00:03,500 --> 00:00:07,200
今日は AI の発展についてお話しします
ユースケース
- ポッドキャスト文字起こし - ポッドキャストの内容をテキスト化し、検索や引用を容易に
- 会議議事録 - 会議の議事録を素早く作成
- 動画字幕 - 動画の字幕ファイルを自動生成
- 学習ノート - 講義の録音を編集可能なテキストノートに変換
今後の予定
- より多くの AI 機能(翻訳、要約など)
- 長時間音声の処理パフォーマンス改善
- バッチ文字起こし対応
GitHub でフィードバックやご提案をお待ちしています!