vget v0.12.0 リリース：AI 音声文字起こし機能を搭載

vget

音声文字起こし

字幕

transcribe

vget v0.12.0 で AI 機能が登場、高品質な音声文字起こしに対応、Markdown や SRT 字幕形式で出力可能

AI 機能がついに登場

vget v0.12.0 で全く新しい AI モジュールが追加されました。最初の機能は**音声文字起こし（Speech-to-Text）**です。テストの結果、文字起こしの精度は非常に優秀で、ポッドキャスト、会議録音、動画のナレーションなど、あらゆるコンテンツを正確に認識します。

コマンドライン使用方法

CLI で vget ai transcribe コマンドを使って音声文字起こしを実行できます：

# 基本的な使い方：音声ファイルを文字起こし、デフォルトで Markdown 形式で出力
vget ai transcribe ./recording.mp3

# 言語を指定：-l パラメータで音声の言語を指定
vget ai transcribe -l zh ./interview.mp3

# 字幕ファイルを出力：-o パラメータで SRT 形式として出力
vget ai transcribe -l zh ./podcast.mp3 -o podcast.srt

# 動画ファイルを文字起こし：音声を自動抽出してから文字起こし
vget ai transcribe -l en ./lecture.mp4 -o lecture.srt

Docker Web インターフェース

Docker でデプロイした Web インターフェースでは、左側のナビゲーションバーにある AI アイコンをクリックして音声文字起こし機能にアクセスできます：

ファイルを選択 - /home/vget/downloads ディレクトリのファイルから選択するか、ローカルファイルを直接アップロード
言語を設定 - 最適な認識精度を得るために音声の言語を選択
フォーマットを選択 - Markdown テキストまたは SRT 字幕形式での出力に対応
文字起こし開始 - ボタンをクリックして開始、完了後に結果をダウンロード可能

対応ファイル形式

タイプ	対応フォーマット
音声	MP3, WAV, M4A, FLAC, OGG, AAC
動画	MP4, MKV, MOV, AVI, WebM

動画ファイルの場合、vget は自動的に音声トラックを抽出してから文字起こしを行います。手動での変換は不要です。

対応言語

vget AI は複数の言語での音声認識に対応しており、-l パラメータで指定できます：

コード	言語
en	英語（デフォルト）
zh	中国語
ja	日本語
ko	韓国語
es	スペイン語
fr	フランス語
de	ドイツ語

出力フォーマットの詳細

Markdown 形式（デフォルト）

読みやすく、さらなる編集に最適です。文字起こし結果は段落ごとに整理され、後処理が簡単です。

SRT 字幕形式

タイムライン情報を含む標準的な字幕ファイル形式で、動画プレーヤーや編集ソフトウェアでそのまま使用できます：

1
00:00:00,000 --> 00:00:03,500
皆さんこんにちは、今回のエピソードへようこそ

2
00:00:03,500 --> 00:00:07,200
今日は AI の発展についてお話しします

ユースケース

ポッドキャスト文字起こし - ポッドキャストの内容をテキスト化し、検索や引用を容易に
会議議事録 - 会議の議事録を素早く作成
動画字幕 - 動画の字幕ファイルを自動生成
学習ノート - 講義の録音を編集可能なテキストノートに変換

今後の予定

より多くの AI 機能（翻訳、要約など）
長時間音声の処理パフォーマンス改善
バッチ文字起こし対応

GitHub でフィードバックやご提案をお待ちしています！