Whisper.cpp (ローカル推論) + Gemini BYOK で動く、開発者コスト $0 の日本語音声入力ツール。
GitHub Releases から最新版をダウンロード:
| OS | ファイル | 備考 |
|---|---|---|
| Windows | Voxtro_x.x.x_x64-setup.exe |
NSIS インストーラー |
| macOS (Intel) | Voxtro_x.x.x_x64.dmg |
x86_64 |
| macOS (Apple Silicon) | Voxtro_x.x.x_aarch64.dmg |
M1/M2/M3 |
Voxtro_x.x.x_x64-setup.exeをダウンロードして実行- SmartScreen 警告が表示される場合: 「詳細情報」→「実行」 をクリック
- インストーラーの指示に従ってインストール
.dmgファイルを開き、Voxtro.appをApplicationsにドラッグ- 初回起動時に Gatekeeper 警告が出る場合、ターミナルで以下を実行:
xattr -dr com.apple.quarantine /Applications/Voxtro.app
- アプリを起動
- 設定画面 → Whisper モデルをダウンロード
small(466 MB): 日本語で十分な精度medium(1.5 GB): より高精度large(3.1 GB): 最高精度(GPU推奨)
- (任意) Google AI Studio で Gemini API キーを取得し設定
- Ctrl+Shift+K で録音開始 → もう一度押して停止 → 自動ペースト
- グローバルショートカット (デフォルト: Ctrl+Shift+K) で録音開始/停止
- Whisper.cpp でオフライン日本語文字起こし
- Gemini API (任意) でフィラーワード除去・句読点整形
- 整形後テキストを アクティブウィンドウに自動ペースト
- システムトレイ常駐
- 自動更新 — 新バージョンの通知・インストールを自動で行います
- Node.js 20+
- Rust (stable)
- CMake 3.14+ (whisper-rs のビルドに必要)
- Windows:
winget install cmakeまたは Visual Studio Installer - macOS:
brew install cmake
- Windows:
- Windows: Visual Studio Build Tools (MSVC)
- macOS: Xcode Command Line Tools (
xcode-select --install)
- Whisper モデル (設定画面からダウンロード)
# 依存関係インストール
npm install
# 開発サーバー起動
npm run tauri devnpm run tauri buildtauri.conf.jsonとpackage.jsonのバージョンを更新- タグを付けてプッシュ:
git tag v0.2.0 git push origin v0.2.0
- GitHub Actions が自動でビルド → GitHub Releases にドラフトが作成されます
- ドラフトの内容を確認して公開
初回のみ、署名キーペアの生成と設定が必要です:
npx @tauri-apps/cli signer generate -w ~/.tauri/voxtro.key生成された 公開鍵 を src-tauri/tauri.conf.json の plugins.updater.pubkey に設定し、秘密鍵 を GitHub Secrets に登録:
TAURI_SIGNING_PRIVATE_KEY: 秘密鍵の内容TAURI_SIGNING_PRIVATE_KEY_PASSWORD: 秘密鍵のパスワード
| 項目 | コスト |
|---|---|
| 音声認識 (Whisper.cpp) | $0 — ローカル処理 |
| AI 整形 (Gemini) | $0 — ユーザー自身の API キー |
| 配布 (GitHub Releases) | $0 — 無料枠 |
Ctrl+Shift+K 押下
└─ Rust: cpal で録音開始
Ctrl+Shift+K 再押下
└─ Rust: 録音停止 → WAV 保存 → whisper-rs で推論
└─ Tauri Event: transcription-complete (生テキスト)
└─ フロントエンド:
├─ Gemini API キーあり → 整形 → paste_text コマンド
└─ Gemini API キーなし → そのまま → paste_text コマンド
└─ Rust: arboard でクリップボード → enigo で Ctrl+V
音声データはすべてローカルで処理され、外部に送信されることはありません。Gemini API(オプション)を有効にした場合のみ、文字起こしテキストが Google に送信されます。
詳細は PRIVACY.md をご覧ください。
MIT License — 詳細は LICENSE をご覧ください。
サードパーティライブラリのライセンスは THIRD_PARTY_LICENSES.md をご覧ください。