リアルタイム音声認識・翻訳字幕アプリケーション
ストリーマーやコンテンツクリエイター向けの多言語対応字幕ソリューション
以下で直接動かすことができます:
https://sayonari.github.io/jimakuChan/
- リアルタイム音声認識: Web Speech APIによる高精度な音声認識
- 20+言語対応: 日本語、英語、中国語、韓国語など多数の言語をサポート
- カスタム辞書機能: 固有名詞や専門用語の認識精度向上
- 不適切語フィルタリング: 配信に適さない言葉の自動フィルタリング
- 信頼度表示: 音声認識結果の信頼度をパーセンテージで表示
- 同時多言語翻訳: 最大3言語への同時翻訳出力
- Google Translate API連携: 高精度な機械翻訳
- 翻訳ステータス表示: リアルタイムでの翻訳進行状況表示
- 翻訳回数カウント: API使用量の把握
- 豊富なフォント選択: システムフォント + カスタムフォント対応
- 柔軟な色・サイズ設定: 文字色、背景色、ストローク色、サイズの詳細設定
- 位置・配置調整: 上下左右の配置、テキスト揃えの設定
- プリセット機能: 11種類の事前設定されたスタイルプリセット
- 独立タイマーシステム: 音声認識と翻訳で個別のタイマー設定
- 視覚的プログレスバー: 削除までの残り時間を直感的に表示
- カスタムタイミング: ミリ秒単位での削除タイミング調整
- 棒読みちゃん対応: WebSocket経由での音声読み上げ連携
jimakuChan/
├── index.html # 設定インターフェース
├── main.html # 字幕表示エンジン
├── js/
│ └── bouyomichan_client.js # 棒読みちゃんWebSocketクライアント
├── font/ # カスタムフォントファイル
├── font.css # フォント定義
└── run_server.py # 開発用HTTPSサーバー
- フロントエンド: HTML5, CSS3, Vanilla JavaScript
- 音声認識: Web Speech API (webkitSpeechRecognition)
- 翻訳API: Google Apps Script経由のGoogle Translate API
- 音声出力: WebSocket (棒読みちゃん連携)
- 開発サーバー: Python HTTPS Server (SSL証明書付き)
# リポジトリクローン
git clone https://github.com/sayonari/jimakuChan.git
cd jimakuChan
# 開発用HTTPSサーバー起動 (Web Speech API要件)
python run_server.pyhttps://localhost:4443/
- Google Apps Scriptで翻訳プロキシを作成
- スクリプトIDを「翻訳API設定」に入力
- 必要に応じて翻訳言語を設定
- 設定完了後、字幕表示画面のURLをコピー
- OBS Studio等でBrowserSourceとして追加
- マイクアクセスを許可して音声認識開始
- 独立タイマーシステム: 音声認識と翻訳で個別のタイマー管理
- 視覚的プログレスバー: 削除までの残り時間を2つのプログレスバーで表示
- システムフォント検出: ブラウザにインストールされたフォントの自動検出
- 翻訳ステータス表示: リアルタイムでの翻訳進行状況表示
- レイアウト安定化: 全角スペース置換によるレイアウトシフト防止
- UI改善: 設定画面の横スクロール問題解決、iframe枠線除去
- タイマー精度向上: 50ms間隔での滑らかなプログレスバー更新
- エラーハンドリング強化: API制限、認証エラーの詳細表示
- フォント管理改善: Canvas APIによるシステムフォント検出
- 設定保存機能: プリセット設定の確実な保存・読み込み
- CSS最適化: box-sizing統一による一貫したレイアウト
設定方法などの詳しい紹介ページ:
http://www.sayonari.com/trans_asr/index_asr.html
- さぁたん - メイン開発
- さよなりω/(大学教員)西村良太 - 共同開発
プロジェクトのライセンス情報については、LICENSEファイルを参照してください。
GitHubのIssuesページで課題報告や機能要望を受け付けています。
jimakuChan - 音声認識字幕ちゃん
Version 2025.7.6 14:45