Skip to content

sayonari/jimakuChan

Repository files navigation

jimakuChan (音声認識字幕ちゃん)

リアルタイム音声認識・翻訳字幕アプリケーション
ストリーマーやコンテンツクリエイター向けの多言語対応字幕ソリューション

🚀 デモ・体験版

以下で直接動かすことができます:
https://sayonari.github.io/jimakuChan/

📖 機能概要

🎤 音声認識機能

  • リアルタイム音声認識: Web Speech APIによる高精度な音声認識
  • 20+言語対応: 日本語、英語、中国語、韓国語など多数の言語をサポート
  • カスタム辞書機能: 固有名詞や専門用語の認識精度向上
  • 不適切語フィルタリング: 配信に適さない言葉の自動フィルタリング
  • 信頼度表示: 音声認識結果の信頼度をパーセンテージで表示

🌐 翻訳機能

  • 同時多言語翻訳: 最大3言語への同時翻訳出力
  • Google Translate API連携: 高精度な機械翻訳
  • 翻訳ステータス表示: リアルタイムでの翻訳進行状況表示
  • 翻訳回数カウント: API使用量の把握

🎨 表示カスタマイズ

  • 豊富なフォント選択: システムフォント + カスタムフォント対応
  • 柔軟な色・サイズ設定: 文字色、背景色、ストローク色、サイズの詳細設定
  • 位置・配置調整: 上下左右の配置、テキスト揃えの設定
  • プリセット機能: 11種類の事前設定されたスタイルプリセット

⏰ タイマー機能

  • 独立タイマーシステム: 音声認識と翻訳で個別のタイマー設定
  • 視覚的プログレスバー: 削除までの残り時間を直感的に表示
  • カスタムタイミング: ミリ秒単位での削除タイミング調整

🔊 音声出力連携

  • 棒読みちゃん対応: WebSocket経由での音声読み上げ連携

🏗️ システム構成

ファイル構成

jimakuChan/
├── index.html          # 設定インターフェース
├── main.html           # 字幕表示エンジン
├── js/
│   └── bouyomichan_client.js # 棒読みちゃんWebSocketクライアント
├── font/               # カスタムフォントファイル
├── font.css            # フォント定義
└── run_server.py       # 開発用HTTPSサーバー

技術スタック

  • フロントエンド: HTML5, CSS3, Vanilla JavaScript
  • 音声認識: Web Speech API (webkitSpeechRecognition)
  • 翻訳API: Google Apps Script経由のGoogle Translate API
  • 音声出力: WebSocket (棒読みちゃん連携)
  • 開発サーバー: Python HTTPS Server (SSL証明書付き)

🛠️ セットアップ・使用方法

1. 基本セットアップ

# リポジトリクローン
git clone https://github.com/sayonari/jimakuChan.git
cd jimakuChan

# 開発用HTTPSサーバー起動 (Web Speech API要件)
python run_server.py

2. ブラウザアクセス

https://localhost:4443/

3. 翻訳機能セットアップ

  1. Google Apps Scriptで翻訳プロキシを作成
  2. スクリプトIDを「翻訳API設定」に入力
  3. 必要に応じて翻訳言語を設定

4. 配信ソフトでの使用

  1. 設定完了後、字幕表示画面のURLをコピー
  2. OBS Studio等でBrowserSourceとして追加
  3. マイクアクセスを許可して音声認識開始

🎯 最新の改良点 (2025年6月版)

✨ 新機能・改善

  • 独立タイマーシステム: 音声認識と翻訳で個別のタイマー管理
  • 視覚的プログレスバー: 削除までの残り時間を2つのプログレスバーで表示
  • システムフォント検出: ブラウザにインストールされたフォントの自動検出
  • 翻訳ステータス表示: リアルタイムでの翻訳進行状況表示
  • レイアウト安定化: 全角スペース置換によるレイアウトシフト防止
  • UI改善: 設定画面の横スクロール問題解決、iframe枠線除去

🔧 技術的改善

  • タイマー精度向上: 50ms間隔での滑らかなプログレスバー更新
  • エラーハンドリング強化: API制限、認証エラーの詳細表示
  • フォント管理改善: Canvas APIによるシステムフォント検出
  • 設定保存機能: プリセット設定の確実な保存・読み込み
  • CSS最適化: box-sizing統一による一貫したレイアウト

📚 詳細設定ガイド

設定方法などの詳しい紹介ページ:
http://www.sayonari.com/trans_asr/index_asr.html

🤝 開発・貢献

開発者

  • さぁたん - メイン開発
  • さよなりω/(大学教員)西村良太 - 共同開発

ライセンス

プロジェクトのライセンス情報については、LICENSEファイルを参照してください。

課題・要望

GitHubのIssuesページで課題報告や機能要望を受け付けています。


jimakuChan - 音声認識字幕ちゃん
Version 2025.7.6 14:45

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages