Journal des modifications
Version 0.2.2
Mode Dictée sur Pression, Mode Mains Libres et Gestionnaire de Raccourcis Hybride
Mode Dictée sur Pression :
Appuyer pour Enregistrer, Relâcher pour Transcrire : Implémentation du mode dictée sur pression qui démarre l'enregistrement lorsque la touche est pressée et transcrit l'audio complet lorsqu'elle est relâchée. Transcription Audio Complète : Effectue une transcription complète de tout le segment enregistré lors du relâchement, garantissant l'exhaustivité sémantique et la préservation du contexte. Sélection Automatique de Texte : Capture et insère automatiquement le texte sélectionné lors du relâchement de la touche, permettant des flux de travail de remplacement de texte sans friction. Durée Minimale de Pression : Durée minimale de pression configurable (par défaut 150ms) pour éviter les activations accidentelles. Remplissage Audio pour Enregistrements Courts : Remplit automatiquement les segments audio très courts pour assurer une transcription précise, similaire aux outils de dictée professionnels.
Mode Mains Libres :
Écoute Continue : Active la surveillance audio continue avec segmentation automatique et transcription en temps réel. Segmentation Automatique Intelligente : Détecte automatiquement les périodes de silence de 500ms pour segmenter la parole en morceaux significatifs pour la transcription. Transcription en Streaming en Temps Réel : Fournit des résultats de transcription immédiats à la fin de chaque segment, permettant la capture de conversation en direct. Activation par Touches de Modification : Prend en charge les combinaisons de touches de modification uniquement (par exemple, ⌘ + ⌥) pour une activation rapide du mode mains libres sans touches supplémentaires.
Gestionnaire de Raccourcis Hybride :
Support de la Touche Fn : Ajout du support pour utiliser la touche Fn comme raccourci de dictée sur pression via la surveillance native CGEventTap. Combinaisons de Touches de Modification Uniquement : Activation des combinaisons de touches de modification uniquement (par exemple, ⌘ + ⌥) pour l'activation du mode mains libres sans nécessiter de touches supplémentaires.
Gestion d'État des Dialogues Modaux :
Amélioration de la gestion d'état des dialogues modaux de paramètres, garantissant un comportement cohérent et une meilleure expérience utilisateur sur toutes les interfaces de configuration.
Version 0.2.1
Nouvelle Icône d'Application, Page de Démarrage et Fonctionnalité de Dictionnaire
Nouvelle Icône d'Application :
Mise à Jour de l'Identité Visuelle : Implémentation d'un nouveau design d'icône d'application avec une cohérence visuelle améliorée. Reconnaissance de Marque Renforcée : Mise à jour de l'icône dans tous les emplacements système, y compris le Dock, la barre de menu et les préférences système.
Page de Démarrage et Tour d'Introduction :
Expérience Utilisateur Première Fois : Ajout d'une page de démarrage et d'un tour d'introduction complet pour les nouveaux utilisateurs. Processus de Configuration Guidé : Introduction étape par étape aux fonctionnalités et fonctionnalités clés. Amélioration de l'Intégration Utilisateur : Amélioration de l'expérience utilisateur initiale avec des tutoriels interactifs.
Fonctionnalité de Dictionnaire dans la Barre Latérale :
Accès au Dictionnaire Unifié : Ajout d'une entrée Dictionnaire dans la barre latérale qui consolide la gestion du Vocabulaire et des Extraits. Interface à Onglets : Implémentation d'une interface à onglets dans la vue Dictionnaire pour faciliter le basculement entre Vocabulaire et Extraits. Navigation Rationalisée : Simplification de la navigation de la barre latérale en regroupant les fonctionnalités connexes.
Interface Utilisateur de Bouton d'Action Flottant (FAB) :
Transition UI : Passage à une interface utilisateur basée sur FAB pour améliorer l'accessibilité et le flux de travail. Interaction Améliorée : Amélioration des modèles d'interaction utilisateur avec le design FAB.
Support Avancé des Raccourcis Clavier :
Touche Fn pour la Dictée sur Pression : Ajout du support pour utiliser la touche Fn comme raccourci de dictée sur pression. Combinaisons de Touches de Modification pour le Mode Mains Libres : Implémentation du support pour les combinaisons de touches de modification uniquement (par exemple, ⌘ + ⌥) pour l'activation du mode mains libres. Configuration Flexible des Raccourcis : Amélioration du système de raccourcis pour prendre en charge à la fois les touches de modification simples et les combinaisons de touches complexes.
Version 0.2.0
Transcription en direct, modèle vocal OOTB et optimisation des performances
Support de transcription en direct :
Ajout de l'affichage de transcription en direct dans le panneau HUD montrant les résultats de transcription en temps réel au fur et à mesure de leur génération. Implémentation des mises à jour de transcription en streaming qui affichent les résultats de transcription incrémentaux pendant l'enregistrement.
Modèle vocal prêt à l'emploi (OOTB) :
Implémentation d'un système de sélection de modèle vocal par défaut qui utilise automatiquement un modèle préconfiguré au premier lancement. Les utilisateurs peuvent commencer à utiliser l'application immédiatement sans attendre le téléchargement des modèles, offrant une première expérience sans friction.
Optimisation des performances du microphone et du VAD :
Amélioration des performances de capture audio native avec une meilleure gestion des ressources et une latence réduite. Minimisation de la latence de traitement audio pour des temps de réponse de transcription plus rapides.
Optimisation de l'UI de la barre latérale et de l'en-tête :
Amélioration de la conception de la barre latérale avec une meilleure hiérarchie visuelle et des animations de repli/déploiement plus fluides. Amélioration de l'en-tête de page avec un sélecteur de dispositif microphone intégré et un commutateur de thème pour un accès rapide. Raffinement des composants UI avec un meilleur espacement, une typographie et une cohérence visuelle dans toute l'application.
Version 0.1.8
Audio Model Testing, HUD Enhancements & LLM Streaming
Audio Model Testing:
Added support to test audio models directly within the application. Users can now verify model performance and accuracy before using in production workflows.
HUD Panel Enhancements:
Added live audio waveform display in the HUD panel for visual feedback during recording. Implemented one-click copy functionality to quickly copy transcription content from the HUD panel. Enhanced HUD panel to show real-time transcription results directly in the panel interface.
LLM Streaming Support:
Added support to display LLM streaming responses in real-time. Users can now see LLM responses as they are generated, improving interaction feedback.
Manual Update Check:
Added manual update check functionality accessible from the sidebar. Users can now manually trigger update checks without waiting for automatic notifications.
Audio Device Detection Performance:
Improved performance and responsiveness of audio device detection. Reduced latency when scanning and listing available audio input devices. Optimized device detection to minimize system resource usage.
Microphone Settings Page Refactoring:
Refactored microphone settings page with better organization and user experience. Streamlined interface for selecting and configuring microphone devices. Improved visual design and information architecture for easier navigation.
Version 0.1.7
Google Sign-In & Always-On-Top HUD Panel
Google Account Sign-In Support:
Implemented Google OAuth authentication flow with secure code exchange for seamless account integration.
Always-On-Top HUD Panel:
Introduced a fully draggable HUD strip that can be repositioned anywhere on screen with elegant semi-transparent design that blends seamlessly with desktop content. The collapsible panel design features smooth expand/collapse animations, adjustable window sizes (Small, Medium, Large) for different use cases, and real-time opacity adjustment slider for customizing panel transparency. The non-activating design ensures the panel does not steal focus from other applications, maintaining workflow continuity.
HUD Light/Dark Theme Readability:
Comprehensive Light/Dark theme support for all HUD components ensuring optimal visibility and readability across different system themes.
Floating Action Button (FAB):
The Floating Action Button has been deprecated in favor of the new HUD panel. All FAB functionality has been integrated into the HUD panel with improved accessibility and features. The HUD panel provides a more native macOS experience with always-on-top capability and better visibility.
Version 0.1.6
Support Vocabulary & Recording Metadata Upgrades
Vocabulary & Misspelling Toolkit:
Customize domain-specific terminology lists and casing rules for precise transcriptions. Define common misspellings with automatic correction to reduce manual cleanup.
Recording History Metadata:
Capture and display sessionId, requestId, and the associated preset for faster troubleshooting. Include the new metadata fields in exports to support downstream analytics.
Version 0.1.5
User Profiles, Diagnostics & Header Experience
User Profile Management:
Introduced full profile display on the Profile page with name, gender, birth year, and profession details plus an editable form under Settings > Account.
User Avatar Enhancement:
Refined the avatar dropdown to highlight the full name with improved typography for clearer identity cues.
Profile Data Synchronization:
Added real-time loading and saving with consistent loading indicators and robust error handling.
Signed App Permission Validation:
Hardened notarized build entitlement checks with actionable error messaging and telemetry for signature failures.
Panic Hook Diagnostics:
Expanded the panic hook to capture structured stack traces and thread metadata while surfacing crash summaries and auto-restarting background workers.
Contextual Metadata Collection:
Gathered richer runtime context—including foreground app, OS build, and hardware model—to improve crash and feedback payload quality.
Header Layout Improvements:
Added a microphone selector and integrated theme switcher directly into the header for faster access.
Settings Page Refinements:
Added a birth-year dropdown, richer profession options, and unified loading indicators across Profile and Settings.
Version 0.1.4
Search Functionality & Data Synchronization Improvements
New Record Searchability:
Fixed issue where newly added voice records were not searchable due to missing user_id filtering in search queries.
User ID Synchronization:
Enhanced user_id parsing and storage from JWT access tokens to ensure proper record association.
Search Query Optimization:
Improved search logic to correctly handle records with NULL user_id values while maintaining backward compatibility.
Orphaned Record Cleanup:
Enhanced resync and reindex logic to automatically detect and remove orphaned database records that no longer have corresponding files.
Cross-User Cleanup:
Improved orphan cleanup to handle both authenticated and anonymous user records during synchronization.
User ID Recovery:
Added automatic user_id recovery for records that were incorrectly stored with NULL values by analyzing file system paths.
Path Management Refactoring:
Separated directory path retrieval from directory creation to prevent unintended directory creation during deletion operations.
Version 0.1.3
Enhanced User Experience & Advanced Search Capabilities
Processing Flow Visualization:
Added visual processing flow display when using modes, showing the complete pipeline from speech input to LLM processing or text output.
Enhanced Mode Editing:
Implemented comprehensive mode detail editing with click-to-edit functionality, allowing users to modify preset settings, voice models, LLM configurations, and advanced options.
Full-Text Search:
Implemented comprehensive full-text search across recording history, supporting search in transcriptions, titles, and LLM-generated content.
Performance Optimization:
Enhanced search performance with optimized query execution.
Advanced Filtering:
Added status-based filtering (completed, processing, error) with filter application.
History Re-indexing:
Added manual re-indexing functionality to rebuild search indexes and sync file system records with database.
Infinite Scroll:
Implemented seamless infinite scrolling for recording history with automatic pagination, reducing initial load time and improving user experience for large datasets.
Dock Icon:
Updated macOS Dock icon with new design and improved visual consistency.
System Tray Icon:
Enhanced system tray icon with better visibility and template support.
High-Resolution Assets:
Included @2x and @3x variants for Retina displays and various screen densities.
Version 0.1.2
Enhanced Infrastructure & System-wide Integration
Mirror Support:
Added alternative download mirrors for improved reliability and speed.
Faster Downloads:
Optimized download performance with multiple mirror sources.
Better Availability:
Reduced download failures with redundant mirror support.
Complete Model Catalog:
Full access to all CyberWhisper Cloud models through REST API.
Dynamic Model Loading:
Real-time model list fetching from CyberWhisper Cloud API.
Enhanced Model Selection:
Support for 6+ models including CyberWhisper Fast (ultra-fast response model for real-time conversations), CyberWhisper Flash (lightning-fast model for simple tasks), GPT-5 Nano (OpenAI's latest lightweight model with balanced performance), GPT-4o Mini (efficient OpenAI model for daily tasks), DeepSeek V3.1 (advanced reasoning capabilities with latest DeepSeek technology), and Gemini 2.5 Flash Lite (Google's ultra-fast lightweight model for real-time applications).
Mode Selection:
Quick mode switching directly from system tray.
Microphone Management:
Easy microphone device selection from tray menu.
System-wide Access:
Control CyberWhisper from anywhere in your system.
Quick Actions:
Essential functions accessible without opening the main window.
Version 0.1.1
Command Palette & Global Shortcuts
Smart Mode Search:
Search and activate modes using intelligent keyword matching.
Multi-criteria Filtering:
Find modes by preset names, voice models, LLM models, or descriptions.
Detailed Mode Information:
Display comprehensive mode details including preset, voice model, LLM model, input/output languages, and feature settings.
Global Shortcut Access:
Open Command Palette from anywhere with ⌘ + ⇧ + K.
Fuzzy Search:
Intelligent search that matches partial keywords and related terms.
Real-time Filtering:
Instant results as you type with live mode filtering.
Visual Mode Status:
Clear indication of active vs inactive modes with status badges.
Keyboard Navigation:
Full keyboard support with arrow keys and Enter to activate.
Added support for customizable global keyboard shortcuts.
Toggle recording with customizable shortcut (default: ⌥ + N).
Cancel Recording:
Cancel ongoing recording with Esc key.
Change Mode:
Quick mode switching with global shortcut (default: ⌘ + ⇧ + K). Shortcuts work system-wide, even when the app is not in focus. Fallback shortcut registration for better compatibility across different systems.
Version 0.1.0
Download Base Speech Models, Modes & Presets, and History Viewer
Download Base Speech Models
Support for downloading and running basic on-device speech-to-text models. This feature enables offline transcription capabilities and improved privacy for users who prefer to keep their audio data local.
Modes & Presets
Introduced Presets for Voice to Text and Message workflows, making it easier to configure transcription and usage modes. Users can now quickly switch between different processing modes without manual configuration.
History Viewer
Access and review your past transcriptions and interactions directly within the app. The History Viewer provides a comprehensive timeline of all your speech-to-text activities, making it easy to find and reference previous work.