Journal des modifications

Name: CyberWhisper
Author: CyberWhisper

Version 0.4.0

Corrections de bugs, améliorations UI et migration d'infrastructure

Problèmes de recherche en texte intégral :

Correction des problèmes de fonctionnalité de recherche en texte intégral pour garantir des résultats de recherche précis et fiables.

Problèmes d'affichage d'écran étendu :

Correction des problèmes d'affichage et de positionnement lors de l'utilisation de configurations d'écran étendu. Amélioration du comportement et du positionnement des fenêtres sur plusieurs écrans.

Affichage des messages d'erreur :

Correction des problèmes d'affichage et de formatage des messages d'erreur. Amélioration de la clarté des messages d'erreur et des mécanismes de retour utilisateur.

Alignement du style UI :

Mise à jour du style de l'application pour s'aligner sur la conception du site web pour une expérience de marque cohérente. Amélioration de la cohérence visuelle sur toutes les interfaces de l'application.

Recherche dans le dictionnaire et les extraits :

Implémentation d'une recherche insensible à la casse pour le vocabulaire et les extraits afin d'améliorer la facilité d'utilisation de la recherche. Les utilisateurs peuvent maintenant trouver des entrées indépendamment de la sensibilité à la casse.

Migration d'infrastructure :

Migration vers une nouvelle infrastructure pour améliorer les performances et la fiabilité.

Version 0.3.1

Icônes de la barre système, expérience d'intégration et synchronisation du dictionnaire

Icônes de mode de la barre système :

Ajout d'icônes prédéfinies (emoji) à chaque mode dans le menu "Sélectionner le mode" de la barre système pour une identification visuelle rapide. Implémentation d'un mappage d'icônes complet pour tous les types prédéfinis (voice_to_text, message, note, mail, vibe_coding, meeting, custom). Les icônes correspondent aux icônes prédéfinies utilisées dans la liste des modes pour une expérience utilisateur cohérente.

Expérience d'intégration améliorée :

Ajout d'une étape dédiée dans le flux d'intégration pour créer le premier mode. Intégration de la configuration des raccourcis clavier directement dans le processus d'intégration. Guide étape par étape pour la configuration essentielle lors de la première expérience utilisateur.

Synchronisation serveur des extraits de dictionnaire :

Implémentation de la synchronisation côté serveur pour les extraits de dictionnaire. Les extraits sont maintenant automatiquement synchronisés vers le serveur pour la sauvegarde et l'accès multi-appareils. La synchronisation fonctionne de manière transparente en arrière-plan sans interrompre le flux de travail de l'utilisateur.

Expansion des paramètres avancés :

Ajout de paramètres avancés plus granulaires pour les utilisateurs avancés. Extension de l'interface des paramètres avec des options de personnalisation supplémentaires. Amélioration de la catégorisation et de l'organisation des paramètres pour faciliter la navigation.

Expérience utilisateur de la liste des modes :

Amélioration du retour visuel avec de meilleurs indicateurs visuels et un retour d'état. Rationalisation de l'interface d'édition des modes avec des contrôles plus intuitifs et une meilleure gestion des erreurs. Correction de la visibilité de l'icône du fournisseur CyberWhisper en mode sombre en utilisant des fichiers d'icônes adaptés au thème. Garanti que toutes les icônes des fournisseurs s'affichent correctement sur les thèmes clair et sombre.

Flux de travail d'édition des modes :

Amélioration du flux de travail d'édition des modes avec une meilleure validation et un retour utilisateur. Meilleure intégration des icônes prédéfinies dans toute l'interface de gestion des modes. Amélioration de la gestion des erreurs et de la messagerie utilisateur lors de la configuration des modes.

Version 0.3.0

Préréglages Message et Note, BYOK LLM et refactorisation de l'UI des paramètres

Préréglages Message et Note :

Ajout d'un préréglage Message qui convertit les transcriptions en messages de chat concis avec des options de personnalisation du ton. Implémentation d'un préréglage Note pour résumer les transcriptions en notes structurées avec extraction des points clés.

Bring Your Own Key (BYOK) pour LLM Frontier :

Implémentation du support pour apporter votre propre clé API afin d'utiliser les modèles LLM frontier. Ajout du support pour les points de terminaison API compatibles OpenAI provenant de divers fournisseurs. Interface de gestion complète des fournisseurs pour ajouter, configurer et gérer les fournisseurs LLM personnalisés. Vérification automatique de la clé API avec des messages d'erreur détaillés pour les problèmes de connexion. Sélection et configuration flexibles du modèle pour chaque fournisseur personnalisé. Support de plusieurs fournisseurs LLM, notamment OpenAI, DeepSeek, Groq, Together AI, Perplexity et Longcat.

Refactorisation de l'UI des paramètres :

Refactorisation de l'interface des paramètres en tant que fenêtre modale pour améliorer l'expérience utilisateur. Les paramètres peuvent être consultés et configurés sans quitter l'interface principale. Ajout du support de la touche ESC pour une fermeture rapide de la modale. Amélioration de la mise en page des paramètres avec une meilleure organisation et hiérarchie visuelle. Implémentation d'animations de flou d'arrière-plan et de fondu fluides pour une présentation modale professionnelle.

Version 0.2.2

Mode Dictée sur Pression, Mode Mains Libres et Gestionnaire de Raccourcis Hybride

Mode Dictée sur Pression :

Appuyer pour Enregistrer, Relâcher pour Transcrire : Implémentation du mode dictée sur pression qui démarre l'enregistrement lorsque la touche est pressée et transcrit l'audio complet lorsqu'elle est relâchée. Transcription Audio Complète : Effectue une transcription complète de tout le segment enregistré lors du relâchement, garantissant l'exhaustivité sémantique et la préservation du contexte. Sélection Automatique de Texte : Capture et insère automatiquement le texte sélectionné lors du relâchement de la touche, permettant des flux de travail de remplacement de texte sans friction. Durée Minimale de Pression : Durée minimale de pression configurable (par défaut 150ms) pour éviter les activations accidentelles. Remplissage Audio pour Enregistrements Courts : Remplit automatiquement les segments audio très courts pour assurer une transcription précise, similaire aux outils de dictée professionnels.

Mode Mains Libres :

Écoute Continue : Active la surveillance audio continue avec segmentation automatique et transcription en temps réel. Segmentation Automatique Intelligente : Détecte automatiquement les périodes de silence de 500ms pour segmenter la parole en morceaux significatifs pour la transcription. Transcription en Streaming en Temps Réel : Fournit des résultats de transcription immédiats à la fin de chaque segment, permettant la capture de conversation en direct. Activation par Touches de Modification : Prend en charge les combinaisons de touches de modification uniquement (par exemple, ⌘ + ⌥) pour une activation rapide du mode mains libres sans touches supplémentaires.

Gestionnaire de Raccourcis Hybride :

Support de la Touche Fn : Ajout du support pour utiliser la touche Fn comme raccourci de dictée sur pression via la surveillance native CGEventTap. Combinaisons de Touches de Modification Uniquement : Activation des combinaisons de touches de modification uniquement (par exemple, ⌘ + ⌥) pour l'activation du mode mains libres sans nécessiter de touches supplémentaires.

Gestion d'État des Dialogues Modaux :

Amélioration de la gestion d'état des dialogues modaux de paramètres, garantissant un comportement cohérent et une meilleure expérience utilisateur sur toutes les interfaces de configuration.

Version 0.2.1

Nouvelle Icône d'Application, Page de Démarrage et Fonctionnalité de Dictionnaire

Nouvelle Icône d'Application :

Mise à Jour de l'Identité Visuelle : Implémentation d'un nouveau design d'icône d'application avec une cohérence visuelle améliorée. Reconnaissance de Marque Renforcée : Mise à jour de l'icône dans tous les emplacements système, y compris le Dock, la barre de menu et les préférences système.

Page de Démarrage et Tour d'Introduction :

Expérience Utilisateur Première Fois : Ajout d'une page de démarrage et d'un tour d'introduction complet pour les nouveaux utilisateurs. Processus de Configuration Guidé : Introduction étape par étape aux fonctionnalités et fonctionnalités clés. Amélioration de l'Intégration Utilisateur : Amélioration de l'expérience utilisateur initiale avec des tutoriels interactifs.

Fonctionnalité de Dictionnaire dans la Barre Latérale :

Accès au Dictionnaire Unifié : Ajout d'une entrée Dictionnaire dans la barre latérale qui consolide la gestion du Vocabulaire et des Extraits. Interface à Onglets : Implémentation d'une interface à onglets dans la vue Dictionnaire pour faciliter le basculement entre Vocabulaire et Extraits. Navigation Rationalisée : Simplification de la navigation de la barre latérale en regroupant les fonctionnalités connexes.

Interface Utilisateur de Bouton d'Action Flottant (FAB) :

Transition UI : Passage à une interface utilisateur basée sur FAB pour améliorer l'accessibilité et le flux de travail. Interaction Améliorée : Amélioration des modèles d'interaction utilisateur avec le design FAB.

Support Avancé des Raccourcis Clavier :

Touche Fn pour la Dictée sur Pression : Ajout du support pour utiliser la touche Fn comme raccourci de dictée sur pression. Combinaisons de Touches de Modification pour le Mode Mains Libres : Implémentation du support pour les combinaisons de touches de modification uniquement (par exemple, ⌘ + ⌥) pour l'activation du mode mains libres. Configuration Flexible des Raccourcis : Amélioration du système de raccourcis pour prendre en charge à la fois les touches de modification simples et les combinaisons de touches complexes.

Version 0.2.0

Transcription en direct, modèle vocal OOTB et optimisation des performances

Support de transcription en direct :

Ajout de l'affichage de transcription en direct dans le panneau HUD montrant les résultats de transcription en temps réel au fur et à mesure de leur génération. Implémentation des mises à jour de transcription en streaming qui affichent les résultats de transcription incrémentaux pendant l'enregistrement.

Modèle vocal prêt à l'emploi (OOTB) :

Implémentation d'un système de sélection de modèle vocal par défaut qui utilise automatiquement un modèle préconfiguré au premier lancement. Les utilisateurs peuvent commencer à utiliser l'application immédiatement sans attendre le téléchargement des modèles, offrant une première expérience sans friction.

Optimisation des performances du microphone et du VAD :

Amélioration des performances de capture audio native avec une meilleure gestion des ressources et une latence réduite. Minimisation de la latence de traitement audio pour des temps de réponse de transcription plus rapides.

Optimisation de l'UI de la barre latérale et de l'en-tête :

Amélioration de la conception de la barre latérale avec une meilleure hiérarchie visuelle et des animations de repli/déploiement plus fluides. Amélioration de l'en-tête de page avec un sélecteur de dispositif microphone intégré et un commutateur de thème pour un accès rapide. Raffinement des composants UI avec un meilleur espacement, une typographie et une cohérence visuelle dans toute l'application.

Version 0.1.8

Audio Model Testing, HUD Enhancements & LLM Streaming

Audio Model Testing:

Added support to test audio models directly within the application. Users can now verify model performance and accuracy before using in production workflows.

HUD Panel Enhancements:

Added live audio waveform display in the HUD panel for visual feedback during recording. Implemented one-click copy functionality to quickly copy transcription content from the HUD panel. Enhanced HUD panel to show real-time transcription results directly in the panel interface.

LLM Streaming Support:

Added support to display LLM streaming responses in real-time. Users can now see LLM responses as they are generated, improving interaction feedback.

Manual Update Check:

Added manual update check functionality accessible from the sidebar. Users can now manually trigger update checks without waiting for automatic notifications.

Audio Device Detection Performance:

Improved performance and responsiveness of audio device detection. Reduced latency when scanning and listing available audio input devices. Optimized device detection to minimize system resource usage.

Microphone Settings Page Refactoring:

Refactored microphone settings page with better organization and user experience. Streamlined interface for selecting and configuring microphone devices. Improved visual design and information architecture for easier navigation.

Version 0.1.7

Google Sign-In & Always-On-Top HUD Panel

Google Account Sign-In Support:

Implemented Google OAuth authentication flow with secure code exchange for seamless account integration.

Always-On-Top HUD Panel:

Introduced a fully draggable HUD strip that can be repositioned anywhere on screen with elegant semi-transparent design that blends seamlessly with desktop content. The collapsible panel design features smooth expand/collapse animations, adjustable window sizes (Small, Medium, Large) for different use cases, and real-time opacity adjustment slider for customizing panel transparency. The non-activating design ensures the panel does not steal focus from other applications, maintaining workflow continuity.

HUD Light/Dark Theme Readability:

Comprehensive Light/Dark theme support for all HUD components ensuring optimal visibility and readability across different system themes.

Floating Action Button (FAB):

The Floating Action Button has been deprecated in favor of the new HUD panel. All FAB functionality has been integrated into the HUD panel with improved accessibility and features. The HUD panel provides a more native macOS experience with always-on-top capability and better visibility.

Version 0.1.6

Support Vocabulary & Recording Metadata Upgrades

Vocabulary & Misspelling Toolkit:

Customize domain-specific terminology lists and casing rules for precise transcriptions. Define common misspellings with automatic correction to reduce manual cleanup.

Recording History Metadata:

Capture and display sessionId, requestId, and the associated preset for faster troubleshooting. Include the new metadata fields in exports to support downstream analytics.

Version 0.1.5

User Profiles, Diagnostics & Header Experience

User Profile Management:

Introduced full profile display on the Profile page with name, gender, birth year, and profession details plus an editable form under Settings > Account.

User Avatar Enhancement:

Refined the avatar dropdown to highlight the full name with improved typography for clearer identity cues.

Profile Data Synchronization:

Added real-time loading and saving with consistent loading indicators and robust error handling.

Signed App Permission Validation:

Hardened notarized build entitlement checks with actionable error messaging and telemetry for signature failures.

Panic Hook Diagnostics:

Expanded the panic hook to capture structured stack traces and thread metadata while surfacing crash summaries and auto-restarting background workers.

Contextual Metadata Collection:

Gathered richer runtime context—including foreground app, OS build, and hardware model—to improve crash and feedback payload quality.

Header Layout Improvements:

Added a microphone selector and integrated theme switcher directly into the header for faster access.

Settings Page Refinements:

Added a birth-year dropdown, richer profession options, and unified loading indicators across Profile and Settings.

Version 0.1.4

Search Functionality & Data Synchronization Improvements

New Record Searchability:

Fixed issue where newly added voice records were not searchable due to missing user_id filtering in search queries.

User ID Synchronization:

Enhanced user_id parsing and storage from JWT access tokens to ensure proper record association.

Search Query Optimization:

Improved search logic to correctly handle records with NULL user_id values while maintaining backward compatibility.

Orphaned Record Cleanup:

Enhanced resync and reindex logic to automatically detect and remove orphaned database records that no longer have corresponding files.

Cross-User Cleanup:

Improved orphan cleanup to handle both authenticated and anonymous user records during synchronization.

User ID Recovery:

Added automatic user_id recovery for records that were incorrectly stored with NULL values by analyzing file system paths.

Path Management Refactoring:

Separated directory path retrieval from directory creation to prevent unintended directory creation during deletion operations.

Version 0.1.3

Enhanced User Experience & Advanced Search Capabilities

Processing Flow Visualization:

Added visual processing flow display when using modes, showing the complete pipeline from speech input to LLM processing or text output.

Enhanced Mode Editing:

Implemented comprehensive mode detail editing with click-to-edit functionality, allowing users to modify preset settings, voice models, LLM configurations, and advanced options.

Full-Text Search:

Implemented comprehensive full-text search across recording history, supporting search in transcriptions, titles, and LLM-generated content.

Performance Optimization:

Enhanced search performance with optimized query execution.

Advanced Filtering:

Added status-based filtering (completed, processing, error) with filter application.

History Re-indexing:

Added manual re-indexing functionality to rebuild search indexes and sync file system records with database.

Infinite Scroll:

Implemented seamless infinite scrolling for recording history with automatic pagination, reducing initial load time and improving user experience for large datasets.

Dock Icon:

Updated macOS Dock icon with new design and improved visual consistency.

System Tray Icon:

Enhanced system tray icon with better visibility and template support.

High-Resolution Assets:

Included @2x and @3x variants for Retina displays and various screen densities.

Version 0.1.2

Enhanced Infrastructure & System-wide Integration

Mirror Support:

Added alternative download mirrors for improved reliability and speed.

Faster Downloads:

Optimized download performance with multiple mirror sources.

Better Availability:

Reduced download failures with redundant mirror support.

Complete Model Catalog:

Full access to all CyberWhisper Cloud models through REST API.

Dynamic Model Loading:

Real-time model list fetching from CyberWhisper Cloud API.

Enhanced Model Selection:

Support for 6+ models including CyberWhisper Fast (ultra-fast response model for real-time conversations), CyberWhisper Flash (lightning-fast model for simple tasks), GPT-5 Nano (OpenAI's latest lightweight model with balanced performance), GPT-4o Mini (efficient OpenAI model for daily tasks), DeepSeek V3.1 (advanced reasoning capabilities with latest DeepSeek technology), and Gemini 2.5 Flash Lite (Google's ultra-fast lightweight model for real-time applications).

Mode Selection:

Quick mode switching directly from system tray.

Microphone Management:

Easy microphone device selection from tray menu.

System-wide Access:

Control CyberWhisper from anywhere in your system.

Quick Actions:

Essential functions accessible without opening the main window.

Version 0.1.1

Command Palette & Global Shortcuts

Smart Mode Search:

Search and activate modes using intelligent keyword matching.

Multi-criteria Filtering:

Find modes by preset names, voice models, LLM models, or descriptions.

Detailed Mode Information:

Display comprehensive mode details including preset, voice model, LLM model, input/output languages, and feature settings.

Global Shortcut Access:

Open Command Palette from anywhere with ⌘ + ⇧ + K.

Fuzzy Search:

Intelligent search that matches partial keywords and related terms.

Real-time Filtering:

Instant results as you type with live mode filtering.

Visual Mode Status:

Clear indication of active vs inactive modes with status badges.

Keyboard Navigation:

Full keyboard support with arrow keys and Enter to activate.

Added support for customizable global keyboard shortcuts.

Toggle recording with customizable shortcut (default: ⌥ + N).

Cancel Recording:

Cancel ongoing recording with Esc key.

Change Mode:

Quick mode switching with global shortcut (default: ⌘ + ⇧ + K). Shortcuts work system-wide, even when the app is not in focus. Fallback shortcut registration for better compatibility across different systems.

Version 0.1.0

Download Base Speech Models, Modes & Presets, and History Viewer

Download Base Speech Models

Support for downloading and running basic on-device speech-to-text models. This feature enables offline transcription capabilities and improved privacy for users who prefer to keep their audio data local.

Modes & Presets

Introduced Presets for Voice to Text and Message workflows, making it easier to configure transcription and usage modes. Users can now quickly switch between different processing modes without manual configuration.

History Viewer

Access and review your past transcriptions and interactions directly within the app. The History Viewer provides a comprehensive timeline of all your speech-to-text activities, making it easy to find and reference previous work.