更新日誌
Version 0.2.2
按說即錄模式、免提模式與混合快捷鍵管理器
按說即錄模式:
按下錄音,鬆開轉錄:實現了按說即錄模式,按下按鍵時開始錄音,鬆開時轉錄完整音訊。完整音訊轉錄:鬆開時對整個錄製片段進行完整轉錄,確保語義完整性和上下文保留。自動文字選擇:在鬆開按鍵時自動擷取並插入選中的文字,實現無縫的文字替換工作流程。最小按下時長:可設定的最小按下時長(預設 150ms),防止意外啟動。短錄音音訊填充:自動填充非常短的音訊片段,確保準確轉錄,類似於專業聽寫工具。
免提模式:
持續監聽:啟用持續音訊監控,具有自動分段和即時轉錄功能。智慧自動分段:自動偵測 500ms 靜音期,將語音分段為有意義的區塊進行轉錄。即時串流轉錄:每個片段完成時立即提供轉錄結果,實現即時對話擷取。修飾鍵啟動:支援僅修飾鍵組合(例如 ⌘ + ⌥),無需額外按鍵即可快速啟動免提模式。
混合快捷鍵管理器:
Fn 鍵支援:透過原生 CGEventTap 監控新增了使用 Fn 鍵作為按說即錄快捷鍵的支援。僅修飾鍵組合:啟用了僅修飾鍵組合(例如 ⌘ + ⌥),用於免提模式啟動,無需額外按鍵。
模態對話框狀態管理:
改進了設定模態對話框的狀態管理,確保所有設定介面的一致行為和更好的使用者體驗。
Version 0.2.1
新應用程式圖示、啟動頁面與詞典功能
新應用程式圖示:
更新視覺識別:實現了新的應用程式圖示設計,具有改進的視覺一致性。增強品牌識別:在所有系統位置(包括 Dock、選單列和系統偏好設定)更新了圖示。
啟動頁面與入門導覽:
首次使用者體驗:為新使用者新增了啟動頁面和全面的入門導覽。引導設定流程:逐步介紹關鍵功能和特性。改進使用者入門:透過互動式教學增強了初始使用者體驗。
側邊欄詞典功能:
統一詞典存取:在側邊欄中新增了詞典項目,整合了詞彙表和程式碼片段管理。標籤頁介面:在詞典視圖中實現了標籤頁介面,便於在詞彙表和程式碼片段之間切換。簡化導航:透過將相關功能分組,簡化了側邊欄導航。
浮動操作按鈕 (FAB) UI:
UI 轉換:切換到基於 FAB 的使用者介面,以改善可存取性和工作流程。增強互動:透過 FAB 設計改進了使用者互動模式。
進階鍵盤快捷鍵支援:
Fn 鍵用於按說即錄:新增了使用 Fn 鍵作為按說即錄快捷鍵的支援。免提模式的修飾鍵組合:實現了僅修飾鍵組合(例如 ⌘ + ⌥)用於免提模式啟動的支援。靈活的快捷鍵設定:增強了快捷鍵系統,支援單個修飾鍵和複雜的鍵組合。
Version 0.2.0
即時轉錄、開箱即用語音模型與效能優化
即時轉錄支援:
在 HUD 面板中新增即時轉錄顯示,顯示生成過程中的即時轉錄結果。實現了串流轉錄更新,在錄製過程中顯示增量轉錄結果。
開箱即用 (OOTB) 語音模型:
實現了預設語音模型選擇系統,首次啟動時自動使用預設模型。使用者無需等待模型下載即可立即開始使用應用程式,提供無縫的首次體驗。
麥克風和 VAD 效能優化:
透過更好的資源管理和降低延遲,改進了原生音訊擷取效能。最小化音訊處理延遲,實現更快的轉錄響應時間。
側邊欄和標題 UI 優化:
改進了側邊欄設計,具有更好的視覺層次和更流暢的摺疊/展開動畫。增強了頁面標題,整合了麥克風裝置選擇器和主題切換器,便於快速存取。優化了 UI 元件,在整個應用程式中具有更好的間距、排版和視覺一致性。
Version 0.1.8
音訊模型測試、HUD 增強與 LLM 串流傳輸
音訊模型測試:
新增了在應用程式內直接測試音訊模型的功能。使用者現在可以在生產工作流程中使用之前驗證模型效能和準確性。
HUD 面板增強:
在 HUD 面板中新增了即時音訊波形顯示,用於錄製期間的視覺回饋。實現了一鍵複製功能,可快速從 HUD 面板複製轉錄內容。增強了 HUD 面板,直接在面板介面中顯示即時轉錄結果。
LLM 串流傳輸支援:
新增了即時顯示 LLM 串流回應的功能。使用者現在可以在生成時看到 LLM 回應,改善互動回饋。
手動更新檢查:
新增了可從側邊欄存取的手動更新檢查功能。使用者現在可以手動觸發更新檢查,而無需等待自動通知。
音訊裝置檢測效能:
改進了音訊裝置檢測的效能和響應速度。減少了掃描和列出可用音訊輸入裝置時的延遲。優化了裝置檢測,以最小化系統資源使用。
麥克風設定頁面重構:
重構了麥克風設定頁面,具有更好的組織結構和使用者體驗。簡化了選擇和設定麥克風裝置的介面。改進了視覺設計和資訊架構,便於導航。
Version 0.1.7
Google 登入與始終置頂 HUD 面板
Google 帳戶登入支援:
實現了 Google OAuth 認證流程,透過安全程式碼交換實現無縫帳戶整合。
始終置頂 HUD 面板:
引入了完全可拖動的 HUD 條,可在螢幕上任意位置重新定位,採用優雅的半透明設計,與桌面內容無縫融合。可摺疊面板設計具有流暢的展開/摺疊動畫,可調整視窗大小(小、中、大)以適應不同用例,以及即時不透明度調整滑桿以自訂面板透明度。非啟動設計確保面板不會從其他應用程式竊取焦點,保持工作流程連續性。
HUD 明暗主題可讀性:
為所有 HUD 元件提供全面的明暗主題支援,確保在不同系統主題下的最佳可見性和可讀性。
浮動操作按鈕 (FAB):
浮動操作按鈕已被棄用,轉而使用新的 HUD 面板。所有 FAB 功能已整合到 HUD 面板中,具有改進的可存取性和功能。HUD 面板提供更原生的 macOS 體驗,具有始終置頂功能和更好的可見性。
Version 0.1.6
支援詞彙表與錄製元資料升級
詞彙表與拼寫錯誤工具包:
自訂特定領域的術語列表和大小寫規則,以實現精確轉錄。定義常見拼寫錯誤,自動糾正以減少手動清理。
錄製歷史元資料:
擷取並顯示 sessionId、requestId 以及關聯的預設,以便更快地進行故障排除。在匯出中包含新的元資料欄位,以支援下游分析。
Version 0.1.5
使用者資料、診斷與標題體驗
使用者資料管理:
在資料頁面上引入了完整的資料顯示,包括姓名、性別、出生年份和職業詳細資訊,以及在設定 > 帳戶下的可編輯表單。
使用者頭像增強:
改進了頭像下拉選單,突出顯示全名,具有改進的排版,提供更清晰的身分提示。
資料資料同步:
新增了即時載入和儲存功能,具有一致的載入指示器和強大的錯誤處理。
簽名應用程式權限驗證:
加強了公證建置權限檢查,提供可操作的錯誤訊息和簽名失敗的遙測。
Panic Hook 診斷:
擴展了 panic hook 以擷取結構化堆疊追蹤和執行緒元資料,同時顯示崩潰摘要並自動重啟後台工作程式。
上下文元資料收集:
收集更豐富的執行時上下文(包括前景應用程式、作業系統建置和硬體型號),以改善崩潰和回饋負載品質。
標題佈局改進:
在標題中直接新增了麥克風選擇器和整合的主題切換器,便於快速存取。
設定頁面改進:
新增了出生年份下拉選單、更豐富的職業選項,以及在資料和設定中統一的載入指示器。
Version 0.1.4
搜尋功能與資料同步改進
新記錄可搜尋性:
修復了新新增的語音記錄由於搜尋查詢中缺少 user_id 過濾而無法搜尋的問題。
使用者 ID 同步:
增強了從 JWT 存取權杖解析和儲存 user_id,以確保正確的記錄關聯。
搜尋查詢優化:
改進了搜尋邏輯,以正確處理具有 NULL user_id 值的記錄,同時保持向後相容性。
孤立記錄清理:
增強了重新同步和重新索引邏輯,以自動偵測和刪除不再有對應檔案的孤立資料庫記錄。
跨使用者清理:
改進了孤立清理,以在同步期間處理經過身份驗證和匿名的使用者記錄。
使用者 ID 恢復:
新增了自動 user_id 恢復功能,透過分析檔案系統路徑來恢復錯誤儲存為 NULL 值的記錄。
路徑管理重構:
將目錄路徑檢索與目錄建立分離,以防止在刪除操作期間意外建立目錄。
Version 0.1.3
增強使用者體驗與進階搜尋功能
處理流程視覺化:
新增了使用模式時的視覺處理流程顯示,顯示從語音輸入到 LLM 處理或文字輸出的完整管道。
增強的模式編輯:
實現了全面的模式詳細編輯,具有點擊編輯功能,允許使用者修改預設設定、語音模型、LLM 設定和進階選項。
全文搜尋:
實現了跨錄製歷史的全面全文搜尋,支援在轉錄、標題和 LLM 生成的內容中搜尋。
效能優化:
透過優化的查詢執行增強了搜尋效能。
進階過濾:
新增了基於狀態的過濾(已完成、處理中、錯誤)以及過濾器應用。
歷史重新索引:
新增了手動重新索引功能,以重建搜尋索引並將檔案系統記錄與資料庫同步。
無限捲動:
為錄製歷史實現了無縫無限捲動,具有自動分頁功能,減少了初始載入時間,改善了大資料集的使用者體驗。
Dock 圖示:
更新了 macOS Dock 圖示,採用新設計並改進了視覺一致性。
系統托盤圖示:
增強了系統托盤圖示,具有更好的可見性和範本支援。
高解析度資源:
包含 @2x 和 @3x 變體,適用於 Retina 顯示器和各種螢幕密度。
Version 0.1.2
增強基礎設施與系統級整合
鏡像支援:
新增了替代下載鏡像,以提高可靠性和速度。
更快的下載:
透過多個鏡像來源優化了下載效能。
更好的可用性:
透過冗餘鏡像支援減少了下載失敗。
完整模型目錄:
透過 REST API 完全存取所有 CyberWhisper Cloud 模型。
動態模型載入:
從 CyberWhisper Cloud API 即時獲取模型列表。
增強模型選擇:
支援 6+ 模型,包括 CyberWhisper Fast(用於即時對話的超快回應模型)、CyberWhisper Flash(用於簡單任務的閃電快速模型)、GPT-5 Nano(OpenAI 最新的輕量級模型,效能平衡)、GPT-4o Mini(用於日常任務的高效 OpenAI 模型)、DeepSeek V3.1(具有最新 DeepSeek 技術的進階推理能力)和 Gemini 2.5 Flash Lite(Google 的超快輕量級模型,用於即時應用程式)。
模式選擇:
直接從系統托盤快速切換模式。
麥克風管理:
從托盤選單輕鬆選擇麥克風裝置。
系統級存取:
從系統的任何位置控制 CyberWhisper。
快速操作:
無需開啟主視窗即可存取基本功能。
Version 0.1.1
命令面板與全域快捷鍵
智慧模式搜尋:
使用智慧關鍵字匹配搜尋和啟動模式。
多條件過濾:
透過預設名稱、語音模型、LLM 模型或描述查找模式。
詳細模式資訊:
顯示全面的模式詳細資訊,包括預設、語音模型、LLM 模型、輸入/輸出語言和功能設定。
全域快捷鍵存取:
從任何位置使用 ⌘ + ⇧ + K 開啟命令面板。
模糊搜尋:
智慧搜尋,匹配部分關鍵字和相關術語。
即時過濾:
在輸入時即時顯示結果,具有即時模式過濾。
視覺模式狀態:
透過狀態徽章清晰指示活動與非活動模式。
鍵盤導航:
完整的鍵盤支援,使用方向鍵和 Enter 鍵啟動。
新增了可自訂全域鍵盤快捷鍵的支援。
使用可自訂快捷鍵切換錄製(預設:⌥ + N)。
取消錄製:
使用 Esc 鍵取消正在進行的錄製。
變更模式:
使用全域快捷鍵快速切換模式(預設:⌘ + ⇧ + K)。快捷鍵在整個系統中運作,即使應用程式不在焦點中。回退快捷鍵註冊,以在不同系統之間獲得更好的相容性。
Version 0.1.0
下載基礎語音模型、模式與預設和歷史檢視器
下載基礎語音模型
支援下載和執行基本的裝置端語音轉文字模型。此功能為希望將音訊資料保留在本地的使用者提供離線轉錄功能和改進的隱私保護。
模式與預設
為語音轉文字和訊息工作流程引入了預設,使設定轉錄和使用模式變得更加容易。使用者現在可以在不同的處理模式之間快速切換,而無需手動設定。
歷史檢視器
直接在應用程式中存取和檢視您過去的轉錄和互動。歷史檢視器提供了所有語音轉文字活動的全面時間線,使查找和參考以前的工作變得容易。