更新日志

Version 0.2.2

按说即录模式、免提模式与混合快捷键管理器

按说即录模式:

按下录音,松开转录:实现了按说即录模式,按下按键时开始录音,松开时转录完整音频。完整音频转录:松开时对整个录制片段进行完整转录,确保语义完整性和上下文保留。自动文本选择:在松开按键时自动捕获并插入选中的文本,实现无缝的文本替换工作流。最小按下时长:可配置的最小按下时长(默认 150ms),防止意外激活。短录音音频填充:自动填充非常短的音频片段,确保准确转录,类似于专业听写工具。

免提模式:

持续监听:启用持续音频监控,具有自动分段和实时转录功能。智能自动分段:自动检测 500ms 静音期,将语音分段为有意义的块进行转录。实时流式转录:每个片段完成时立即提供转录结果,实现实时对话捕获。修饰键激活:支持仅修饰键组合(例如 ⌘ + ⌥),无需额外按键即可快速激活免提模式。

混合快捷键管理器:

Fn 键支持:通过原生 CGEventTap 监控添加了使用 Fn 键作为按说即录快捷键的支持。仅修饰键组合:启用了仅修饰键组合(例如 ⌘ + ⌥),用于免提模式激活,无需额外按键。

模态对话框状态管理:

改进了设置模态对话框的状态管理,确保所有配置界面的一致行为和更好的用户体验。

Version 0.2.1

新应用图标、启动页面与词典功能

新应用图标:

更新视觉标识:实现了新的应用图标设计,具有改进的视觉一致性。增强品牌识别:在所有系统位置(包括 Dock、菜单栏和系统偏好设置)更新了图标。

启动页面与入门导览:

首次用户体验:为新用户添加了启动页面和全面的入门导览。引导设置流程:逐步介绍关键功能和特性。改进用户入门:通过交互式教程增强了初始用户体验。

侧边栏词典功能:

统一词典访问:在侧边栏中添加了词典条目,整合了词汇表和代码片段管理。标签页界面:在词典视图中实现了标签页界面,便于在词汇表和代码片段之间切换。简化导航:通过将相关功能分组,简化了侧边栏导航。

浮动操作按钮 (FAB) UI:

UI 转换:切换到基于 FAB 的用户界面,以改善可访问性和工作流程。增强交互:通过 FAB 设计改进了用户交互模式。

高级键盘快捷键支持:

Fn 键用于按说即录:添加了使用 Fn 键作为按说即录快捷键的支持。免提模式的修饰键组合:实现了仅修饰键组合(例如 ⌘ + ⌥)用于免提模式激活的支持。灵活的快捷键配置:增强了快捷键系统,支持单个修饰键和复杂的键组合。

Version 0.2.0

实时转录、开箱即用语音模型与性能优化

实时转录支持:

在 HUD 面板中添加实时转录显示,显示生成过程中的实时转录结果。实现了流式转录更新,在录制过程中显示增量转录结果。

开箱即用 (OOTB) 语音模型:

实现了默认语音模型选择系统,首次启动时自动使用预配置模型。用户无需等待模型下载即可立即开始使用应用程序,提供无缝的首次体验。

麦克风和 VAD 性能优化:

通过更好的资源管理和降低延迟,改进了原生音频捕获性能。最小化音频处理延迟,实现更快的转录响应时间。

侧边栏和标题 UI 优化:

改进了侧边栏设计,具有更好的视觉层次和更流畅的折叠/展开动画。增强了页面标题,集成了麦克风设备选择器和主题切换器,便于快速访问。优化了 UI 组件,在整个应用程序中具有更好的间距、排版和视觉一致性。

Version 0.1.8

音频模型测试、HUD 增强与 LLM 流式传输

音频模型测试:

添加了在应用程序内直接测试音频模型的支持。用户现在可以在生产工作流中使用之前验证模型性能和准确性。

HUD 面板增强:

在 HUD 面板中添加了实时音频波形显示,用于录制期间的视觉反馈。实现了一键复制功能,可快速从 HUD 面板复制转录内容。增强了 HUD 面板,直接在面板界面中显示实时转录结果。

LLM 流式传输支持:

添加了实时显示 LLM 流式响应的支持。用户现在可以在生成时看到 LLM 响应,改善交互反馈。

手动更新检查:

添加了可从侧边栏访问的手动更新检查功能。用户现在可以手动触发更新检查,而无需等待自动通知。

音频设备检测性能:

改进了音频设备检测的性能和响应速度。减少了扫描和列出可用音频输入设备时的延迟。优化了设备检测,以最小化系统资源使用。

麦克风设置页面重构:

重构了麦克风设置页面,具有更好的组织结构和用户体验。简化了选择和配置麦克风设备的界面。改进了视觉设计和信息架构,便于导航。

Version 0.1.7

Google 登录与始终置顶 HUD 面板

Google 账户登录支持:

实现了 Google OAuth 认证流程,通过安全代码交换实现无缝账户集成。

始终置顶 HUD 面板:

引入了完全可拖动的 HUD 条,可在屏幕上任意位置重新定位,采用优雅的半透明设计,与桌面内容无缝融合。可折叠面板设计具有流畅的展开/折叠动画,可调整窗口大小(小、中、大)以适应不同用例,以及实时不透明度调整滑块以自定义面板透明度。非激活设计确保面板不会从其他应用程序窃取焦点,保持工作流连续性。

HUD 明暗主题可读性:

为所有 HUD 组件提供全面的明暗主题支持,确保在不同系统主题下的最佳可见性和可读性。

浮动操作按钮 (FAB):

浮动操作按钮已被弃用,转而使用新的 HUD 面板。所有 FAB 功能已集成到 HUD 面板中,具有改进的可访问性和功能。HUD 面板提供更原生的 macOS 体验,具有始终置顶功能和更好的可见性。

Version 0.1.6

支持词汇表与录制元数据升级

词汇表与拼写错误工具包:

自定义特定领域的术语列表和大小写规则,以实现精确转录。定义常见拼写错误,自动纠正以减少手动清理。

录制历史元数据:

捕获并显示 sessionId、requestId 以及关联的预设,以便更快地进行故障排除。在导出中包含新的元数据字段,以支持下游分析。

Version 0.1.5

用户资料、诊断与标题体验

用户资料管理:

在资料页面上引入了完整的资料显示,包括姓名、性别、出生年份和职业详细信息,以及在设置 > 账户下的可编辑表单。

用户头像增强:

改进了头像下拉菜单,突出显示全名,具有改进的排版,提供更清晰的身份提示。

资料数据同步:

添加了实时加载和保存功能,具有一致的加载指示器和强大的错误处理。

签名应用权限验证:

加强了公证构建权限检查,提供可操作的错误消息和签名失败的遥测。

Panic Hook 诊断:

扩展了 panic hook 以捕获结构化堆栈跟踪和线程元数据,同时显示崩溃摘要并自动重启后台工作程序。

上下文元数据收集:

收集更丰富的运行时上下文(包括前台应用、操作系统构建和硬件型号),以改善崩溃和反馈负载质量。

标题布局改进:

在标题中直接添加了麦克风选择器和集成的主题切换器,便于快速访问。

设置页面改进:

添加了出生年份下拉菜单、更丰富的职业选项,以及在资料和设置中统一的加载指示器。

Version 0.1.4

搜索功能与数据同步改进

新记录可搜索性:

修复了新添加的语音记录由于搜索查询中缺少 user_id 过滤而无法搜索的问题。

用户 ID 同步:

增强了从 JWT 访问令牌解析和存储 user_id,以确保正确的记录关联。

搜索查询优化:

改进了搜索逻辑,以正确处理具有 NULL user_id 值的记录,同时保持向后兼容性。

孤立记录清理:

增强了重新同步和重新索引逻辑,以自动检测和删除不再有对应文件的孤立数据库记录。

跨用户清理:

改进了孤立清理,以在同步期间处理经过身份验证和匿名的用户记录。

用户 ID 恢复:

添加了自动 user_id 恢复功能,通过分析文件系统路径来恢复错误存储为 NULL 值的记录。

路径管理重构:

将目录路径检索与目录创建分离,以防止在删除操作期间意外创建目录。

Version 0.1.3

增强用户体验与高级搜索功能

处理流程可视化:

添加了使用模式时的视觉处理流程显示,显示从语音输入到 LLM 处理或文本输出的完整管道。

增强的模式编辑:

实现了全面的模式详细编辑,具有点击编辑功能,允许用户修改预设设置、语音模型、LLM 配置和高级选项。

全文搜索:

实现了跨录制历史的全面全文搜索,支持在转录、标题和 LLM 生成的内容中搜索。

性能优化:

通过优化的查询执行增强了搜索性能。

高级过滤:

添加了基于状态的过滤(已完成、处理中、错误)以及过滤器应用。

历史重新索引:

添加了手动重新索引功能,以重建搜索索引并将文件系统记录与数据库同步。

无限滚动:

为录制历史实现了无缝无限滚动,具有自动分页功能,减少了初始加载时间,改善了大数据集的用户体验。

Dock 图标:

更新了 macOS Dock 图标,采用新设计并改进了视觉一致性。

系统托盘图标:

增强了系统托盘图标,具有更好的可见性和模板支持。

高分辨率资源:

包含 @2x 和 @3x 变体,适用于 Retina 显示器和各种屏幕密度。

Version 0.1.2

增强基础设施与系统级集成

镜像支持:

添加了替代下载镜像,以提高可靠性和速度。

更快的下载:

通过多个镜像源优化了下载性能。

更好的可用性:

通过冗余镜像支持减少了下载失败。

完整模型目录:

通过 REST API 完全访问所有 CyberWhisper Cloud 模型。

动态模型加载:

从 CyberWhisper Cloud API 实时获取模型列表。

增强模型选择:

支持 6+ 模型,包括 CyberWhisper Fast(用于实时对话的超快响应模型)、CyberWhisper Flash(用于简单任务的闪电快速模型)、GPT-5 Nano(OpenAI 最新的轻量级模型,性能平衡)、GPT-4o Mini(用于日常任务的高效 OpenAI 模型)、DeepSeek V3.1(具有最新 DeepSeek 技术的高级推理能力)和 Gemini 2.5 Flash Lite(Google 的超快轻量级模型,用于实时应用)。

模式选择:

直接从系统托盘快速切换模式。

麦克风管理:

从托盘菜单轻松选择麦克风设备。

系统级访问:

从系统的任何位置控制 CyberWhisper。

快速操作:

无需打开主窗口即可访问基本功能。

Version 0.1.1

命令面板与全局快捷键

智能模式搜索:

使用智能关键字匹配搜索和激活模式。

多条件过滤:

通过预设名称、语音模型、LLM 模型或描述查找模式。

详细模式信息:

显示全面的模式详细信息,包括预设、语音模型、LLM 模型、输入/输出语言和功能设置。

全局快捷键访问:

从任何位置使用 ⌘ + ⇧ + K 打开命令面板。

模糊搜索:

智能搜索,匹配部分关键字和相关术语。

实时过滤:

在输入时即时显示结果,具有实时模式过滤。

视觉模式状态:

通过状态徽章清晰指示活动与非活动模式。

键盘导航:

完整的键盘支持,使用箭头键和 Enter 键激活。

添加了可自定义全局键盘快捷键的支持。

使用可自定义快捷键切换录制(默认:⌥ + N)。

取消录制:

使用 Esc 键取消正在进行的录制。

更改模式:

使用全局快捷键快速切换模式(默认:⌘ + ⇧ + K)。快捷键在整个系统中工作,即使应用程序不在焦点中。回退快捷键注册,以在不同系统之间获得更好的兼容性。

Version 0.1.0

下载基础语音模型、模式与预设和历史查看器

下载基础语音模型

支持下载和运行基本的设备端语音转文本模型。此功能为希望将音频数据保留在本地用户提供离线转录功能和改进的隐私保护。

模式与预设

为语音转文本和消息工作流引入了预设,使配置转录和使用模式变得更加容易。用户现在可以在不同的处理模式之间快速切换,而无需手动配置。

历史查看器

直接在应用程序中访问和查看您过去的转录和交互。历史查看器提供了所有语音转文本活动的全面时间线,使查找和参考以前的工作变得容易。