SignGemma 简介
SignGemma 是由 Google DeepMind 开发的一款AI 手语翻译模型,旨在将手语翻译成口语文本。该模型是 Gemma 系列的最新成员,专注于提高聋哑人和听障人士的无障碍沟通。SignGemma 旨在实现实时、准确的翻译,从而弥合手语使用者和非手语使用者之间的沟通障碍。
SignGemma 最新消息
- 发布: Google DeepMind 于 2025 年 5 月 27 日通过社交媒体公开宣布推出 SignGemma。
- 测试阶段: 该模型目前处于早期测试阶段,预计将在 2025 年底前正式发布.
- 开放模型: SignGemma 将会是一个开放模型,允许研究人员、开发者和无障碍倡导者直接评估和使用.
- 社区参与: Google DeepMind 正在积极邀请开发者、研究人员以及聋哑人和听障社区参与到 SignGemma 的开发和测试中来,以收集反馈并改进模型.
SignGemma 概述
SignGemma 的核心功能是将手语(特别是美国手语 ASL)翻译成口语文本。该模型具有以下几个关键特点:
- 实时翻译: SignGemma 能够实时处理手语,并提供即时的文本输出,从而实现流畅的面对面交流。
- 离线运行: SignGemma 可以在本地设备上运行,无需持续的网络连接,这对于网络连接受限地区的用户来说尤其重要.
- 隐私保护: 由于在设备本地处理数据,SignGemma 有助于保护用户隐私,避免视频数据泄露.
- 多语言支持: 虽然目前该模型主要针对美国手语和英语,但 SignGemma 具备多语言处理能力,未来有望支持更多手语.
SignGemma 历史和版本
- Gemma 系列: SignGemma 是 Google DeepMind Gemma 系列模型的最新成员.
- 开发背景: 该模型的开发是为了响应聋哑人和听障人士的需求,并利用人工智能技术提高他们的无障碍沟通能力.
- 早期版本: SignGemma 的早期版本主要针对美国手语和英语,随着开发进展,未来有望支持更多手语.
SignGemma 主要功能
- 手语识别: SignGemma 利用先进的视觉模型来捕捉和识别手势、面部表情以及身体动作.
- 实时翻译: 该模型能够实时处理识别到的手语,并将其转换为文本或语音输出.
- 本地运行: SignGemma 可以在智能手机、平板电脑和笔记本电脑等设备上本地运行,无需云端连接.
- 多语言支持(未来): 虽然目前主要针对美国手语和英语,但 SignGemma 具有多语言处理能力,未来有望支持更多手语.
SignGemma 技术细节
- Gemini Nano 框架: SignGemma 基于 Google 的 Gemini Nano 框架构建,具有强大的计算能力和效率.
- 视觉变换器: 该模型采用视觉变换器来处理手语的视觉信息,包括手势、面部表情等.
- 训练数据: SignGemma 在超过 10,000 小时的标注美国手语视频和对应的英语文本上进行了训练.
SignGemma 应用场景
- 聋哑人与听力正常人交流: SignGemma 可以作为聋哑人与听力正常人交流的桥梁,使他们能够更好地沟通和互动.
- 教育: 该模型可以帮助聋哑学生更好地参与课堂学习,并与老师和同学进行交流.
- 工作场所: SignGemma 可以提高聋哑员工在工作场所的无障碍沟通,促进他们的职业发展.
- 公共服务: 该模型可以帮助聋哑人在各种公共服务场景中更好地与工作人员沟通,例如在医院、银行等。
SignGemma 内测申请
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END
暂无评论内容