【AI 应用】Memo AI 本地快速高效整理会议及课堂录像
本文最后更新于 2024-06-04,文章内容可能已经过时。
广告:本站已与 Memo AI 官网达成合作,可享受官网折扣价购买。【商店链接】
本站提供外币代付服务(ChatGPT Plus/Team/API、Claude 等代充)
本站提供 API 中转服务:ZetaTechs API(ChatGPT、Claude、Gemini、MidJourney绘图等)
最近发现了一个超实用的,可以快速整理和复盘会议和课程的录音及录像的软件:Memo AI。
Memo AI 官网:https://memo.ac/
注意:Memo AI处于测试阶段,本文内容编辑于2023年12月9日,具体信息请以官网为准。
从首页介绍可以看出这个软件的主要功能是视频音频相关的,在学习方面用得上的有视频转文字、翻译、笔记、实时字幕、AI摘要和思维导图这几个。
这个软件可以给视频转写成文字,输出字幕,并总结视频内容,做成思维导图。本地处理,AI模型下载好以后,可以不联网处理。
(插播一句,目前思维导图还需要联网。但是我咨询了作者,他们的目标是所有东西全本地,保证隐私,也就是说以后的版本可以使用本地大语言模型。)
我试了一下,英语的准确率很高。然后搭配免费的微软或谷歌翻译,或者多种AI模型进行翻译,都能取得很好的效果(如头图和视频所示)。
Memo AI 现在是在内测阶段,开发者是中国人,可以在官网免费申请内测码试用,具体信息可以看文章最后,我们先介绍功能。
1、主要功能
Memo AI支持Windows和MacOS双平台,音频转文字使用的是Whisper模型本地处理,可以CPU或者GPU,不过建议还是用GPU吧……
1.1、Memo AI 首页
Memo AI的UI我还是很喜欢的,功能区简洁明了。音视频转写功能可以直接在首页开始(录制和播客剪辑还在开发中,暂不可用,期待)。
左边是工具栏:
默认工作区是MemoAI,点击可以管理或创建新的,主要是管理一下工程文件存在哪里,默认的设置就可以用了。
1.2、媒体
媒体区可以直接查看所有任务并直接播放,视频和音频都能查看:
1.3、设置
开始转写音视频之前我们要先设置一下AI模型这些参数,本文没有另外说明的参数使用默认即可:
1.3.1、翻译设置:
这里可以添加联网的AI模型API Key,比如我用的是OpenAI官网的Key,直接去官网获取然后填入就行了。第三方中转的按第三方要求填写。
同时还支持智谱AI和文心一言这两个国产AI,以及各种主流的翻译软件,微软和谷歌这两个的内置的,不需要另外设置。
设置好以后可以先测试一下看有没有成功。
1.3.2、第三方集成
可以使用火山语音合成和导出笔记到其他平台,后面的问号可以点击查看教程,这里就不多赘述了,不是我们关注的重点,可不填。
1.3.3、模型管理(重点)
模型管理是必须要设置的,Memo AI用的是OpenAI开源的Whisper模型(https://github.com/openai/whisper),具体各个版本的区别可见链接中的对比,我们只要知道Large-v3是最强的就行了。
我自己用的是Large,不过实际用下来觉得Medium其实也够用,如果配置不够高的同学可以用Medium。
模型的性能软件里也以及注明了,如果处理纯英文的音频建议用仅支持英语的模型,效果会更好些,不过Large-v3目前尚未支持,可以选v2。
1.3.4、实验室(重点)
实验室功能里记得把转写检测语音活动
打开,不开会出现转写出无意义文字的情况:
RSS功能打开后,首页左边的侧边栏会多出一个订阅功能,可以添加YouTube或Podcast的博主主页(需要自行设置网络支持),点开订阅音视频,右上角有个复制链接,可以直接粘贴到首页进行转写:
1.4、开始转写
设置好以后就可以开始转写了,回到首页,点击选择一个本地媒体文件即可开始转写。
或者在左侧功能区—Personal—➕—批量添加任务。
这里先用直接转写演示。
1.4.1、转写设置
语言建议手动选择,否则有可能出现原文件语言为日语,输出英语翻译的情况(我真遇到了)。
质量看自己情况选择,上面介绍了各种模型的区别。
启用GPU加速:这个不用说明了吧。
提示词默认没填,转写出来的效果已经很好了。这个提示词是指Whisper模型的提示词,具体设置可以看官方文档:Guide for Using Prompt Words in MemoAI | Memo
我们可以告诉AI这个视频或录音是关于什么内容的,涉及了什么专业词汇,这样准确率会更高。
参考提示词:
请忽略背景音乐,抄写字幕,并加上句号。
Please ignore the background music and transcribe the subtitles, and add a period.
字幕的单句最大长度可以自行设置,一般来说,每分钟字幕的字数推荐在120到160字之间,较小或分辨率较低的屏幕可能需要更短的字幕以便清晰显示,有些语言可能比其他语言更紧凑或更啰嗦。例如,西班牙语的字幕可能需要比英语更多的空间,因为它通常会占用更多的字符。一个常见的规则是每行字幕不超过70个字符。
不过我实际用下来觉得也可以用默认设置,不用更改,有更多需求的可以参照上面的说明进行调整。
已有字幕可以直接提供,Memo AI可以直接翻译和转语音,我们这里就不演示了。
1.4.2、开始转写
点击转写后就会开始转写,一般需要半分钟左右的备份和转码准备时间,没有立即开始不要着急。直接转写可以即时查看生成的字幕,跟AI对话一样是一句句生成的:
1.4.3、字幕翻译+文字转语音
转写好后右上角功能区可以进行字幕翻译,也可以对已有字幕转为语音(TTS)。
1.4.4、字幕编辑
视频下方的功能区可以设置字幕样式。
右侧字幕区可以直接编辑字幕
点击字幕左边的时间可以快速跳转
字幕时间轴手动调整
自动识别的字幕有可能会有些微的时间轴对不上,其实自己看也够用了,不过Memo AI也提供了手动调整的方法:
1.4.5、文件导出
字幕和音视频可以直接导出:
1.4.6、音频/视频内容总结+思维导图
转写完成后可以对音视频文件内容进行总结和生成思维导图,便于快速回顾会议或课堂内容。
此外还能添加笔记,这些就不细说了。
1.4.7、Personal功能区(分类+批量处理)
这里可以分类和批量整理你的文件,不至于堆在主页乱糟糟的。
直接转写可以即时查看生成的字幕,批量转写需要等任务完成才能查看。
其他功能和直接转写是一样的。
不过这里可以直接设置好所有参数,有一次性批量处理的需求可以在这里操作。
2、有意思的玩法
除了正经的会议记录和课堂记录这些用法,其实Memo AI还能帮我们给冷门的电影电视生成字幕,假如我们找不到字幕,就可以用它来凑合一下。
记得用下面这个提示词,忽略背景声音:
Please ignore the background sounds and transcribe the subtitles.
2.1、电影&电视
比如我试着给一部1953年的82分钟长度的电影生成字幕并翻译,出来的质量很不错:
2.2、播客&有声书
此外还能转写播客和有声书,我试着给诡秘之主转写了几集,准确率同样很高:
3、全功能免费试用 & 购买方式
注意:2023年12月9日编辑
Memo AI 现在是在内测阶段,可以免费申请内测码试用,我试了一下,是全功能的,Pro版的功能也能通过免费测试码使用:
也可以购买早鸟版,支持开发者(中国人),现在早鸟是五折优惠,用教育邮箱发送邮件给官方可在早鸟优惠的基础上再申请6折码:
(另外插一句,我在官网支付的时候遇到了问题,用英国发行的实体卡也不能支付。建议有或者没有同样问题的同学,都可以通过官网给的微信号直接联系开发者,会有惊喜。)