本文最后更新于 2024-06-04,文章内容可能已经过时。

​​2023-12-09T22:56:55.825763068-acobldhm.png​​

最近发现了一个超实用的,可以快速整理和复盘会议和课程的录音及录像的软件:Memo AI。

Memo AI 官网:https://memo.ac/

2023-12-09T22:56:54.344482433-hghgjjlb.png

注意:Memo AI处于测试阶段,本文内容编辑于2023年12月9日,具体信息请以官网为准。

从首页介绍可以看出这个软件的主要功能是视频音频相关的,在学习方面用得上的有视频转文字、翻译、笔记、实时字幕、AI摘要和思维导图这几个。

这个软件可以给视频转写成文字,输出字幕,并总结视频内容,做成思维导图。本地处理,AI模型下载好以后,可以不联网处理。

(插播一句,目前思维导图还需要联网。但是我咨询了作者,他们的目标是所有东西全本地,保证隐私,也就是说以后的版本可以使用本地大语言模型。)

我试了一下,英语的准确率很高。然后搭配免费的微软或谷歌翻译,或者多种AI模型进行翻译,都能取得很好的效果(如头图和视频所示)。

Memo AI 现在是在内测阶段,开发者是中国人,可以在官网免费申请内测码试用,具体信息可以看文章最后,我们先介绍功能。

1、主要功能

Memo AI支持Windows和MacOS双平台,音频转文字使用的是Whisper模型本地处理,可以CPU或者GPU,不过建议还是用GPU吧……

2023-12-09T22:56:58.124879141-msaepsvk.png

1.1、Memo AI 首页

2023-12-09T22:56:58.550915267-fpsxpxzh.png

Memo AI的UI我还是很喜欢的,功能区简洁明了。音视频转写功能可以直接在首页开始(录制和播客剪辑还在开发中,暂不可用,期待)。

左边是工具栏:

2023-12-09T22:57:00.129591295-ipliurks.png

默认工作区是MemoAI,点击可以管理或创建新的,主要是管理一下工程文件存在哪里,默认的设置就可以用了。

2023-12-09T22:56:58.570980758-ehwhlmhy.png

2023-12-09T22:56:59.025749410-anuiiunb.png

1.2、媒体

媒体区可以直接查看所有任务并直接播放,视频和音频都能查看:

2023-12-09T22:56:56.504189753-oxqreunq.png

1.3、设置

开始转写音视频之前我们要先设置一下AI模型这些参数,本文没有另外说明的参数使用默认即可:

1.3.1、翻译设置:

这里可以添加联网的AI模型API Key,比如我用的是OpenAI官网的Key,直接去官网获取然后填入就行了。第三方中转的按第三方要求填写。

同时还支持智谱AI和文心一言这两个国产AI,以及各种主流的翻译软件,微软和谷歌这两个的内置的,不需要另外设置。

设置好以后可以先测试一下看有没有成功。

​​2023-12-09T22:57:00.693835283-nskutzzw.png​​

1.3.2、第三方集成

可以使用火山语音合成和导出笔记到其他平台,后面的问号可以点击查看教程,这里就不多赘述了,不是我们关注的重点,可不填。

2023-12-09T22:57:01.162835696-lbquuslu.png

1.3.3、模型管理(重点)

模型管理是必须要设置的,Memo AI用的是OpenAI开源的Whisper模型(https://github.com/openai/whisper),具体各个版本的区别可见链接中的对比,我们只要知道Large-v3是最强的就行了。

我自己用的是Large,不过实际用下来觉得Medium其实也够用,如果配置不够高的同学可以用Medium。

2023-12-09T22:57:01.705884023-wadvqjre.png

模型的性能软件里也以及注明了,如果处理纯英文的音频建议用仅支持英语的模型,效果会更好些,不过Large-v3目前尚未支持,可以选v2。

2023-12-09T22:57:01.957062052-sydncpes.png

1.3.4、实验室(重点)

实验室功能里记得把转写检测语音活动​打开,不开会出现转写出无意义文字的情况:

2023-12-09T22:57:01.940550551-wnbgqrzy.png

RSS功能打开后,首页左边的侧边栏会多出一个订阅功能,可以添加YouTube或Podcast的博主主页(需要自行设置网络支持),点开订阅音视频,右上角有个复制链接,可以直接粘贴到首页进行转写:

2023-12-09T22:57:02.999880456-ikrgxvqa.png

2023-12-09T22:57:02.934393775-zhqxkrdp.png

​​2023-12-09T22:57:06.908835344-evfofbwm.png​​

1.4、开始转写

设置好以后就可以开始转写了,回到首页,点击选择一个本地媒体文件即可开始转写。

或者在左侧功能区—Personal—➕—批量添加任务。

​这里先用直接转写演示​。

2023-12-09T22:57:04.010625864-rkersxec.png

1.4.1、转写设置

语言建议手动选择,否则有可能出现原文件语言为日语,输出英语翻译的情况(我真遇到了)。

质量看自己情况选择,上面介绍了各种模型的区别。

启用GPU加速:这个不用说明了吧。

提示词默认没填,转写出来的效果已经很好了。这个提示词是指Whisper模型的提示词,具体设置可以看官方文档:Guide for Using Prompt Words in MemoAI | Memo

我们可以告诉AI这个视频或录音是关于什么内容的,涉及了什么专业词汇,这样准确率会更高。

参考提示词:

请忽略背景音乐,抄写字幕,并加上句号。

Please ignore the background music and transcribe the subtitles, and add a period.

字幕的单句最大长度可以自行设置,一般来说,每分钟字幕的字数推荐在120到160字之间,较小或分辨率较低的屏幕可能需要更短的字幕以便清晰显示,有些语言可能比其他语言更紧凑或更啰嗦。例如,西班牙语的字幕可能需要比英语更多的空间,因为它通常会占用更多的字符。一个常见的规则是每行字幕不超过70个字符。

不过我实际用下来觉得也可以用默认设置,不用更改,有更多需求的可以参照上面的说明进行调整。

已有字幕可以直接提供,Memo AI可以直接翻译和转语音,我们这里就不演示了。

2023-12-09T22:57:03.940457864-akohlzkn.png

1.4.2、开始转写

点击转写后就会开始转写,一般需要半分钟左右的备份和转码准备时间,没有立即开始不要着急。直接转写可以即时查看生成的字幕,跟AI对话一样是一句句生成的:

2023-12-09T22:57:08.909124940-nnkgigyu.png

1.4.3、字幕翻译+文字转语音

转写好后右上角功能区可以进行字幕翻译,也可以对已有字幕转为语音(TTS)。

2023-12-09T22:57:06.017604038-ixnawrhs.png

1.4.4、字幕编辑

视频下方的功能区可以设置字幕样式。

2023-12-09T22:57:08.256470395-lpoktmmc.png

右侧字幕区可以直接编辑字幕

​​2023-12-09T23:15:00.315629609-iwqfzzzf.png

点击字幕左边的时间可以快速跳转

2023-12-09T22:57:09.322821920-llkalzjk.png

字幕时间轴手动调整

自动识别的字幕有可能会有些微的时间轴对不上,其实自己看也够用了,不过Memo AI也提供了手动调整的方法:

2023-12-09T23:15:37.559352635-ockethpd.png

2023-12-09T22:56:50.071364629-gcscgfbu.png

1.4.5、文件导出

字幕和音视频可以直接导出:

2023-12-09T22:57:06.266291646-rvbkfnnx.png2023-12-09T22:57:06.400943558-plcaakox.png

1.4.6、音频/视频内容总结+思维导图

转写完成后可以对音视频文件内容进行总结和生成思维导图,便于快速回顾会议或课堂内容。

此外还能添加笔记,这些就不细说了。

2023-12-09T22:57:08.903040848-mfvjhsmk.png2023-12-09T22:57:11.119402773-qtidgqvm.png2023-12-09T22:57:11.151339406-nsryjbmh.png2023-12-09T22:57:11.575298954-riwolxex.png

1.4.7、Personal功能区(分类+批量处理)

这里可以分类和批量整理你的文件,不至于堆在主页乱糟糟的。

直接转写可以即时查看生成的字幕,批量转写需要等任务完成才能查看。

其他功能和直接转写是一样的。

不过这里可以直接设置好所有参数,有一次性批量处理的需求可以在这里操作。

2023-12-09T22:56:49.834071518-svstqrzp.png2023-12-09T22:56:49.693203353-fjusnvnb.png

2、有意思的玩法

除了正经的会议记录和课堂记录这些用法,其实Memo AI还能帮我们给冷门的电影电视生成字幕,假如我们找不到字幕,就可以用它来凑合一下。

记得用下面这个提示词,忽略背景声音:

Please ignore the background sounds and transcribe the subtitles.

2.1、电影&电视

比如我试着给一部1953年的82分钟长度的电影生成字幕并翻译,出来的质量很不错:

2023-12-09T22:56:49.813301901-rudejjlv.png2023-12-09T22:56:54.075358530-xvlboukd.png​​

2.2、播客&有声书

此外还能转写播客和有声书,我试着给诡秘之主转写了几集,准确率同样很高:

2023-12-09T22:56:53.076956587-hmhuazsd.png

3、全功能免费试用 & 购买方式

注意:2023年12月9日编辑

Memo AI 现在是在内测阶段,可以免费申请内测码试用,我试了一下,是全功能的,Pro版的功能也能通过免费测试码使用:

2023-12-09T22:56:56.294334078-bzgywhyi.png

也可以购买早鸟版,支持开发者(中国人),现在早鸟是五折优惠,用教育邮箱发送邮件给官方可在早鸟优惠的基础上再申请6折码:

(另外插一句,我在官网支付的时候遇到了问题,用英国发行的实体卡也不能支付。建议有或者没有同样问题的同学,都可以通过官网给的微信号直接联系开发者,会有惊喜。)

2023-12-09T22:56:57.332071877-krbbpoyc.png