互动

最近评论

添加手机的那一步，在手机里打不开这个 open webUI的网址页面呀，怎么操作啊

大佬的服务不可用了吗填好hook播放无效了。我自己也部署了一套总是遇到问题

部署后，填入plex 用户名之后，点击授权提示 OAuth error The requested redirect uri is malformed or doesn't match client redirect URI.

大佬你的也是英文的呀不过倒没啥印象

Webhooks需要plex会员才能弄了

感谢分享~

标签

寻找感兴趣的领域

文章

原创 AI

实用工具 AI GPT 教程

【AI 应用】Memo AI 本地快速高效整理会议及课堂录像

赵利利字数: 37240 阅读耗时: 93 分钟 2023/12/09 2024/12/08 博客独享热度: 463 评论: 0

本文最后更新于 2024-12-08，文章内容可能已经过时。

2023-12-09T22:56:55.825763068-acobldhm.png

本站自营商品：

ChatGPT 镜像站 | Anthropic Claude 镜像站
ChatGPT Plus / Claude Pro 等官方订阅【代充用户账号】
本站提供 API 中转服务：ZetaTechs API（ChatGPT、Claude、Gemini、MidJourney绘图等）

最近发现了一个超实用的，可以快速整理和复盘会议和课程的录音及录像的软件：Memo AI。

Memo AI 官网：https://memo.ac/

2023-12-09T22:56:54.344482433-hghgjjlb.png

注意：Memo AI处于测试阶段，本文内容编辑于2023年12月9日，具体信息请以官网为准。

从首页介绍可以看出这个软件的主要功能是视频音频相关的，在学习方面用得上的有视频转文字、翻译、笔记、实时字幕、AI摘要和思维导图这几个。

这个软件可以给视频转写成文字，输出字幕，并总结视频内容，做成思维导图。本地处理，AI模型下载好以后，可以不联网处理。

（插播一句，目前思维导图还需要联网。但是我咨询了作者，他们的目标是所有东西全本地，保证隐私，也就是说以后的版本可以使用本地大语言模型。）

我试了一下，英语的准确率很高。然后搭配免费的微软或谷歌翻译，或者多种AI模型进行翻译，都能取得很好的效果（如头图和视频所示）。

Memo AI 现在是在内测阶段，开发者是中国人，可以在官网免费申请内测码试用，具体信息可以看文章最后，我们先介绍功能。

1、主要功能

Memo AI支持Windows和MacOS双平台，音频转文字使用的是Whisper模型本地处理，可以CPU或者GPU，不过建议还是用GPU吧……

2023-12-09T22:56:58.124879141-msaepsvk.png

1.1、Memo AI 首页

2023-12-09T22:56:58.550915267-fpsxpxzh.png

Memo AI的UI我还是很喜欢的，功能区简洁明了。音视频转写功能可以直接在首页开始（录制和播客剪辑还在开发中，暂不可用，期待）。

左边是工具栏：

2023-12-09T22:57:00.129591295-ipliurks.png

默认工作区是MemoAI，点击可以管理或创建新的，主要是管理一下工程文件存在哪里，默认的设置就可以用了。

2023-12-09T22:56:58.570980758-ehwhlmhy.png

2023-12-09T22:56:59.025749410-anuiiunb.png

1.2、媒体

媒体区可以直接查看所有任务并直接播放，视频和音频都能查看：

2023-12-09T22:56:56.504189753-oxqreunq.png

1.3、设置

开始转写音视频之前我们要先设置一下AI模型这些参数，本文没有另外说明的参数使用默认即可：

1.3.1、翻译设置：

这里可以添加联网的AI模型API Key，比如我用的是OpenAI官网的Key，直接去官网获取然后填入就行了。第三方中转的按第三方要求填写。

同时还支持智谱AI和文心一言这两个国产AI，以及各种主流的翻译软件，微软和谷歌这两个的内置的，不需要另外设置。

设置好以后可以先测试一下看有没有成功。

2023-12-09T22:57:00.693835283-nskutzzw.png

1.3.2、第三方集成

可以使用火山语音合成和导出笔记到其他平台，后面的问号可以点击查看教程，这里就不多赘述了，不是我们关注的重点，可不填。

2023-12-09T22:57:01.162835696-lbquuslu.png

1.3.3、模型管理（重点）

模型管理是必须要设置的，Memo AI用的是OpenAI开源的Whisper模型（https://github.com/openai/whisper），具体各个版本的区别可见链接中的对比，我们只要知道Large-v3是最强的就行了。

我自己用的是Large，不过实际用下来觉得Medium其实也够用，如果配置不够高的同学可以用Medium。

2023-12-09T22:57:01.705884023-wadvqjre.png

模型的性能软件里也以及注明了，如果处理纯英文的音频建议用仅支持英语的模型，效果会更好些，不过Large-v3目前尚未支持，可以选v2。

2023-12-09T22:57:01.957062052-sydncpes.png

1.3.4、实验室（重点）

实验室功能里记得把转写检测语音活动打开，不开会出现转写出无意义文字的情况：

2023-12-09T22:57:01.940550551-wnbgqrzy.png

RSS功能打开后，首页左边的侧边栏会多出一个订阅功能，可以添加YouTube或Podcast的博主主页（需要自行设置网络支持），点开订阅音视频，右上角有个复制链接，可以直接粘贴到首页进行转写：

2023-12-09T22:57:02.999880456-ikrgxvqa.png

2023-12-09T22:57:02.934393775-zhqxkrdp.png

2023-12-09T22:57:06.908835344-evfofbwm.png

1.4、开始转写

设置好以后就可以开始转写了，回到首页，点击选择一个本地媒体文件即可开始转写。

或者在左侧功能区—Personal—➕—批量添加任务。

这里先用直接转写演示。

2023-12-09T22:57:04.010625864-rkersxec.png

1.4.1、转写设置

语言建议手动选择，否则有可能出现原文件语言为日语，输出英语翻译的情况（我真遇到了）。

质量看自己情况选择，上面介绍了各种模型的区别。

启用GPU加速：这个不用说明了吧。

提示词默认没填，转写出来的效果已经很好了。这个提示词是指Whisper模型的提示词，具体设置可以看官方文档：Guide for Using Prompt Words in MemoAI | Memo

我们可以告诉AI这个视频或录音是关于什么内容的，涉及了什么专业词汇，这样准确率会更高。

参考提示词：

请忽略背景音乐，抄写字幕，并加上句号。

Please ignore the background music and transcribe the subtitles, and add a period.

字幕的单句最大长度可以自行设置，一般来说，每分钟字幕的字数推荐在120到160字之间，较小或分辨率较低的屏幕可能需要更短的字幕以便清晰显示，有些语言可能比其他语言更紧凑或更啰嗦。例如，西班牙语的字幕可能需要比英语更多的空间，因为它通常会占用更多的字符。一个常见的规则是每行字幕不超过70个字符。

不过我实际用下来觉得也可以用默认设置，不用更改，有更多需求的可以参照上面的说明进行调整。

已有字幕可以直接提供，Memo AI可以直接翻译和转语音，我们这里就不演示了。

2023-12-09T22:57:03.940457864-akohlzkn.png

1.4.2、开始转写

点击转写后就会开始转写，一般需要半分钟左右的备份和转码准备时间，没有立即开始不要着急。直接转写可以即时查看生成的字幕，跟AI对话一样是一句句生成的：

2023-12-09T22:57:08.909124940-nnkgigyu.png

1.4.3、字幕翻译+文字转语音

转写好后右上角功能区可以进行字幕翻译，也可以对已有字幕转为语音（TTS）。

2023-12-09T22:57:06.017604038-ixnawrhs.png

1.4.4、字幕编辑

视频下方的功能区可以设置字幕样式。

2023-12-09T22:57:08.256470395-lpoktmmc.png

右侧字幕区可以直接编辑字幕

2023-12-09T23:15:00.315629609-iwqfzzzf.png

点击字幕左边的时间可以快速跳转

2023-12-09T22:57:09.322821920-llkalzjk.png

字幕时间轴手动调整

自动识别的字幕有可能会有些微的时间轴对不上，其实自己看也够用了，不过Memo AI也提供了手动调整的方法：

2023-12-09T23:15:37.559352635-ockethpd.png

2023-12-09T22:56:50.071364629-gcscgfbu.png

1.4.5、文件导出

字幕和音视频可以直接导出：

2023-12-09T22:57:06.266291646-rvbkfnnx.png 2023-12-09T22:57:06.400943558-plcaakox.png

1.4.6、音频/视频内容总结＋思维导图

转写完成后可以对音视频文件内容进行总结和生成思维导图，便于快速回顾会议或课堂内容。

此外还能添加笔记，这些就不细说了。

2023-12-09T22:57:08.903040848-mfvjhsmk.png 2023-12-09T22:57:11.119402773-qtidgqvm.png 2023-12-09T22:57:11.151339406-nsryjbmh.png 2023-12-09T22:57:11.575298954-riwolxex.png

1.4.7、Personal功能区（分类+批量处理）

这里可以分类和批量整理你的文件，不至于堆在主页乱糟糟的。

直接转写可以即时查看生成的字幕，批量转写需要等任务完成才能查看。

其他功能和直接转写是一样的。

不过这里可以直接设置好所有参数，有一次性批量处理的需求可以在这里操作。

2023-12-09T22:56:49.834071518-svstqrzp.png 2023-12-09T22:56:49.693203353-fjusnvnb.png

2、有意思的玩法

除了正经的会议记录和课堂记录这些用法，其实Memo AI还能帮我们给冷门的电影电视生成字幕，假如我们找不到字幕，就可以用它来凑合一下。

记得用下面这个提示词，忽略背景声音：

Please ignore the background sounds and transcribe the subtitles.

2.1、电影&电视

比如我试着给一部1953年的82分钟长度的电影生成字幕并翻译，出来的质量很不错：

2023-12-09T22:56:49.813301901-rudejjlv.png 2023-12-09T22:56:54.075358530-xvlboukd.png

2.2、播客&有声书

此外还能转写播客和有声书，我试着给诡秘之主转写了几集，准确率同样很高：

2023-12-09T22:56:53.076956587-hmhuazsd.png

3、全功能免费试用 & 购买方式

注意：2023年12月9日编辑

Memo AI 现在是在内测阶段，可以免费申请内测码试用，我试了一下，是全功能的，Pro版的功能也能通过免费测试码使用：

2023-12-09T22:56:56.294334078-bzgywhyi.png

也可以购买早鸟版，支持开发者（中国人），现在早鸟是五折优惠，用教育邮箱发送邮件给官方可在早鸟优惠的基础上再申请6折码：

（另外插一句，我在官网支付的时候遇到了问题，用英国发行的实体卡也不能支付。建议有或者没有同样问题的同学，都可以通过官网给的微信号直接联系开发者，会有惊喜。）

2023-12-09T22:56:57.332071877-krbbpoyc.png

运营模式与责任

实用工具 11 AI 15 GPT 14 教程 11

原创【AI 应用】Memo AI 本地快速高效整理会议及课堂录像

【AI 应用】Memo AI 本地快速高效整理会议及课堂录像

本文是原创文章，采用 CC BY-NC-ND 4.0 协议，完整转载请注明来自 ZetaTechs Blog

阅读建议

ChatGPT 被“阉割/降智”！为什么你的 AI 变傻了？为什么不能读取文件、图片？

ChatGPT Search 实测：快准狠

【ChatGPT】官方账号获取 API Key 及免税充值详细教程

Open WebUI 部署教程：体验直逼 ChatGPT 的高级 AI 对话客户端

【Nature】ChatGPT 帮助我完成学术写作的三种方法

ChatGPT 缩减算力：额度降低、自动静默切换 GPT-4/3.5 模型

评论

匿名评论隐私政策

你无需删除空行，直接评论以获取最佳展示效果