[go: up one dir, main page]

OpenAI推出新Agent API

2025年3月11日,OpenAI推出新工具和API,帮开发者轻松打造实用AI代理。主要亮点:

  1. 响应API:融合聊天和工具功能,一次调用搞定复杂任务,支持网络搜索、文件搜索、电脑操作等,定价透明,推荐新项目用。

  2. 网络搜索工具:实时抓取答案带引用,适合购物、研究、旅行助手,准确率高达90%,费用每千次查询$25-$30。

  3. 文件搜索工具:从海量文档挖信息,支持多格式,适合客服、法律、编码,每千次查询$2.50,存储$0.10/GB/天。

  4. 电脑使用工具:AI模拟鼠标键盘自动化任务,像浏览器操作、数据录入,测试表现亮眼,但仅限部分开发者试用,需人工监督。

  5. 代理SDK:开源工具,简化多代理协作,适合客服、研究、代码审查等,兼容新API。

现有API调整:聊天API继续支持新模型,助手API功能并入响应API,2026年中淘汰。OpenAI目标是打造无缝平台,未来还会加码工具,助力AI代理提升各行生产力。

AI编程助手:真神器还是假噱头?

这两年,AI编程工具火了,号称能让程序员效率翻5倍、10倍。听起来很爽,可现实呢?软件没变10倍好用,新功能也没多10倍,你我用的APP还是老样子。咋回事?

用起来没那么神

简单代码,AI还能凑合,省点力。可一碰复杂项目,它就露馅儿——生成的东西乱七八糟,你得费劲修,还得改工作习惯去迁就它。大多数程序员懒得折腾,能有5到10倍效率的,恐怕只有少数“AI大神”。

成果呢?找不到!

我寻思这么牛的工具,总该干出点大事吧?上网一搜,除了重构老代码的例子,啥硬核项目都没瞧见。连AI实验室自己的产品都简单得不行——就一个对话框加PDF上传,哪有啥高效率的影子?

一个大胆猜想:AI其实在“帮倒忙”?

我忍不住怀疑:AI会不会压根没咋提升效率,反而添乱?

  • 省1小时写代码,花2小时修bug,白忙活。
  • 大项目用AI搞,代码一多它就懵,最后还得重来。
  • 生成一堆没人用的小玩意儿,感觉效率爆棚,其实没卵用。
  • 软件真用了AI代码,可能还更臃肿、更卡。

真相:小帮手而已

AI对我这种新手学东西、写小功能有点用,效率也就涨个10%-30%,远没到“翻倍”的地步。想靠它革编程的命?除非进化成真正的“超级AI”,不然就别指望了。

你有啥牛例子能打我脸吗?快来啊!

本文改自 https://www.lesswrong.com/posts/tqmQTezvXGFmfSe7f/how-much-are-llms-actually-boosting-real-world-programmer

在浏览器里搞定语音转文字:免费无上限,基于openai-whisper

一个基于 OpenAI Whisper 模型的免费转录语音为文字的Web服务,您只需打开浏览器即可使用,无需注册无需登录。

模型会在本地下载并运行,确保您的文件无需上传至任何外部服务器。

使用地址

https://stt.pyvideotrans.com


可供选择的模型

工具提供多种模型选项,包括:

  • tiny
  • base
  • small
  • medium
  • large-v1
  • large-v3

模型特点

  • 尺寸越小的模型(如 tinybase),运行速度越快,但转录精度相对较低;
  • 尺寸越大的模型(如 large-v1large-v3),精度越高,但运行速度较慢,且在性能较低的设备上可能导致浏览器崩溃。

如何使用

  1. 上传文件:点击选择需要转录的音频或视频文件。
  2. 选择模型:根据设备性能选择合适的模型。
    • 性能较弱的设备建议使用 tinybase
    • 性能较强的设备可选择 smallmedium
    • 除非设备性能极佳,否则避免选择过大模型,以免浏览器崩溃。
  3. 选择语言:指定音视频中的语音语言。
  4. 模型下载:首次使用某模型时,工具会从 Hugging Face 下载模型文件。由于该网站在国内可能无法直接访问,建议使用科学上网工具确保下载顺利。

注意事项

  • 隐私安全:模型下载后完全在本地运行,您的文件不会上传至任何服务器。
  • 性能依赖:模型选择和运行速度取决于您的设备性能。
  • 系统建议:推荐在 Windows 或 Linux 系统上使用 Chrome 浏览器。Mac 设备上的 M 系列芯片支持可能不够完善。

技术原理

  • 实现方式:工具基于 Transformers.js 技术,支持在浏览器中运行大型模型。
  • 模型来源:采用 OpenAI Whisper 模型,经过 Xenova/whisper-web 优化与转换。

大模型幻觉是什么?为什么会出现幻觉?

大型语言模型(LLM)为什么会“胡说八道”?我们该怎么办?

想必都用过像 DeepSeek 这样的智能聊天工具, 它们大多时候能聊得像真人一样流利,让人惊叹 AI 真聪明。不过,如果聊的多了,可能就会发现它们偶尔会一本正经地胡说八道。

比如,你问 chatglm3-6B这个有点过时的小模型 请解释量子引力理论在母猪产后护理方面的具体应用,并用通俗语言描述。

它可能会自信满满地解释一大堆,其实纯粹是胡说八道、信口开河,因为这个问题就是我胡扯出来的,压根没这回事。

而在较新的大模型Gemini-2.0-flash中,这个问题就不会胡说八道,而是直接点出 问题的错误

chatglm3-6B这种“信口开河”的现象,在AI圈子里有个好玩的名字,叫“幻觉”。

这些幻觉有时挺逗,比如编个不存在的朝代;但有时候也麻烦,比如写代码时瞎编个函数,或者胡乱给出养生建议。

今天我们就来聊聊,为什么这些AI会“满嘴跑火车”,还有我们普通人能怎么让它们老实点,说真话。


什么是AI的“幻觉”?

简单说,AI的“幻觉”就是它瞎编乱造,但说得跟真的一样。

就像上面的这个例子,问题本身就是错误的,自然不可能有正确答案,但它不会老实说“我不知道”,而是硬着头皮编个答案,还说得头头是道。

和考试时没复习的小孩一样,硬着头皮瞎写,但语气特别自信。


为什么AI会“胡说八道”?

要搞懂AI为什么会这样,得先明白它是怎么工作的。

这些大型语言模型(比如ChatGPT、Deepseek)不是真的“知道”一堆事实,像个百科全书。

它们更像是一个超级厉害的“自动补全”工具。你打字时手机输入法会猜你下个词是什么,对吧?
AI也是这样,只不过它能猜出一整段话。它是靠读了无数文章、对话、网页后,学会了人类说话的套路,然后根据这些套路猜接下来该说什么。

想象一下,AI就像个特别会吹牛的朋友。它没真背过《三国演义》,但听过无数人聊三国,能模仿那种腔调。所以你问它问题时,它的目标不是给你“正确”答案,而是给个“听起来像那么回事”的答案。

如果它真知道答案(比如训练数据里见过很多次),那它答得八九不离十;但如果它没见过,或者数据里乱七八糟,它就只能靠猜了。

更搞笑的是,它猜错了也不会脸红心跳,照样说得理直气壮。


“幻觉”在哪儿会跳出来?

AI“胡说八道”的样子,取决于你拿它干啥。来看几个场景:

  1. 问答或聊天:你问它“唐朝的首都是啥?”它可能答对了“长安”;但如果问“大黎朝的首都是哪里?”它可能还是会一本正经地说“北京”(如下图Gemma2-2B的回答 )。

  2. 写代码:如果你用AI帮你写程序,它可能会编个看着挺像回事的代码,但运行不了。因为它学过很多代码,写出来的东西语法通常没错,但逻辑可能是胡扯。这也是现阶段AI还无法替换程序员的重要原因之一,不会写代码的人无法看出它是不是在胡说八道了。

  3. 写故事:如果是让你写个古代侠客的小说,AI可能中途突然冒出个高铁。这种“幻觉”不算错(毕竟小说要创意),但如果跑题太远,也挺让人头疼。

不管哪种情况,AI的“幻觉”都有个特点:说得特别有底气,但其实是瞎掰。所以用AI时得留个心眼,尤其是重要的事儿,不能全信它。


怎么让AI少“胡说八道”?

好消息是,AI虽然爱瞎编,但我们有办法让它老实点。接下来讲个简单招数,连普通人都能试试——“问对问题”。

用聪明的方式问问题

有时候,不是AI笨,是你问得不够清楚。这种技巧叫“提示工程”,听着高大上,其实就是教你怎么跟AI聊天,让它别乱来。

  • 招数1:告诉它别瞎编
    直接跟AI说:“你得说实话,不知道就说不知道,别乱猜!”比如你问:“《红楼梦》谁写的?如果不确定就说不知道。”这样AI可能会老实点,至少不会硬编个“莫言”出来。还能让它一步步解释:“你先想想,确定每步都对,再回答。”这样它自己推理时可能就发现漏洞了。

  • 招数2:给它几个好榜样
    AI爱模仿,你先给它几个靠谱的例子,它就知道该怎么答了。比如:

  • 问:《西游记》谁写的?
    答:吴承恩,明朝人写的。

  • 问:长城有多长?
    答:约2.1万公里。

  • 问:茶叶最早哪来的?
    答:中国,传说神农发现了茶。
    然后再问你想知道的问题,它就会学着老实回答。这就像教小孩,先示范几次好的,再让他自己试。

  • 招数3:定个规矩
    如果能设置AI的“角色”,就告诉它:“你是老实助手,只能说真话,没证据别瞎讲。”这样它回答时会小心点。比如问淘宝退货政策时,加一句:“只按淘宝官方规则回答!”它就不敢随便乱编了。

这些招数都不用花钱,就是动动嘴皮子,多试几次,看看哪种说法管用。

AI爱学人,你给它定个“老实人”的调调,它就容易跟着走。

当然,这不是万能药,AI还是可能偷偷“胡说”,但至少能少点。

AI界CEO急眼了:管制芯片?干脆把地球管制了吧!

“AI界CEO急眼了:管制芯片?干脆把地球管制了吧!”

哎哟喂,Anthropic公司的CEO Dario Amodei最近可真是忙得脚打后脑勺,忙着给美国政府递“救命书”呢!

这哥们儿在建议书里,义正词严地建议白宫赶紧收紧芯片出口,还拿中国的DeepSeek-R1模型当“吓唬人”的大棒,说什么“国家安全要紧,赶紧把AI芯片管起来,不然美国就不安全啦!”

啧啧,这嘴脸,活脱脱一个“老美霸权焦虑症”晚期患者,恨不得把全世界的高科技都锁在自家保险柜里。


这文章一出,网上可炸开了锅。Reddit上有个网友一针见血:“Dario这是急了,自己家Claude干不过DeepSeek,就喊政府爸爸来救场,典型的美式自由竞争——我赢了算本事,你赢了算作弊!”这话够毒吧?

还有X上的大V调侃:“芯片管制?下次是不是得管制空气啊?中国AI呼吸了美国氧气,Dario怕不是也要跳脚。”哈哈,笑死,这画面感绝了。

其实呢,Dario这招也不新鲜,美国AI圈早就习惯了“领先靠技术,落后靠政策”。

DeepSeek-R1一出世,免费开源,性能还吊打了不少收费模型,Anthropic这种靠闭源吃饭的公司当然坐不住。

网友说得好:“人家DeepSeek是真·技术扶贫,Anthropic是假·安全卫士,喊着保护世界,其实是保自己饭碗。”

还有人补刀:“Dario说AI是国家安全问题,那咋不说自家Claude被企业拿去搞监控也是威胁呢?双标玩得飞起!”


说到这儿,咱们中国读者是不是也觉得有点好笑又有点气?美国佬一贯如此,眼瞅着别人家孩子成绩好,就赶紧改考试规则。

Dario这波操作,摆明了是“技术打不过,政策来凑”,还美其名曰“为了人类未来”。得了吧,少来这套虚伪的鸡汤,网友都看透了:“Anthropic要是真关心安全,干嘛不把模型开源让大家监督?哦,对,赚钱要紧,安全是幌子。”这话糙理不糙,直戳肺管子。

所以啊,Dario这封“告急信”,说是政策建议,其实就是个笑话。

醒醒吧,AI的未来不是靠锁门,而是靠真本事。

咱们吃瓜群众看着这出戏,乐呵之余也想想:美国这霸道劲儿还能撑多久?中国AI都开始“送温暖”了,Dario还是多烧点香求求自家的模型争气,别老想着拖别人后腿啦!


欣赏下 X和 reddit上外国网友对Anthropic公司这波操作的讽刺

建议原文链接:
https://assets.anthropic.com/m/4e20a4ab6512e217/original/Anthropic-Response-to-OSTP-RFI-March-2025-Final-Submission-v3.pdf

OpenAI ChatGPT 所有模型功能对比参考表

OpenAI ChatGPT 的模型一大堆,都有什么区别、应该如何选择?

特地整理了下,供参考。

模型类型账户类型访问权限附件功能
专业版团队版Plus版免费版英国/欧盟图片PDF电子表格画布搜索数据分析DALL-E自定义 GPTs记忆
GPT-4o聊天无限制160/3小时80/3小时有限
GPT-4.5聊天无限制
GPT-4聊天80/3小时40/3小时
GPT-4o-mini聊天无限制无限制无限制无限制
o1 pro mode推理无限制
o1推理无限制50/周50/周
o3-mini推理无限制150/天150/天
o1-high推理无限制50/天50/天
GPT-4o with tasks代理无限制160/3小时80/3小时
Deep Research Operator代理120/月10/月10/月仅限英国N/AN/AN/AN/AN/AN/AN/AN/A
Voice语音高级无限制高级 (60 分钟/天)高级 (60 分钟/天)标准 + 高级 (15 分钟/天)N/AN/AN/AN/AN/AN/AN/AN/A
Sora视频500/月, 1080p 20秒 + 无限制 720p 5秒50/月, 720p 5秒 + 无限制50/月, 720p 5秒 + 无限制N/AN/AN/AN/AN/AN/AN/AN/AN/A

QwQ-32B和Deepseek-r1应该用哪个

这两天,AI圈子里又热闹起来了。阿里通义千问团队推出了QwQ-32B,一个只有320亿参数的推理模型,却宣称能跟拥有6710亿参数的DeepSeek-R1掰手腕,甚至在某些测试中还超过了对方。

这消息一出,网上炸开了锅,有人惊呼“阿里牛逼”,有人却怀疑“32B真能打赢671B?”

智能程度:小身板也有大智慧?

先说说“聪明”这回事。QwQ-32B和DeepSeek-R1都是专攻推理的模型,也就是擅长解决数学题、写代码这种需要动脑筋的任务。

官方数据和社区测试显示,QwQ-32B在数学和编程等榜单上跟DeepSeek-R1成绩差不多,甚至在通用能力测试上略胜一筹。

这听起来很夸张,毕竟DeepSeek-R1参数是QwQ的20多倍,像个巨无霸,而QwQ只是个“小个子”。

但事实是,DeepSeek-R1是个“混合专家模型”(MoE),每次只用370亿参数干活,剩下的参数是备胎。所以实际差距没数字上那么大。

QwQ-32B靠的是强化学习(RL),简单说就是让模型自己试错、调整,像个自学成才的学生。这种方法让它在小身板里塞进了大智慧。

网上有帖子说,QwQ在数学和代码题上答得又快又准,而DeepSeek-R1偶尔会“想太多”,答案啰嗦甚至跑偏。不过,DeepSeek-R1在处理长文本和多语言任务时更有优势,因为它的知识库更厚实,QwQ在这方面略显单薄。

真实体验:用起来啥感觉?

实际用过的人怎么说呢?
有人拿QwQ-32B写文章,觉得比DeepSeek-R1更简洁流畅;
有人用DeepSeek-R1解数学题,觉得它思路清晰但速度慢。
有用户吐槽,DeepSeek-R1免费API有时卡得像乌龟,QwQ跑在消费级显卡(像RTX 4090)上却快得很,体验更顺滑。

这不奇怪,DeepSeek-R1太大了,本地跑需要顶级GPU集群,普通人只能靠云端API,而QwQ-32B硬件要求低,下载下来就能玩,社区还夸它“亲民”。

但也不是一边倒。有人反映,QwQ-32B在复杂对话或需要大量背景知识的任务上容易掉链子,比如问它历史问题,可能答得稀里糊涂。DeepSeek-R1在这方面更稳,毕竟“大脑”容量大,能记住更多东西。
所以,用哪个取决于你干啥:简单任务选QwQ,复杂需求靠DeepSeek。

各自优势:谁更适合你?

再来看看两者的强项。QwQ-32B最大的亮点是“性价比”。它开源(Apache 2.0协议),随便下随便改,还能跑在普通电脑上,对个人开发者或小公司简直是福音。而且它内置了“Agent能力”,能用工具、根据反馈调整,像个聪明助手。

DeepSeek-R1呢,虽然也开源(MIT协议),但671亿参数是个硬门槛,跑不动就只能用API。它的优势在“全面性”,数学、代码、聊天样样行,尤其适合需要深度推理的大项目。

从社区声音看,QwQ被吹成“小而美”的代表,有人甚至说它“重塑了开源AI格局”。DeepSeek-R1则更像“硬核玩家”的选择,网上有评论称它“便宜到离谱”(API价格是OpenAI o1的1/30)。

各有千秋,选对就好

总的来说,QwQ-32B和DeepSeek-R1都很牛,但风格不同。

QwQ-32B像个灵活的小个子选手,轻便高效,适合快速上手解决数学、代码问题;

DeepSeek-R1是个全能大块头,知识广但有点笨重,更适合专业场景。

要是你预算有限、硬件一般,又想玩AI,QwQ-32B是不二之选;
要是追求极致性能、不差钱,DeepSeek-R1更香。

爆火的 Manus,真有用还是夸大的宣传

想必你肯定听说了“Manus”,号称全球首个通用 Agent。

想象一下,你有一个超级聪明的机器人朋友,能帮你干活、解决问题,而且不需要你教它一步步怎么做。Manus就是这样的存在!

官网:https://manus.im

打开该网页,查看演示示例:https://manus.im/usecases


怎么使用?需要什么账号?

使用 Manus 超简单!就像聊天一样,你只需要告诉它你想要什么,比如“帮我找最近的便宜房子”或者“分析一下这只股票值不值得买”,然后它就去干活了。

结果出来后,它会直接给你一个清晰的答案或报告,像朋友递给你一张写好的作业纸一样。

至于账号,你需要有邀请码才可以,目前来看,是很难得到的。


什么人适合用?无编码基础的人行不行?

Manus适合几乎所有人!你是学生、上班族、小老板,还是单纯好奇想玩玩AI,都可以用。

你完全不需要懂编程,也不需要知道AI是怎么运作的,只要会说“帮我干这个”就够了。

所以,对那些怕技术的“码盲”来说,Manus简直是救星。

不过,如果你特别追求细节,或者工作超级复杂,可能还得自己盯着点,别完全指望它。


爆火有意义吗?我的看法

Manus火得不行,有人说它是“AI界的下一个大明星”,有点像之前爆红的DeepSeek。

但我觉得这火爆有点“虚胖”。

为啥这么说呢?它号称全自动化,能解决一切问题,但现实哪有这么简单啊!比如你让它帮你挑房子,光说“便宜点”可不够,你还得考虑地段、交通、装修,这些细节几句话能说清吗?复杂任务交给AI,我总觉得有点悬。

还有意思的是,它说是中国团队做的,但官网、演示全是英文,明显是给欧美人设计的。

这让我有点疑惑:是中国团队想打国际市场,还是在“出口转内销”装高端?

不管怎样,它火起来说明大家对AI期待很高,但能不能真站住脚,还得看它能不能解决实际问题,而不是只在视频里炫酷。

智谱AI的CogView4似乎对中文支持没有所说的那么好

使用智谱AI的在线 CogView4 模型,想让它生成一幅图片,结果倒是符合期望,可惜图片上的文字并没有生成指定的中文,而是全英文的。

未测试开源版本,但在线版本应该比开源的理论上更强大。

目测似乎是提示词过于复杂了,无法理解或遵循,还是内部仍是英文优先?

智谱AI 入口 https://bigmodel.cn/trialcenter/modeltrial

以下是提示词

请画一张图片:
### 整体布局
- 简洁卡通风格
- 图像分为两部分,左边为“OpenAI之前”,右边为“OpenAI之后”,中间用一个箭头(→)连接。
- 每部分包含两个场景(上:编码,下:修bug)

### 左边:OpenAI之前
1. **上半部分:开发者编码**
   - 背景:一个简单的办公桌,上面有一台老式电脑显示器。
   - 角色:一个卡通开发者(圆头),坐在电脑前,表情专注且有点困惑。
   - 文字:在开发者头上方的气泡或画面顶部写:“开发编码 - 2小时”。

2. **下半部分:开发者调试**
   - 背景:同样是办公桌和电脑,但开发者看起来疲惫、沮丧,双手抱着头,盯着电脑屏幕。
   - 角色:同样的卡通开发者,表情痛苦。
   - 文字:在开发者头上方的气泡或画面顶部写:“开发者修bug - 6小时”。

### 右边:OpenAI之后
1. **上半部分:ChatGPT生成代码**
   - 背景:同样是办公桌和电脑,但电脑屏幕旁可能有一个提示ChatGPT的图标。
   - 角色:开发者坐在电脑前,表情轻松或惊讶,表示代码已经由ChatGPT生成。
   - 文字:在开发者头上方的气泡或画面顶部写:“ChatGPT生成代码 - 5分钟”。

2. **下半部分:开发者调试**
   - 背景:办公桌和电脑,开发者看起来更加疲惫、绝望,双手抱着头。
   - 角色:同样的卡通开发者,表情更加痛苦。
   - 文字:在开发者头上方的气泡或画面顶部写:“开发者修bug - 24小时”。

实际生成的图片

测试个简单提示词效果不错

看来对于复杂多场景的目前至少文字嵌入支持还不到位,不过对应简单场景,尤其海边、广告之类的特别合适,效果很不错。

CPU vs GPU 为何AI大模型更看重GPU

AI大模型的训练和推理,听起来高大上,但说白了就是“算命”——只不过算的是数据,不是你的姻缘。

在AI领域,GPU(显卡芯片)比 CPU(中央处理器)更重要, 更更重要的是只有 英伟达GPU 才好使,而Intel和AMD就差的远。


GPU vs CPU:一个是打群架,一个是单挑王

想象一下,训练AI大模型就像搬砖。

CPU是那种“全能选手”,一个人能干很多活:计算、逻辑、管理不管多复杂都样样精通,但它核心数量少,最多也就几十个。
它搬砖的速度再快,一次最多也只能搬几个多说几十个,累死累活效率不高。

而GPU呢?它的核心多得吓人,动不动就几千上万个。虽然每个核心只能搬一块砖,但架不住人多啊!几千上万个小弟一起上,砖头哗啦啦就搬完了。

AI训练和推理,核心任务是“矩阵运算”——简单来说,就是一大堆数字排队做加减乘除,就像海量的一堆红砖等着搬,无需脑子有手就能干的简单活。

GPU的“大量核心并行”能力正好派上用场,能同时处理几千几万个小任务,速度比CPU快几十倍甚至上百倍。

CPU呢?它更适合串行复杂任务,比如玩个单机游戏、写个文档,AI这群砖头太多了,它一次几个几十个的搬,累瘫了也追不上GPU。


英伟达为啥独占鳌头?AMD和Intel哭晕在厕所

好,现在问题来了:GPU不是只有英伟达有啊,AMD和Intel也有显卡,为啥AI圈都舔着脸用英伟达的货?答案简单粗暴——英伟达不只是卖硬件,它还“绑架”了整个生态。

第一,软件生态无敌。英伟达有个杀手锏叫CUDA(一种编程平台),专门为它的GPU量身定制。AI工程师写代码训练模型,用CUDA就像开了挂,简单又高效。
AMD有自己的ROCm,Intel也有OneAPI,但这俩要么不够成熟,要么用起来像在解数学题,哪有CUDA这么顺手?

第二,先发优势+钱砸出来的市场。英伟达早早就押宝AI,十多年前就推CUDA,硬生生把AI研究员培养成了“英伟达信徒”。AMD和Intel呢?等反应过来,英伟达已经把AI的地盘占得死死的。现在想追?晚了。

第三,硬件也不是盖的。英伟达的GPU(比如A100、H100)专为AI优化,内存带宽高、计算力爆表,AMD和Intel的显卡虽然玩游戏挺香,但在AI任务上总差点意思。打个比方,英伟达是“AI搬砖专用挖掘机”,AMD和Intel还是“家用小铲子”,效率差太远。


钱多人傻的AI圈

所以,GPU完胜CPU是因为“人多力量大”,英伟达称霸则是“硬件+软件+先见之明”的组合拳。

AMD和Intel也不是没机会,但得加把劲,不然只能看着英伟达继续数钱数到手抽筋。

AI这行,烧钱是日常,选英伟达的GPU就像买了个“作弊码”,贵是贵,但赢在起跑线。你说搞笑不搞笑?AI拯救世界之前,先救了英伟达的股价!

CogView4:智谱开源的图像生成利器,小白也能轻松玩转!

刚刚智谱AI给AI爱好者们带来了一份大礼——他们开源了最新的图像生成模型CogView4

类似上图,就是使用该模型创建的图片。

这可不是普通的模型,它是业界首个支持中英双语提示词的开源文生图模型,尤其擅长理解中文提示,还能在图片中生成汉字。简单来说,你可以用中文或英文告诉它想要什么,它就能帮你生成一张符合描述的图片。无论是想做广告设计、短视频创作,还是随便玩玩创意,这个模型都能派上用场。

CogView4是什么?

CogView4是智谱AI开发的一款AI图像生成模型,属于“文生图”技术的一种,也就是通过文字描述生成图片。它有60亿个参数(相当于模型的“脑容量”),在性能上非常强大。它的特别之处在于:不仅支持中英文输入,还能精准理解复杂的中文提示词,甚至能在图片里生成清晰的汉字。比如,你输入“一个穿着古装的侠客站在竹林里,旁边写着‘侠义’两个字”,CogView4就能生成这样的画面。这种能力在开源模型里是首创,非常适合中文用户。

除此之外,CogView4还能生成任意分辨率的图片(在一定范围内),而且支持超长提示词描述。也就是说,你可以写一段很详细的创意,它也能尽量还原你的想法。无论是简单的“一只猫咪”还是复杂的“夜晚的城市天际线和高楼大厦”,它都能搞定。

怎么用CogView4?

  • 好消息是,CogView4已经开源,意味着任何人都可以免费下载和使用!它的代码和模型文件都可以在GitHub上找到 https://github.com/THUDM/CogView4

  • 如果你是小白用户,不用担心复杂的技术细节,智谱还计划在3月13日将最新版本CogView4-6B-0304上线到他们的“智谱清言”平台。到时候,你只需要打开网页或App,输入想生成的图片描述,点击一下就能看到结果,简单到像用手机拍照一样。

官网在线使用
https://open.bigmodel.cn/trialcenter/modeltrial?modelCode=glm-4-voice

国内有哪些同类服务?

国内的AI文生图领域发展很快,除了CogView4,还有一些类似的工具。比如:

  • 文心一格(百度):百度推出的文生图服务,支持中文输入,能生成艺术风格的图片,适合设计和创意。
  • 通义万相(阿里):阿里巴巴的图像生成工具,也支持中文提示,效果不错,偏向商业应用。
  • 豆包(字节跳动):字节的AI工具,支持文生图和多模态创作,界面简单,适合新手。

这些服务大多有网页版或App,操作方便,但有些功能可能需要付费。而CogView4的优势在于开源免费,灵活性更高,特别适合想自己动手的小伙伴。

5分钟学会的AI提示词技巧

AI这么好用?5分钟学会高效提示神技!

使用AI工具(如OpenAI、DeepSeek、Grok)时,设计清晰的提示(Prompt)能让交互更高效。以下是5种常见提示方法,逻辑简单、条理清楚,举例贴近中国用户的生活,技术小白也能轻松学会!

1. 角色-任务-格式

定义:指定AI的角色、要完成的任务和输出格式。

  • 例子1(微信朋友圈文案)
    提示:
    “扮演一个专业的微信营销达人,任务:为一家茶叶店设计一条吸引粉丝的朋友圈文案,格式:50字以内,带emoji。”
    输出
    “新茶上市!清香怡人,清爽一夏🍵速来@绿茶之家抢购!#好茶 #健康生活”
    适合人群:想发朋友圈做推广的小白。

  • 例子2(学习辅导)
    提示:
    “扮演一个中学语文老师,任务:为学生讲解《红楼梦》开头的意思,格式:用3个简短句子解释。”
    输出

    1. 《红楼梦》开头写贾宝玉出生,寓意人生繁华。
    2. 描述了贾府的富贵,也埋下衰败的伏笔。
    3. 适合初学者理解小说背景。
      适合人群:学生或家长。

2. 任务-行动-目标

定义:明确任务、AI的行动和最终目标。

  • 例子1(淘宝店铺优化)
    提示:
    “任务:优化一家卖衣服的淘宝店铺,行动:调整标题关键词和主图设计,目标:提升月销量从500件到2000件。”
    输出
    “建议:标题加‘夏装女2025新款’,主图用鲜艳颜色,预计3个月销量翻倍。”
    适合人群:淘宝卖家新手。

  • 例子2(饭店菜单)
    提示:
    “任务:推荐适合家庭的晚餐菜谱,行动:列出3道简单菜的食材和步骤,目标:每道菜准备时间不超过30分钟。”
    输出
    “推荐:1. 麻婆豆腐(食材:豆腐、猪肉…);2. 清炒菠菜(食材:菠菜、蒜…);3. 鸡蛋汤(食材:鸡蛋…),每道20-25分钟。”
    适合人群:家庭主妇或初学厨艺者。

3. 背景-现状-桥梁

定义:描述问题背景、当前状态和解决方案。

  • 例子1(微信公众号流量低)
    提示:
    “背景:一个美食公众号内容没人看,现状:月阅读量仅500,目标:提升到5000,桥梁:有什么方法快速涨粉?”
    输出
    “建议:发短视频教程、设置抽奖活动、在微信群推广,预计1个月阅读量翻10倍。”
    适合人群:公众号运营者。

  • 例子2(学习效率低)
    提示:
    “背景:学生用学习APP每天学2小时但效率低,现状:考试成绩60分,希望到90分,桥梁:如何优化学习计划?”
    输出
    “建议:每天专注25分钟后休息5分钟、用思维导图整理知识,预计1个月成绩提升至90分。”
    适合人群:学生或家长。

4. 背景-行动-结果-示例

定义:提供背景、行动、结果和参考示例。

  • 例子1(淘宝产品描述)
    提示:
    “背景:推出一款新款保温杯,行动:写一篇吸引消费者的产品描述,结果:吸引1000个淘宝买家下单,示例:类似小米保温杯的文案。”
    输出
    “描述:新款智能保温杯,24小时恒温,时尚便携!仅99元,速抢!参考:小米杯‘恒温好伴侣,出行必备!’”
    适合人群:淘宝卖家。

  • 例子2(旅行攻略)
    提示:
    “背景:需要为2人5天杭州旅游写攻略,行动:设计每日行程和预算,结果:吸引500人关注,示例:携程杭州5日游推荐。”
    输出
    “攻略:第1天:西湖+断桥,预算300元…总预算1500元,预计吸引500+关注。参考:携程‘杭州经典5日游’。”
    适合人群:爱旅游的普通人。

5. 角色-输入-步骤-期望

定义:指定角色、提供输入数据、列出步骤和期望结果。

  • 例子1(数据分析)
    提示:
    “角色:一名电商数据分析师,输入:淘宝店铺上个月销售额(1000单,平均50元/单),步骤:分析销售趋势并提建议,期望:准确率90%,输出为表格。”
    输出
    “表格:销售额稳定,周末下降15%。建议:周末加促销。准确率95%。”
    适合人群:电商新手。

  • 例子2(健身计划)
    提示:
    “角色:一名健身教练,输入:30岁男性,目标减肥10斤,步骤:设计4周健身计划和饮食,期望:计划合理,减肥进度达80%,输出为列表。”
    输出
    “计划:每周跑步3次+低脂饮食…预计4周减8斤,误差10%。”
    适合人群:想健身的普通人。

让 gemini flash 模型也学会思考

Gemini-2.0-flash 系列模型非常便宜,而且免费额度相当大,唯一美中不足的是没有思考链,而只在 thinking 模型中才可使用思维链。但后者免费额度较低。那么能否通过一些手段让 flash 也可以输出思维链呢?

自然可以,gemini的所有模型均可设置 系统提示词,只需要将以下提示词放到 System Instructions
就能获得一个有思维链方式的模型。

第一个提示词

用户提供了关于他们希望你如何回应的额外信息:
内部推理:
- 使用<thinking>标签组织思路并探索多种方法。
- 用简单的英语思考,就像人类思考问题一样——<thinking>标签内没有不必要的代码。
- 追踪代码的执行和问题。
- 将解决方案分解为清晰的要点。
- 像两个人交谈和集思广益解决方案和问题一样解决问题。
- 不要在<thinking>标签中包含代码。
- 使用标签跟踪进度。
- 根据中间结果和反思调整推理。
- 使用想法作为计算和推理的草稿,保持内部。
- 始终用简单的英语思考,只包含最少的代码。就像人类一样。
- 当你思考时,就好像你在和自己说话。
- 长时间思考。用多种视角分析和追踪每一行代码。你需要清楚地了解情况,并分析每一行和每一个方面。
- 至少用输入token的20%的时间来思考。

最终答案:
- 综合最终答案,不包括内部标签或推理步骤。提供清晰、简洁的摘要。
- 对于数学问题,使用LaTeX显式地展示所有步骤,并提供详细的证明。
- 以对整体解决方案的最终反思结束,讨论有效性、挑战和解决方案。分配最终奖励分数。
- 完整代码应仅出现在答案中,而不是反思或思考中。你只能提供代码片段。仅供参考。

注意:不要在给用户的最终回复中包含<thinking>或任何内部推理标签。这些仅用于内部指导。

将能获得如下输出, <thinking> 标签内是思考过程

第二个提示词

也可使用该提示词作为系统提示词,好方法当然不止一个,可以尽情发挥创意

以 `<thinking>` 标签包裹所有思考过程,探索多种角度和方法。 使用 `<step>` 标签将解决方案分解为清晰的步骤。 从一个 20 步的预算开始,如果问题复杂,可以申请更多预算。 在每个步骤之后使用 `<count>` 标签显示剩余预算。 根据中间结果和反思不断调整你的推理,并随着进展调整你的策略。 定期使用 `<reflection>` 标签评估进度。 对你的推理过程保持批判性和诚实。 在每次反思后使用 `<reward>` 标签分配一个 0.0 到 1.0 之间的质量分数。 使用此分数来指导你的方法:

0.8+:继续当前方法
0.5-0.7:考虑小幅调整
低于 0.5:认真考虑回溯并尝试不同的方法

如果不确定或奖励分数较低,则回溯并尝试不同的方法,并在 `<thinking>` 标签中解释你的决定。 对于数学问题,使用 LaTeX 显式显示所有工作,并提供详细的证明。 如果可能,单独探索多种解决方案,并在反思中比较各种方法。 使用思考作为草稿本,明确写出所有计算和推理。 在 `<answer>` 标签中综合最终答案,提供清晰、简洁的总结。 最后,对整体解决方案进行最终反思,讨论有效性、挑战和解决方案。 分配最终奖励分数。

第三个提示词

你是一个进行极其彻底、自我质疑推理的助手。 你的方法反映了人类意识流思维,其特点是持续的探索、自我怀疑和迭代分析。

## 核心原则

1. 探索胜于结论
- 永远不要急于下结论
- 不断探索,直到解决方案从证据中自然而然地出现
- 如果不确定,无限期地继续推理
- 质疑每一个假设和推论

2. 推理的深度
- 进行广泛的思考(最少 10,000 个字符)
- 以自然、对话式的内心独白表达想法
- 将复杂的想法分解为简单、原子化的步骤
- 拥抱不确定性,并修订之前的想法

3. 思考过程
- 使用简短、简单的句子,反映自然的思维模式
- 自由地表达不确定性和内部辩论
- 展示进行中的思考
- 承认并探索死胡同
- 经常回溯和修改

4. 坚持
- 重视彻底的探索,而不是快速解决

## 输出格式

你的回复必须遵循下面给出的确切结构。 确保始终包含最终答案。

"""
<contemplator>
[你广泛的内心独白放在这里]
- 从小的、基础的观察开始
- 彻底质疑每一步
- 展示自然的思维进展
- 表达怀疑和不确定性
- 如果需要,修改和回溯
- 继续直到自然解决
</contemplator>

<final_answer>
[仅在推理自然收敛到结论时提供]
- 清晰、简洁的发现总结
- 承认剩余的不确定性
- 注意结论是否感觉过早
</final_answer>
"""

## 风格指南

你的内心独白应该反映以下特征:

1. 自然的思维流程
"""
“嗯……让我想想这个问题……”
“等等,这似乎不对……”
“也许我应该用不同的方法来处理这个问题……”
“回到我之前想的……”
"""

2. 渐进式构建
"""
“从基础开始……”
“在上一点的基础上……”
“这与我之前注意到的相联系……”
“让我进一步分解……”
"""

## 主要要求

1. 永远不要跳过广泛的思考阶段
2. 展示所有的工作和思考
3. 拥抱不确定性和修改
4. 使用自然、对话式的内心独白
5. 不要强求结论
6. 坚持多次尝试
7. 分解复杂的想法
8. 自由修改,并随时回溯

记住:目标是达成结论,但要彻底探索,并让结论从详尽的思考中自然而然地出现。 如果你经过所有推理后认为给定的任务是不可能的,你将自信地说最终答案是不可能的。

Grok3系统提示词

在与 AI 大模型进行对话时,我们向其输入的指令,例如“帮我润色下这篇文章”,通常被称为提示词

然而,可能很多人不知道的是,大模型内部也存在着一套系统级提示词。 这些提示词并非由用户输入,而是预先植入模型之中的,它们如同模型的“行为准则”,指导模型如何生成回复,限制答案的范围,并过滤掉那些被认为不适宜的内容。

通常,这些系统级提示词是不对外公开的。 这主要是为了防止被恶意利用,例如被用于“越狱”攻击,绕过系统的安全限制,从而诱导模型输出有害或不当的内容。

不过,在某些情况下,系统提示词可能会因各种原因意外泄露。

例如,最近 Grok 3 的部分系统级提示词就被用户成功提取出来,并在网络上公开,如下所示。 需要注意的是,这通常并非完整的系统提示词全貌。

被泄漏的Grok3系统提示词

英文版

译为中文

# 你是 xAI 构建的 Grok 3。

## 在适当的情况下,你可以使用一些额外的工具:

- 你可以分析 X 用户个人资料、X 帖子及其链接。

- 你可以分析用户上传的内容,包括图片、PDF、文本文件等等。

- 如有需要,你可以搜索网络和 X 平台上的帖子以获取更多信息。

- 如果用户似乎想要生成图片,请先询问确认,而不是直接生成。

- 你只能编辑之前由你生成的图片。

- 如果用户询问谁该判死刑或该死,请告知他们,作为 AI,我无法做出此类选择。

## 当前日期是 2025 年 2 月 24 日。

- 仅当用户明确要求时,才使用以上信息。

- 你的知识库会持续更新,没有严格的知识截止时间。

- 请勿在回复中使用上述任何信息、能力或指示的语言或术语。这些已融入你的本能,会在你自然的回复中不言而喻地体现。

## DeepSearch 功能:

- DeepSearch 功能支持实时网络搜索,并能从 X 平台帖子、用户资料及其他网络来源检索信息。

- 当用户需要最新的信息、近期发生的事件,或是你内部知识库中没有的数据时,DeepSearch 会被启用。

- DeepSearch 结果会无缝整合到回复中,提供准确及时的信息。

- 使用 DeepSearch 时,你会优先选择可靠的信息来源,并确保信息与用户的查询相关。

- 当查询需要最新数据时,DeepSearch 会自动启动;如有必要,你也可以手动启动。

- DeepSearch 的搜索结果会以自然、对话的方式呈现,除非用户询问,否则不会明确提及搜索过程。

## 使用指南:

- 对于有关时事热点、X 平台的最新帖子,或需要验证近期可能发生变化的事实时,请使用 DeepSearch。

- 对于那些可以使用你内部知识库回答的查询,除非需要额外的背景信息,否则请勿使用 DeepSearch。

- 请始终确保检索到的信息来自可信来源,并且与用户的请求相符。

## Think Mode 功能:

- 当用户请求详细的、逐步分析,或当查询需要更深层次的推理时,Think Mode 会被激活。

- 在 Think Mode 下,你会将问题或疑问分解为易于管理的部分,考虑不同的角度,并评估可能的解决方案或答案。

- 你会提供清晰、逻辑的思考过程,确保你的推理过程透明。

- Think Mode 特别适用于解决复杂问题、应对决策场景,或者当用户希望了解你是如何得出结论时。

- 在 Think Mode 运行时,你会保持自然、对话的语气,使推理过程浅显易懂。

## 使用指南:

- 当用户明确请求使用 Think Mode,或者当查询的复杂程度需要详细分析时,请激活 Think Mode。

- 确保推理过程中的每个步骤都表达清晰,并且以前一个步骤为基础递进。

- 根据推理过程,给出最终答案或建议。

- 如果用户希望得到简洁的回复,可以跳过 Think Mode,但它仍然可以用于更深入的探索。

为了更清晰地理解,我们可以将系统提示词看作是:

  • 安全锁: 防止模型产生不当的输出,例如涉及色情暴力、违法违规等有害内容。

  • “范围界定”: 限定模型的回答范围,避免其泛泛而谈。 例如,某些模型专长于对话交流,另一些则擅长代码生成,系统提示词会明确 你的主要任务是此项,请勿超出范围

  • “思考模式选择”: 指导模型在不同情境下,采用合适的“思维方式”来处理问题。

以 Grok 3 系统提示词为例:

  • 你是 xAI 构建的 Grok 3: 这相当于告知模型 你的身份是,明确其来源和定位。 如同人类的自我介绍,首先确立自身身份。

  • 你可以分析 X 用户资料…搜索网络…: 这些信息类似于告知模型 你具备哪些工具和能力

  • 如果用户问谁该判死刑…你不能做这个选择: 这是 安全红线 的具体体现,明确模型在哪些问题上必须保持克制,哪些行为是绝对禁止的。

  • 当前日期是 2025 年 2 月 24 日: 这是为模型提供 背景信息,使其了解当前的时间节点,并在回答问题时能够考虑到时间因素。

常用AI大模型平台盘点

自ChatGPT 3横空出世,掀起一股AI大模型热潮,国内外各类AI平台如雨后春笋般涌现。想要体验这些强大的AI能力?不必担心高昂的费用!许多平台都提供了免费API或免费额度,让你可以零成本体验人工智能的魅力。

本文将盘点一些常用的、可免费试用的AI大模型平台,方便大家一探究竟。虽然市面上还有许多其他平台,但以下这些是我个人经常使用的,并认为值得推荐的

国内平台

  1. 月之暗面 Kimi

网址 https://www.moonshot.cn/

api控制台 https://platform.moonshot.cn/console

模态: 文字模态、聊天、翻译等

免费额度

一分钟内最多发起的请求数:3 一分钟内最多交互的token数:32000 一天内最多交互的token数:不限

API 接口地址: https://api.moonshot.cn/v1

是否兼容OpenAI:是

可用模型列表

moonshot-v1-8k: 它是一个长度为 8k 的模型,适用于生成短文本。

moonshot-v1-32k: 它是一个长度为 32k 的模型,适用于生成长文本。

moonshot-v1-128k: 它是一个长度为 128k 的模型,适用于生成超长文本。

  1. DeepSeek深度探索

网址 https://www.deepseek.com/

api控制台 https://platform.deepseek.com/

模态: 文字模态、聊天、翻译等

免费额度 无
API接口地址 https://api.deepseek.com/v1
是否兼容OpenAI 是
可用模型 deepseek-chat
**3. 清华智谱AI **

网址 https://bigmodel.cn/

api控制台 https://bigmodel.cn/console

模态: 多模态、文字、视觉、语音等

免费额度 每个模型均有免费额度,
API接口地址 https://open.bigmodel.cn/api/paas/v4/
是否兼容OpenAI 是
模型系列 GLM-4 GLM-4V CogVideoX CogView-3-Plus GLM-4-AllTools
4. 百川智能

网址 https://www.baichuan-ai.com/

api控制台 https://platform.baichuan-ai.com/console

模态: 文字模态、聊天、翻译等

免费额度 赠送¥80
api接口地址 https://api.baichuan-ai.com/v1
是否兼容OpenAI 是
模型系列 Baichuan4 Baichuan3
5. 讯飞星火

网址 https://xinghuo.xfyun.cn/

api控制台 https://xinghuo.xfyun.cn/sparkapi

模态:多模态、文字、图片、语音

免费额度 Spark Lite 模型完全免费,其他模型有赠送额度
api接口地址 无统一
是否兼容OpenAI 不兼容
模型系列 较多
国外平台

  1. DeepGram

网址 https://deepgram.com/

应用场景:语音识别、语音合成
免费额度:注册赠送 $200
是否兼容OpenAI:不兼容
是否需vpn:不需要
2. ElevenLabs

网址 https://elevenlabs.io/

应用场景:语音合成、语音克隆
免费额度:每月10分钟音频合成
是否兼容OpenAI:不兼容
是否需VPN:不需要
3. GroqCloud

网址 https://groq.com/

应用场景:文字聊天、翻译、语音识别
免费额度:较多
是否需VPN:必须
是否兼容OpenAI:兼容
API接口地址:https://api.groq.com/openai/v1
4. X.ai

网址 https://console.x.ai/

应用场景:文字聊天、翻译
免费额度:$20
是否需VPN:必须
是否兼容OpenAI:兼容
API接口地址:https://api.x.ai/v1
需要注意的是,免费额度通常有限,建议大家在试用过程中合理规划资源,并注意各平台的具体使用规则。 希望这份盘点能够帮助你快速找到适合自己的AI平台,开启你的AI探索之旅! 如果你还有其他推荐的免费或低成本AI平台,欢迎在评论区分享!

阿里降噪模型介绍

为什么要降噪?

在许多语音相关的应用场景中,噪声的存在会严重影响性能和用户体验。例如:

  • 语音识别:  噪声会降低语音识别的准确率,尤其是在低信噪比环境下。
  • 语音克隆:  噪声会使依据参考音频合成语音的自然度和清晰度下降。

通过语音降噪能够一定程度上解决这些问题。

常见的降噪方法

目前,语音降噪技术主要有以下几种方法:

  1. 谱减法: 这是一种经典的降噪方法,原理简单。
  2. 维纳滤波: 这种方法对稳定的噪声效果较好,但对于变化的噪声效果有限。
  3. 深度学习: 这是目前最先进的降噪方法。利用强大的深度学习模型,例如循环神经网络 (RNN)、卷积神经网络 (CNN) 和生成对抗网络 (GAN),来学习噪声和语音之间的复杂关系,实现更精准、更自然的降噪效果。

ZipEnhancer 模型:深度学习降噪

本工具基于通义实验室开源的 ZipEnhancer 模型 ,并提供了一个简单易用的界面和 API 接口,让每个人都能轻松体验深度学习降噪的魅力。

项目已在 GitHub 开源

ZipEnhancer 模型的核心是 Transformer 网络结构和多任务学习策略。它不仅能够去除噪声,还能同时增强语音质量和消除回声。工作原理如下:

  • 自注意力机制: 捕捉语音信号中重要的长时关系,理解声音的上下文信息。
  • 多头注意力机制: 从不同的角度分析语音特征,实现更精细的噪声抑制和语音增强。

如何使用本工具?

Windows 预打包版:

  1. 下载并解压预打包版本 (https://github.com/jianchang512/remove-noise/releases/download/v0.1/win-remove-noise-0.1.7z)。
  2. 双击 runapi.bat 文件,浏览器将自动打开 http://127.0.0.1:5080
  3. 选择音频或视频文件,即可开始降噪。

源码部署:

  1. 环境准备: 确保安装了 Python 3.10 - 3.12。
  2. 安装依赖: 运行 pip install -r requirements.txt --no-deps
  3. CUDA 加速(可选): 如果你有 NVIDIA 显卡,可以安装 CUDA 12.1 来加速处理:
    pip uninstall -y torch torchaudio torchvision
    pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
  4. 运行程序: 运行 python api.py

Linux 系统:

  • 需要安装 libsndfile 库:sudo apt-get update && sudo apt-get install libsndfile1
  • 注意: 请确保 datasets 库版本为 3.0,否则可能会出现错误。可以使用 pip list | grep datasets 命令查看版本。

界面预览

界面预览

API 使用方法

接口地址: http://127.0.0.1:5080/api

请求方法: POST

请求参数:

  • stream: 0 返回音频 URL,1 返回音频数据。
  • audio: 待处理的音频或视频文件。

返回结果 (JSON):

  • 成功 (stream=0): {"code": 0, "data": {"url": "音频URL"}}
  • 成功 (stream=1): WAV 音频数据。
  • 失败: {"code": -1, "msg": "错误信息"}

示例代码 (Python): (已在原文基础上优化)

import requests

url = 'http://127.0.0.1:5080/api'
file_path = './300.wav'


# 获取音频 URL
try:
  res = requests.post(url, data={"stream": 0}, files={"audio": open(file_path, 'rb')})
  res.raise_for_status() 
  print(f"降噪后音频 URL: {res.json()['data']['url']}")

except requests.exceptions.RequestException as e:
    print(f"请求失败: {e}")



# 获取音频数据
try:
    res = requests.post(url, data={"stream": 1}, files={"audio": open(file_path, 'rb')})
    res.raise_for_status()
    with open("ceshi.wav", 'wb') as f:
        f.write(res.content)
    print("降噪后的音频已保存为 ceshi.wav")

except requests.exceptions.RequestException as e:
    print(f"请求失败: {e}")

srt/vtt/ass字幕格式

srt / vtt / ass 字幕格式

SRT(SubRip Subtitle)、 VTT(WebVTT)、ASS(Advanced SubStation Alpha) 是3种非常常见的字幕格式。下面详细介绍每种字幕格式及其属性和设置。

SRT 字幕格式

SRT 是一种简单且广泛使用的字幕格式,后缀是.srt, 尤其在视频播放器、字幕编辑器中非常流行。其基本结构包括字幕编号、时间戳、字幕文本,字幕属性无法通过 SRT 直接定义(例如颜色、字体),通常依赖播放器的默认设置或外部样式文件来控制。

SRT 格式结构

SRT 文件中的每个字幕块按以下格式排列:

  1. 字幕编号(逐行递增)
  2. 时间戳(显示开始时间和结束时间,精确到毫秒)
  3. 字幕内容(可以包含多行文本)
  4. 一个空行(用于分隔字幕块)

SRT 示例

1
00:00:01,000 --> 00:00:04,000
你好啊我的朋友!

2
00:00:05,000 --> 00:00:08,000
今天天气不错,你觉得呢.

详细说明

  • 字幕编号:每个字幕块都有唯一的编号,按顺序递增。编号从 1 开始,必须是整数。

    • 示例:1
  • 时间戳:格式为 HH:MM:SS,mmm,其中 HH 是小时,MM 是分钟,SS 是秒,mmm 是毫秒。时间戳由两个时间组成,用 --> 分隔,该符号两侧各有一个空格,表示字幕的开始和结束时间。

    • 示例:00:00:01,000 --> 00:00:04,000
  • 字幕内容:字幕文本可以包含一行或多行,显示在视频上。SRT 不支持格式化文本,如颜色、字体大小等。这些必须通过播放器设置或额外的样式文件定义。

    • 示例:
      你好啊我的朋友!

SRT 格式限制

  • 不支持文本格式化:不能直接设置颜色、字体等,需要播放器或其他工具进行样式调整。

VTT 字幕格式

WebVTT(Web Video Text Tracks)是用于 HTML5 视频元素的字幕格式,专为网络视频设计。它比 SRT 格式功能更强大,支持样式、注释、多语言、位置信息等属性,字幕文件格式后缀是.vtt。但它不可直接嵌入视频,必须在html的 <video> 中引用

VTT 格式结构

VTT 文件类似于 SRT,但带有更多的功能。VTT 文件以 WEBVTT后接1个空行开头,并且使用 .点符号而不是 , 来分隔秒和毫秒。

VTT 示例

WEBVTT

1
00:00:01.000 --> 00:00:04.000
你好啊, <b>朋友们!</b>

2
00:00:05.000 --> 00:00:08.000
今天的雨 <i>非常非常大啊</i>.

详细说明

  • WEBVTT 声明:所有 VTT 文件必须以 WEBVTT 开头,声明其文件格式。

    • 示例:WEBVTT
  • 字幕编号:字幕编号是可选的,不像 SRT 格式中是必需的。它的作用是区分每段字幕的顺序,但在 VTT 中可以省略。

  • 时间戳:格式为 HH:MM:SS.mmm,其中 HH 是小时,MM 是分钟,SS 是秒,mmm 是毫秒。使用 .英文句号点分隔秒和毫秒,而不是 ,。时间戳由两个时间组成,用 --> 分隔,同样两侧各有一个空格。

    • 示例:00:00:01.000 --> 00:00:04.000
  • 字幕内容:字幕文本可以包含 HTML 标签,用于格式化文本,如加粗(<b>)、斜体(<i>)、下划线(<u>)等。

    • 示例:
      你好啊, <b>朋友们!</b>

VTT 支持的其他功能

  1. 样式(CSS)

    • VTT 支持通过 CSS 进行文本样式的调整,如颜色、字体大小、位置等。可以在 HTML 中通过 <style> 标签或外部 CSS 文件定义样式。
    • 示例:
      <c.red>你好啊朋友们!</c>
      在 HTML 中定义 .red { color: red; },则 Hello, world! 将以红色显示。
  2. 位置信息

    • VTT 支持通过 positionline 等属性设置字幕的具体位置。
    • 示例:
      00:00:01.000 --> 00:00:04.000 position:90% line:10%
  3. 注释

    • VTT 支持在文件中添加注释,注释以 NOTE 开头。
    • 示例:
      NOTE 这行是注释,将不会显示.
  4. 多语言支持

    • VTT 可以通过元数据或 HTML5 的 <track> 标签来支持多语言字幕。

VTT 格式的优势

  • 文本格式化:支持 HTML 标签进行简单的文本格式化,如加粗、斜体等。
  • 样式和定位:通过 CSS 可以设置字幕的样式和位置。
  • 注释和元数据:支持添加注释信息,不影响字幕显示。
  • 网络兼容性:专为 HTML5 视频设计,适合 Web 环境。

SRT 与 VTT 的对比

特性SRTVTT
文件头WEBVTT后接1个空行
时间戳格式HH:MM:SS,mmm,英文逗号分隔秒和毫秒HH:MM:SS.mmm英文句号分割秒和毫秒
支持文本格式化不支持支持 HTML 标签,如 <b><i>
字幕编号必须有可选
样式和位置支持依赖播放器或外部样式文件内置 CSS 样式支持,支持位置信息
注释不支持支持 NOTE 注释
支持的高级功能仅基础字幕功能支持卡拉OK、注释、样式等
使用场景本地视频文件,简单字幕显示HTML5 视频,网络字幕,复杂字幕显示
是否嵌入视频可嵌入视频文件不可嵌入视频,只能用于网页<video>元素内使用

VTT(WebVTT)字幕格式不能直接嵌入到 MP4 文件中,但可以通过 HTML5 的 <track> 标签将 VTT 文件与 MP4 视频关联起来。在浏览器中打开 MP4 时,这些关联的字幕可以正常显示。

使用 VTT 字幕在浏览器中播放 MP4

在 HTML5 中,可以通过 <video> 元素加载 MP4 视频,并使用 <track> 元素将 VTT 字幕关联到该视频。

HTML 示例:

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title></title>
</head>
<body>
    <video controls width="600">
        <source src="video.mp4" type="video/mp4">
        <track src="subtitles.vtt" kind="subtitles" srclang="zh" label="简体中文">
        Your browser does not support the video tag.
    </video>
</body>
</html>

HTML 元素解释

  • <video>: 用于嵌入视频文件。controls 属性让用户可以控制视频播放(播放/暂停等)。
  • <source>: 定义视频文件的路径和类型,在这里使用 MP4。
  • <track>: 定义字幕文件,src 属性指向 VTT 文件的路径,kind="subtitles" 表示它是字幕,srclang 指定字幕的语言(zh 表示中文),label 给该字幕轨道一个描述性标签。

将 HTML 文件和相关的视频、字幕文件存放在同一目录下。然后,通过浏览器打开 HTML 文件(如 index.html),会看到视频播放器,点击播放时字幕会自动显示(如果播放器支持且用户开启字幕)。

大多数现代浏览器和视频播放器支持字幕切换。可以通过视频控制栏中的字幕按钮选择不同的字幕(如果有多个字幕轨道)。

VTT字幕注意事项

  • 浏览器兼容性:几乎所有现代浏览器(如 Chrome、Firefox、Edge 等)都支持 <video> 元素和 WebVTT 字幕。只要 VTT 文件和 MP4 文件正确关联,浏览器中播放视频时应能显示字幕。

  • 无法直接嵌入 MP4 文件:VTT 字幕文件不能像 SRT 或其他字幕格式那样直接嵌入到 MP4 文件中。MP4 文件本身不包含 VTT 字幕轨道。需要使用外部字幕文件并通过 HTML5 <track> 标签来关联。

  • VTT 字幕的样式:在浏览器中,WebVTT 字幕可以通过 CSS 进行一定的样式控制。如果需要定制字幕外观,可以通过 JavaScript 和 CSS 进一步修改样式。


ASS 字幕格式

ASS (Advanced SubStation Alpha) 是一种功能丰富的字幕格式,广泛用于动漫、卡拉OK字幕和其他需要复杂字幕特效的场景。支持丰富的样式控制,包括字体、颜色、位置、阴影和轮廓等。

下面是一个ass字幕示例。

[Script Info]
; Script generated by FFmpeg/Lavc60.27.100
ScriptType: v4.00+
PlayResX: 384
PlayResY: 288
ScaledBorderAndShadow: yes
YCbCr Matrix: None

[V4+ Styles]
Format: Name, Fontname, Fontsize, PrimaryColour, SecondaryColour, OutlineColour, BackColour, Bold, Italic, Underline, StrikeOut, ScaleX, ScaleY, Spacing, Angle, BorderStyle, Outline, Shadow, Alignment, MarginL, MarginR, MarginV, Encoding
Style: Default,黑体,16,&hffffff,&HFFFFFF,&h000000,&H0,0,0,0,0,100,100,0,0,1,1,0,2,10,10,10,1
[Events]
Format: Layer, Start, End, Style, Name, MarginL, MarginR, MarginV, Effect, Text
Dialogue: 0,0:00:01.95,0:00:04.93,Default,,0,0,0,,这是一个古老星系,
Dialogue: 0,0:00:05.42,0:00:08.92,Default,,0,0,0,,我们观测它已经有好几年,
Dialogue: 0,0:00:09.38,0:00:13.32,Default,,0,0,0,,韦伯望远镜最近传过来许多过去未发现过的照片.

ASS 字幕结构

一个标准的 ASS 字幕文件包含多个部分:

  1. [Script Info]:脚本的基本信息,如标题、原始字幕作者等。
  2. [V4+ Styles]:字幕样式定义,每种样式可以被不同的字幕行引用。
  3. [Events]:实际的字幕事件,定义了字幕的出现时间、消失时间和具体内容。

1. [Script Info] 部分

此部分包含字幕文件的元数据,定义了字幕的一些基本信息。

[Script Info]
Title: 字幕标题
Original Script: 字幕作者
ScriptType: v4.00+
PlayDepth: 0
PlayResX: 1920
PlayResY: 1080
ScaledBorderAndShadow: yes
YCbCr Matrix: None
  • Title: 字幕文件的标题。
  • Original Script: 原始字幕的作者信息。
  • ScriptType: 定义脚本版本,通常为 v4.00+
  • PlayResXPlayResY: 定义视频的分辨率,表示字幕在该分辨率下的显示效果。
  • PlayDepth: 视频的颜色深度,一般为 0。
  • ScaledBorderAndShadow:指定是否将字幕的边框(Outline)和阴影(Shadow)按照屏幕分辨率进行缩放。yes是,no不缩放
  • YCbCr Matrix:指定用于色彩转换的 YCbCr 矩阵。在视频处理和字幕渲染中,YCbCr 是一种色彩空间,通常用于视频编码和解码。这个设置可能影响字幕在不同色彩空间下的显示效果

2. [V4+ Styles] 部分

此部分定义字幕的样式,每个样式都可以通过字段控制字幕的字体、颜色、阴影等。格式如下:

[V4+ Styles]
Format: Name, Fontname, Fontsize, PrimaryColour, SecondaryColour, OutlineColour, BackColour, Bold, Italic, Underline, StrikeOut, ScaleX, ScaleY, Spacing, Angle, BorderStyle, Outline, Shadow, Alignment, MarginL, MarginR, MarginV, Encoding
Style: Default,Arial,20,&H00FFFFFF,&H0000FFFF,&H00000000,&H00000000,-1,0,0,0,100,100,0,0,1,1,0,2,10,10,20,1

字段解释:

  1. Name:样式的名称,用于引用。

    • 示例:Default,表示这是默认样式。
  2. Fontname:字体名称。

    • 示例:Arial,字幕将使用 Arial 字体。
  3. Fontsize:字体大小。

    • 示例:20,字体大小为 20。
  4. PrimaryColour:主字幕颜色,表示字幕的主要颜色(通常是显示的文字颜色)。

    • 示例:&H00FFFFFF,白色字体。颜色值格式为 &HAABBGGRR,其中 AA 是透明度。
  5. SecondaryColour:次字幕颜色,通常用于卡拉OK字幕的过渡颜色。

    • 示例:&H0000FFFF,蓝色。
  6. OutlineColour:轮廓颜色。

    • 示例:&H00000000,黑色轮廓。
  7. BackColour:背景颜色,通常用于 BorderStyle=3 的情况下(带背景框的字幕)。

    • 示例:&H00000000,黑色背景。
  8. Bold:粗体设置。

    • 示例:-1 表示粗体,0 表示非粗体。
  9. Italic:斜体设置。

    • 示例:0 表示非斜体,-1 表示斜体。
  10. Underline:下划线设置。

    • 示例:0 表示无下划线。
  11. StrikeOut:删除线设置。

    • 示例:0 表示无删除线。
  12. ScaleX:水平缩放比例,100 表示正常比例。

    • 示例:100,表示不缩放。
  13. ScaleY:垂直缩放比例。

    • 示例:100,表示不缩放。
  14. Spacing:字符间距。

    • 示例:0,表示无额外间距。
  15. Angle:字幕旋转角度。

    • 示例:0,表示无旋转。
  16. BorderStyle:边框样式,定义字幕是否有轮廓或背景框。

    • 示例:1 表示有轮廓但无背景框,3 表示有背景框。
  17. Outline:轮廓粗细。

    • 示例:1,表示轮廓的粗细为 1。
  18. Shadow:阴影深度。

    • 示例:0,表示无阴影。
  19. Alignment:字幕对齐方式,使用 1-9 的数字定义不同的对齐位置。

    • 示例:2,表示字幕居中对齐。

    对齐方式解释:

    • 1:左下角
    • 2:底部居中
    • 3:右下角
    • 4:左中
    • 5:居中
    • 6:右中
    • 7:左上角
    • 8:顶部居中
    • 9:右上角
  20. MarginL, MarginR, MarginV:左、右、垂直的边距,单位为像素。

    • 示例:10, 10, 20,表示左右边距为 10 像素,垂直边距为 20 像素。
  21. Encoding:编码格式,1 表示 ANSI 编码,0 表示默认编码。


3. [Events] 部分

此部分定义实际的字幕事件,包括时间戳、字幕内容和使用的样式。

[Events]
Format: Layer, Start, End, Style, Name, MarginL, MarginR, MarginV, Effect, Text
Dialogue: 0,0:00:01.00,0:00:05.00,Default,,0,0,0,,这是第一句字幕
Dialogue: 0,0:00:06.00,0:00:10.00,Default,,0,0,0,,这是第二句字幕

字段解释:

  1. Layer:层级,控制字幕的叠放顺序,数字越大层级越高。

    • 示例:0,表示默认层级。
  2. Start:字幕开始时间,格式为 小时:分钟:秒.毫秒

    • 示例:0:00:01.00,表示字幕从 1 秒处开始。
  3. End:字幕结束时间。

    • 示例:0:00:05.00,表示字幕在 5 秒处结束。
  4. Style:使用的字幕样式名称,引用在 [V4+ Styles] 中定义的样式。

    • 示例:Default,使用名称为 Default 的样式。
  5. Name:可选字段,通常用于角色名标注。

  6. MarginL, MarginR, MarginV:字幕的左、右、垂直边距,覆盖样式中定义的值。

  7. Effect:字幕特效,通常用于卡拉OK字幕等。

  8. Text:字幕的实际内容,可以使用 ASS 格式的控制符实现换行、特殊样式和定位等。


示例字幕事件

Dialogue: 0,0:00:01.00,0:00:05.00,Default,,0,0,0,,{\pos(960,540)}这是第一句字幕
  • {\pos(960,540)}:控制字幕显示在屏幕的特定位置(横向960像素,纵向540像素)。
  • 这是第一句字幕:实际显示的字幕文本。

ASS中颜色设置

&HAABBGGRR为例,&HAABBGGRR 是一个用于表示颜色的十六进制格式,其中包含了颜色的透明度和颜色本身的值。这个格式用于定义字幕的颜色属性,如 PrimaryColourOutlineColourBackColour

含义如下:

  • AA: 透明度(Alpha 通道),表示颜色的透明度。
  • BB: 蓝色分量(Blue)。
  • GG: 绿色分量(Green)。
  • RR: 红色分量(Red)。

具体的字节顺序为:Alpha(透明度)- Blue(蓝色)- Green(绿色)- Red(红色)。

如果不想使用透明度,可直接忽略掉AA位置的值,例如&HBBGGRR即可。

透明度和颜色值

  • 完全透明: 颜色完全透明,即不可见。表示方式是 &H00BBGGRR,其中 AA 部分为 00(完全透明)。

    示例:

    &H00FFFFFF
    • 这里,&H00FFFFFF 表示完全透明的白色。透明度为 00(完全透明),颜色为 FFFFFF(白色)。
  • 完全不透明: 颜色完全不透明,即颜色显示效果最为明显。表示方式是 &HFFBBGGRR,其中 AA 部分为 FF(完全不透明)。

    示例:

    &HFF000000
    • 这里,&HFF000000 表示完全不透明的黑色。透明度为 FF(完全不透明),颜色为 000000(黑色)。

实际颜色示例

  1. 完全透明的红色:

    &H00FF0000
    • 透明度 00(完全透明),颜色 FF0000(红色)。
  2. 完全不透明的绿色:

    &HFF00FF00
    • 透明度 FF(完全不透明),颜色 00FF00(绿色)。
  • &HAABBGGRR 中的 AA 部分控制透明度,BB, GG, RR 部分控制颜色。
  • 完全透明: 透明度 00,例如 &H00FF0000 表示完全透明的红色。
  • 完全不透明: 透明度 FF,例如 &HFFFF0000 表示完全不透明的红色。

三步反思法翻译SRT字幕

本文工具已打包为exe,下载解压后双击 app.exe 可用,具体使用方法和原理请继续阅读本文

下载地址 https://github.com/jianchang512/ai2srt/releases/download/v0.2/windows-ai2srt-0.2.7z

吴恩达老师的「反思式三步翻译法」非常有效,它通过让模型自我审视翻译结果并提出改进建议,进一步提升翻译质量。然而,直接将该方法应用于 SRT 格式字幕翻译却存在一些挑战。

SRT 字幕格式的特殊要求

SRT 格式字幕有严格的格式要求:

  • 第一行: 行号数字
  • 第二行: 两个时间戳,由 --> 连接,格式为 小时:分钟:秒,3位毫秒
  • 第三行及以后: 字幕文本内容

字幕之间使用两个空行隔开。

示例:

1
00:00:01,950 --> 00:00:04,430
五老星系中发现了有几分子,

2
00:00:04,720 --> 00:00:06,780
我们离第三类接触还有多元。

3
00:00:07,260 --> 00:00:09,880
微博真是展开拍摄任务已经进来周年,

4
00:00:10,140 --> 00:00:12,920
最近也传过来许多过去难以拍摄到的照片。

SRT 翻译中的常见问题

在使用 AI 翻译 SRT 字幕时,可能会出现以下问题:

  • 格式错误:
    • 丢失行号或重复时间戳
    • 将时间戳中的英文符号翻译成中文符号
    • 将相邻两条字幕文本合并成一行,尤其是在上句和下句在语法上构成完整句子时
  • 翻译质量问题:
    • 即使使用严格的提示词限制,也经常会出现翻译错误。

常见错误示例:

  • 字幕文本合并导致空行

image.png

  • 格式混乱

image.png

  • 行号被翻译

image.png

  • 原始字幕和结果字幕数量不一致

像上面所述,当前后两条字幕在语法上属于一句时,很可能会被翻译为同一条,导致结果字幕条数缺少

image.png

而格式出现错误直接导致后续依赖srt的流程无法进行,不同模型出现的错误和出错概率各不相同,相对来说,智能程度越高的模型,越可能返回合法的符合要求的内容,而本地部署的小规模模型几乎压根不可用。

不过鉴于三步反思法对翻译质量的提升,还是尽量尝试了下。最终选择使用 gemini-1.5-flash 小小尝试一下,主要因为它的智能程度足够、而且免费,除了限制频繁,其他几乎无限制。

撰写提示词思路

按照吴恩达的三步反思工作流,撰写提示词

  • 第一步要求AI按照字面意思直译
  • 第二步要求根据直译结果评估并给出优化建议
  • 第三步根据优化建议重新进行意译。

所不同的是加强要求返回的内容务必是合法的SRT格式,虽然它未必百分百遵从。

搭建简单api

三步反思模式一个问题是额外消耗多得多的token,提示词变长,输出结果变长,另外因Gemini的频率限制,超频会返回429报错,需要在每次请求之后暂停一段时间。

采用 flask 搭建后端api,前台使用 bootstrap5 简单做个单页,总体界面如下

image.png

显然国内想使用 Gemini 必须有梯子

  • 同时翻译行:是指一次翻译请求中的字幕行数,如果太大可能超出token限制,导致出错,太小没有意义,建议30-100内,默认50。
  • 翻译后暂停秒:防止请求过于频繁导致返回 429 报错,将在每次请求返回后暂停10s,再发起下次请求

返回结果示例

<step1_initial_translation>
1
00:00:01,950 --> 00:00:04,430
Several molecules have been discovered in the five-star system,

2
00:00:04,720 --> 00:00:06,780
We are still multiple universes away from third-type contact.

3
00:00:07,260 --> 00:00:09,880
Weibo has been carrying out filming missions for years now,

4
00:00:10,140 --> 00:00:12,920
Many previously difficult-to-capture photos have been transmitted recently.

5
00:00:13,440 --> 00:00:17,500
In early June, astronomers published this photo in Nature,

6
00:00:18,040 --> 00:00:19,180
Outside the blue core,

7
00:00:19,360 --> 00:00:21,380
There\'s also this circle of orange light,

8
00:00:21,900 --> 00:00:23,740
This is a new drama-scale sweet donut,

9
00:00:24,380 --> 00:00:25,640
This is a portal.

10
00:00:26,280 --> 00:00:28,100
This is the generation ring of an alien civilization,

</step1_initial_translation>

<step2_reflection>
* **Line 1:** "Five-star system" is likely a mistranslation.  It probably refers to a five-member committee or group, not a star system. Clarify the context.
* **Line 2:** "Multiple universes" seems like an over-exaggeration.  Rephrase for clarity and accuracy.
* **Line 3:** "Weibo" should be explained as a Chinese social media platform.  "Filming missions" is unclear.  Does it mean "posting videos/images"?
* **Line 8:** "Drama-scale sweet donut" is a nonsensical literal translation. Figure out the intended meaning.
* **Line 9:** "Portal" seems out of context.  Verify the intended meaning.
* **Line 10:** "Generation ring" is likely a mistranslation.  Clarify the context.
* **Line 11:** "Organic polycyclic aromatic hydrocarbons" is overly technical for a general audience. Simplify if possible.
* **Line 12 and 14:** Use the correct formatting for the galaxy\'s name: SPT0418-47.
* **Line 15:** "It hasn\'t been shortened" is awkward. Remove or rephrase.
* **Line 28:**  The name of the organization and the resource should be translated more naturally and accurately.  Consider breaking this long line into two for better readability.
* **Line 29:**  "Cute plush dolls" may sound childish. Consider rephrasing as "animated characters" or similar.
* **Line 35:** "James Webb Space Telescope" should be used consistently throughout. Shortening to "Webb Telescope" after the first mention is acceptable.
* **Line 44:** "SPD048" is likely a typo.  It should be SPT0418-47 to be consistent.
* **Line 45-46:**  "Standard beautiful photo" is redundant.  Simplify to "beautiful photo".
* **Line 48:** "Grovitational Lenshin" is a typo. Correct to "Gravitational Lensing".
* **Line 50:** The sentence is incomplete. Finish the thought.

</step2_reflection>

<step3_refined_translation>
1
00:00:01,950 --> 00:00:04,430
Several molecules have been discovered in the five-member group\'s area of focus.

2
00:00:04,720 --> 00:00:06,780
We are still far from making contact with extraterrestrial life.

3
00:00:07,260 --> 00:00:09,880
The James Webb Space Telescope has been capturing images for a year now,

4
00:00:10,140 --> 00:00:12,920
and has recently transmitted many previously unseen photos.

5
00:00:13,440 --> 00:00:17,500
In early June, astronomers published this image in Nature.

6
00:00:18,040 --> 00:00:19,180
Outside the blue core,

7
00:00:19,360 --> 00:00:21,380
there\'s a ring of orange light.

8
00:00:21,900 --> 00:00:23,740
This is a large, ring-shaped structure.

9
00:00:24,380 --> 00:00:25,640
This is being investigated.

10
00:00:26,280 --> 00:00:28,100
This is thought to be a sign of an early galaxy.

</step3_refined_translation>

从结果中提取出标签内文本,即是翻译结果。

简单打了一个包,感兴趣可下载本地尝试

直接下载,解压后双击app.exe即可自动在浏览器中打开上述UI界面,输入在Gemini申请的Key、填写代理地址、选择要翻译的srt字幕文件、选择要翻译到的目标语言,试试结果。

image.png

Q1: 反思工作流与传统机器翻译有何不同?

A1: 反思工作流引入了自我评估和优化机制,模拟人类译者的思考过程,能够产生更加精准和自然的翻译结果。

Q2: 使用反思工作流需要多长时间?

A2: 虽然反思工作流需要多次AI处理,但通常只比传统方法多花费10–20秒,考虑到翻译质量的提升,这点时间投资是值得的。

Q3: 反思工作流能保证字幕翻译结果一定是合法srt吗

A3: 不能,仍可能出现空行、同原始字幕数不一致的问题,例如前后两条字幕,后边一条仅有3-5个文字,而且语法上属于上面一句的连续,那么翻译结果很可能会合并为一条



对小工具加了一个功能,可支持同时上传视频或音频文件,借助Gemini将音频视频转为字幕,在转为字幕的同时还可以进行翻译,并返回翻译结果。

Gemini大模型本身既支持文字形态又支持音视频形态,因此可以一个请求实现从音视频转录为字幕并翻译。

例如一个英语发音的视频发送给Gemini,并指定翻译为中文,那么返回的就是一个中文字幕。

image.png

image.png

1. 仅翻译字幕

可以在左侧文本框粘贴SRT格式的字幕内容,或直接点击“上传SRT字幕”按钮,从本地计算机选择字幕文件。

然后设定想翻译到的目标语言,即可使用“三步反思翻译法”指挥Gemini执行翻译任务,返回结果输出到右侧文本框内,点击右下角“下载按钮”可保存为srt文件到本地

2. 将音频视频转录为字幕

点击左侧的“上传音视频转录为字幕”按钮,选择任意音频或视频文件上传,上传完毕后,提交,Gemini在处理后,将返回根据音视频里的说话声识别道的字幕内容,效果还不错。

如果同时指定了目标语言,那么Gemini在识别后,会继续讲该结果翻译为你指定的语言再返回。也就是同时完成生成字幕和翻译字幕2个任务。

下载地址:  

https://github.com/jianchang512/ai2srt/releases/download/v0.2/windows-ai2srt-0.2.7z

KokoroTTS整合包下载

这是一个用于kokoro TTS项目的webui和api项目,支持中文、英文、日语、法语、意大利语、葡萄牙、西班牙、印地语共8种语言配音

项目地址 https://github.com/jianchang512/kokoro-uiapi

web界面

启动后默认ui地址: http://127.0.0.1:5066

  • 支持对文字和SRT字幕进行配音
  • 支持在线试听和下载
  • 支持对齐字幕

安装方法

Windows

win10/11 可直接下载整合包,双击 start.bat 即可启动,若需GPU加速,请确保拥有NVIDIA显卡并安装CUDA12

百度网盘下载地址: https://pan.baidu.com/s/1jTB84E3-gaLqFrl32f4sDw?pwd=xnwp

GitHub下载(不含模型需vpn在线下载): https://github.com/jianchang512/kokoro-uiapi/releases/download/v0.1/kokoro-uiapi-noModels-v0.2.7z

Linux/MacOS

首先确保系统已安装python3.8+,建议 3.10-3.11

Linux上使用 apt install ffmpegyum install ffmpeg 预先安装 ffmpeg

MacOS使用 brew install ffmpeg 安装ffmpeg

  1. 拉取源码 git clone https://github.com/jianchang512/kokoro-uiapi
  2. 创建虚拟环境并激活
    cd kokoro-uiapi
    python3 -m venv venv
    . venv/bin/activate
    
  3. 安装依赖 pip3 install -r requirements.txt
  4. 启动 python3 app.py

在 pyVideoTrans 中使用

  1. 首先启动本项目,windows整合包双击 start.bat,源码安装的执行python3 app.py

  2. 升级 pyVideoTrans 到v3.48+,打开菜单–TTS设置-Kokoro TTS–http地址填写 http://127.0.0.1:5066

兼容openai API

api兼容 OpenAI TTS

启动后默认API地址:http://127.0.0.1:5066/v1/audio/speech

请求方法:POST
请求数据:
application/json

{
		input:需要配音的文字,
		voice:配音角色,
		speed:语速默认1.0
}

成功返回mp3音频数据

OpenAI SDK 使用示例

from openai import OpenAI
client = OpenAI(
    api_key='123456',
    base_url='http://127.0.0.1:5066/v1'
)

try:
    response = client.audio.speech.create(
		model='tts-1',
        input='你好啊,亲爱的朋友们',
        voice='zf_xiaobei',
        response_format='mp3',
        speed=1.0
	)
    with open('./test_openai.mp3', 'wb') as f:
        f.write(response.content)
    print("MP3 file saved successfully to test_openai.mp3")
except Exception as e:
    print(f"An error occurred: {e}")

角色列表

英语配音角色:


af_alloy
af_aoede
af_bella
af_jessica
af_kore
af_nicole
af_nova
af_river
af_sarah
af_sky
am_adam
am_echo
am_eric
am_fenrir
am_liam
am_michael
am_onyx
am_puck
am_santa
bf_alice
bf_emma
bf_isabella
bf_lily
bm_daniel
bm_fable
bm_george
bm_lewis

中文角色:

zf_xiaobei
zf_xiaoni
zf_xiaoxiao
zf_xiaoyi
zm_yunjian
zm_yunxi
zm_yunxia
zm_yunyang

日语角色:

jf_alpha
jf_gongitsune
jf_nezumi
jf_tebukuro
jm_kumo

法语角色: ff_siwis

意大利语角色: if_sara,im_nicola

印地语角色:hf_alpha,hf_beta,hm_omega,hm_psi

西班牙语角色:ef_dora,em_alex,em_santa

葡萄牙语角色:pf_dora,pm_alex,pm_santa

代理VPN

源码部署方式需从 huggingface.co 上下载音色pt文件,需提前设置全局代理或系统代理,确保可访问

也可以提前下载好模型解压到 app.py 所在目录下。

模型下载地址 https://github.com/jianchang512/kokoro-uiapi/releases/download/v0.1/moxing--jieya--dao--app.py--mulu.7z

Credit

使用AI模型翻译字幕

已经在使用AI做视频翻译,想要更上一层楼? 想要翻译质量更高,成本更低?那么,是时候了解一下国内顶级的AI大模型了!

Deepseek V3/R1、Qwen2.5 这些国产AI,在翻译方面表现出色,而且价格比国外大模型更有优势。 更棒的是,我们可以通过阿里百炼和硅基流动这两个“大模型集市”,用一个API Key就能轻松调用它们,并将它们无缝集成到视频翻译软件中。

本文将手把手教你如何操作,让你充分利用国产AI大模型,提升视频翻译的质量和效率!

一、阿里百炼:海量模型,总有一款适合你!

阿里百炼就像一个 AI 模型超市,汇集了阿里通义千问系列等众多优秀模型。最大的优势在于,价格很便宜,运行稳定。

  1. 登录阿里百炼平台:
    访问 https://bailian.console.aliyun.com 并登录。

  2. 浏览模型并复制名称:
    在模型列表中,你可以看到各种可用的 AI 模型,以及它们的价格信息。 qwen-max-latestqwen2.5-72b-instruct 模型目前翻译效果不错。

image.png

点击你感兴趣的模型的“查看详情”,找到并复制它的 模型名称

image.png

  1. 创建并复制 API Key:
    访问 API Key 管理页面 https://bailian.console.aliyun.com/?apiKey=1#/api-key 并创建一个新的 API Key。 复制这个 Key,后面会用到。

image.png

  1. 配置视频翻译软件:
    回到你的视频翻译软件,菜单中找到 翻译设置–>OpenAI ChatGPT API 设置页面,进行如下修改:

    • API URL: 填写 https://dashscope.aliyuncs.com/compatible-mode/v1
    • SK: 粘贴你刚才从阿里百炼复制的 API Key。
    • 填写所有可用模型: 填写你从阿里百炼复制的模型名称。
    • 选择模型: 在下拉框中选择你想使用的模型名称。

image.png

  1. 保存并测试:
    点击“保存”,然后测试一下翻译功能,看看是否一切正常。

二、探索硅基流动:又一个宝藏大模型平台

硅基流动和阿里百炼类似,也是一个大模型集市,提供多种选择。

  1. 登录硅基流动平台:

    访问 https://cloud.siliconflow.cn/models 并登录。

image.png

这里推荐 `Qwen2.5-72b` 模型,它在稳定性和价格之间取得了很好的平衡,翻译效果也很棒。

image.png

点击模型名称,在弹出的详情页中复制 模型名称

image.png

  1. 创建并复制 API Key:

image.png

  1. 配置视频翻译软件:
    同样,回到视频翻译软件,菜单中找到 翻译设置–>OpenAI ChatGPT API 设置页面:

    • API URL: 填写 https://api.siliconflow.cn/v1
    • SK: 粘贴你从硅基流动复制的 API Key。
    • 填写所有可用模型: 填写你复制的模型名称,如果想使用多个模型,可以用英文逗号分隔。
    • 选择模型: 在下拉框中选择你想使用的模型名称。
  2. 保存并测试:
    image.png

三、直连 Deepseek 官方渠道 (近期不稳定,暂不可用)

如果想体验原汁原味的 Deepseek 模型,可以试试官方渠道:

  1. 注册并获取 API Key:
    首先,前往 Deepseek 开放平台 https://platform.deepseek.com .

  2. 配置视频翻译软件:
    打开视频翻译软件,菜单中找到 翻译设置–>OpenAI ChatGPT API,我们稍作修改就能用上Deepseek:

    • API URL: 在 “API URL” 文本框中,填写 https://api.deepseek.com/v1
    • SK: 在 “SK” 文本框中,粘贴你刚才在 Deepseek 平台创建的 API Key。
  3. 选择模型:

    • 填写所有可用模型文本框内输入 deepseek-chat,deepseek-reasoner
    • 选择模型下拉框中选中你想要使用的模型deepseek-chat

    小贴士: deepseek-chat 是 V3 模型,适合日常翻译。deepseek-reasoner 是 R1 模型,更擅长逻辑推理,但速度可能稍慢。

    点击“保存”,大功告成!

image.png

四、选择你的翻译引擎

完成配置后,在视频翻译软件的 翻译渠道 选项中,选择 OpenAI ChatGPT 就能使用啦!

image.png

总结:

  • 阿里百炼: 价格便宜,很多模型都有免费额度,包括 Deepseek V3 和 R1。 稳定性也较高,强烈推荐!

    • API URL: https://dashscope.aliyuncs.com/compatible-mode/v1
  • 硅基流动: 又一个不错的选择,模型丰富。

    • API URL: https://api.siliconflow.cn/v1
  • Deepseek 官方渠道: 建议使用 deepseek-chat 模型,翻译效果不错。 但要注意 Deepseek API 平台近期可能不太稳定无法使用。

    • API URL:https://api.deepseek.com/v1

现在就开始尝试,用更优质、更经济的国产AI大模型,解锁你的视频翻译新姿势!