翻译

翻译的一些我觉得不错的科技文章。


PyTorch 加速生成式 AI 第二部分:高速 GPT [译]

本篇博客是关于使用纯 PyTorch 加速生成式 AI 模型的系列文章的第二部分,由 PyTorch 团队撰写。我们在这里分享了 PyTorch 的最新性能特性,并通过实际案例,展示了如何最大限度地提升 PyTorch 的性能。在系列的第一篇文章中,我们演示了如何仅用 PyTorch 将“Segment Anything”加速超过 8 倍。本文将聚焦于大语言模型(LLM)的优化技术。

November 30, 2023

View Article

每位经理必须掌握的 10 种领导艺术 [译]

本指南深入剖析了最常见的领导风格,以清晰、直接的方式分析了它们的优点与不足。您将得到一个实用且全面的概述,帮助您不仅了解这些风格本身,还能理解它们在实际情况中的应用方式。无论您已是领导,希望提升领导方法,或是初入领导岗位,这份指南都将为您提供有价值的见解,助您有效应对领导挑战。

November 30, 2023

View Article

五种与你不喜欢的人高效合作的方法 [译]

工作中不仅有艰巨的任务和职业挫折这样的压力源,更具挑战的是,有时你不得不与那些你不喜欢、不合得来或让你感到烦恼的人一起工作。

November 29, 2023

View Article

历史上的一次大的因为用户界面导致的灾难 [译]

我想花点时间探讨历史上的一大用户界面灾难:1988 年 7 月 3 日,美军海军导弹巡洋舰 USS Vincennes (CG-49) 在波斯湾上空误击伊朗航空 655 号航班,机上 290 人全部遇难。

November 29, 2023

View Article

我那价值 5 亿美元的火星探测车失误:一个失败的故事 [译]

2003 年 2 月的一个晚上,我在加州帕萨迪纳的 NASA 喷气推进实验室 (JPL) 里,一切如常。我穿上了洁净室的专用服装,通过了 179 号大楼的高湾 1 气闸室。这里自 60 年代的月球任务 Ranger 系列以来,就是 NASA 许多历史性星际航天器的诞生地。经过无数工程师、技术人员和科学家多年的辛勤劳动,距离 Spirit 火星探测车运往佛罗里达州卡纳维拉尔角发射场,与它的“兄弟”Opportunity 一同踏上旅程,只剩下两周的时间了。

November 29, 2023

View Article

前谷歌员工眼中的开发工具指南[译]

我曾在谷歌短暂工作过,尽管时光荏苒,但那段经历让我对谷歌的内部开发工具印象深刻。谷歌的开发工具在很多方面可谓世界领先。他们不仅在扩展自己的软件系统方面走在前沿,还在大规模高效软件开发方面颇有建树。谷歌处理了代码库规模、代码发现、组织知识共享和多服务部署等问题,这些在大多数公司看来都是高难度挑战。(参考资料:[《谷歌的软件工程》](https://www.amazon.com/Software-Engineering-Google-Lessons-Programming/dp/1492082791)。)

November 29, 2023

View Article

如何从 ChatGPT 中提取其训练数据 [译]

我们最近发布了一篇论文,展示了如何仅花费约两百美元就能从 ChatGPT 中提取数兆字节的训练数据。语言模型如 ChatGPT,是基于从公共互联网收集的数据进行训练的。我们的研究表明,通过对模型进行查询,我们实际上能够获取它训练时使用的一些具体数据。我们估计,如果增加查询模型的投入,能够从中提取大约一千兆字节的 ChatGPT 训练数据集。

November 29, 2023

View Article

大部分 AI 创业公司的未来不乐观 [译]

我见过不少初创公司,他们只是简单地整合几个生成式 AI API,做点提示工程,然后加个前端界面。有些产品做得挺精致,功能也不错。但这些公司大多走不远,要么就是普通公司(并非 Paul Graham 定义下的典型初创公司),要么就消失了。显然,如果你能在一个周末搭建出这样的项目,别人也能。假设你编码能力超群,是位杰出的程序员奇才!其他人或许需要花几个周末……但最终还是会有人做出类似的东西。

November 28, 2023

View Article

黄仁勋领导的 Nvidia 如何推动 AI 革命 [译]

这家公司的 CEO,黄仁勋,把所有筹码压在了一种全新的芯片上。如今 Nvidia 已跻身世界最大公司之列,他的下一步会怎样?

November 28, 2023

View Article

如何阅读一篇学术论文 [译]

研究人员常常需要花费大量时间来阅读学术论文,但这一技能很少有教授传授,导致许多努力白费。本文提出了一个既实用又高效的方法——三遍阅读法,用于阅读学术论文,并介绍了如何利用这种方法进行文献调研。

November 28, 2023

View Article

技术写作入门 [译]

技术写作无处不在——从你新买的智能手机的使用手册,到药瓶上的安全指导,都是技术写作的体现。技术写作的最大魅力在于,它能将复杂的技术信息以清晰、简洁的方式呈现出来。

November 27, 2023

View Article

为何加入 Y Combinator 不是个好主意 [译]

YC 看似是个合理的选择。他们提供资金帮助你创业,并承诺让你接触一个能在创业过程中提供帮助的社区。作为回报,他们仅索取一小部分股权。听起来似乎还不错,不是吗?

November 27, 2023

View Article

在你找到金矿之前,别急着建造矿井 [译]

我听过最恰当的关于创业公司的比喻是,它们就像是淘金之旅。这并非因为其中蕴含的冒险精神、团队间的情谊,或是最终等待着的财富。而是因为淘金之旅分为两个截然不同的阶段:首先,你得寻找到黄金;其次,才能建造矿井。创业公司的真正任务在于前者——Steve Blank 甚至更进一步,将创业公司定义为正处于这一阶段的公司:只有当它找到黄金(或者说,一个“可复制的商业模式”)之后,它才转变为一家普通的商业公司。

November 27, 2023

View Article

Andrej Karpathy 大语言模型视频入门的精选阅读清单 [译]

本文介绍了 Branches,这是我们开发的一款工具,用于构建和展示先进的大语言模型(LLMs)推理和规划算法的原型。我们利用 Branches 来解决为 HumanEval 生成 Python 代码的挑战。

November 27, 2023

View Article

用我的 Telegram 消息微调大语言模型:一段经验分享 [译]

对大部分认识我的人来说,我大多数时间像是一个文本处理程序。既然输入输出都这么简单,一个模型能不能取代我呢?为了实现这一点,模型不只需要模仿我的写作风格,还得对我有深入了解。而我的 Telegram 使用记录是最好的信息源,我每天都用它,它几乎记录了我所有的想法和行动。

November 27, 2023

View Article

神啊,救救我们,让我们试着理解人工智能的“单义性” [译]

你可能听说过,人工智能就像一个“黑匣子”,神秘莫测。没有人确切知道它的运作机制。研究者们构建了一种类似神经组织的奇异结构,每当这个结构稍微朝着他们期望的人工智能方向进展一点,就给予它一些“奖励”。通过这样不断的微调,最终它成长为研究者心中理想的人工智能形态。但究竟这个过程中发生了什么,似乎只有上帝才知道。

November 27, 2023

View Article

超线性回报 [译]

在商业领域,绩效的超线性回报尤为明显。有人认为这是资本主义的弊端,认为改变规则就能改变这一现象。但实际上,绩效的超线性回报是世界的一种本质特征,而非我们人为制定规则的副产品。我们在名誉、权力、军事胜利、知识甚至对人类的贡献等方面都能观察到这一模式。在这些领域,成功者往往会越来越成功。

November 25, 2023

View Article

行动产生信息 [译]

这个问题的提法从极为正面的“谁会不想带领一个团队呢?”到极为负面的“有谁会愿意去管理一个团队呢?”应有尽有。所以我决定写篇文章,列举一些不当经理的理由。

November 25, 2023

View Article

Cloudflare 作为 AI 领域的新动向:与 CEO Matthew Prince 的专访 [译]

我最近在伦敦采访了 Cloudflare 的首席执行官 Matthew Prince,我们讨论了人工智能、边缘计算和开发者体验 (DX) 等领域的最新趋势。他提到了一些颇具洞见的点——例如,他指出,由于 GPU 短缺,AI 公司现在更加倾向于多云解决方案。因为随着技术拓扑结构变得越来越复杂,AI 问题已经演变成了一个分布式计算和网络的挑战。

November 25, 2023

View Article

现代大语言模型应用架构 [译]

本文将介绍构建您首个大语言模型应用所需了解的一切,以及您今天就能开始探索的潜在问题领域。

November 24, 2023

View Article

我使用 Claude AI 编写原创、完整、类似人类风格文章的尝试 [译]

利用像 Claude 这样的 AI 工具,你可以撰写篇幅较长的文章。通过分段撰写,你似乎能保持自己的风格和思路,同时引导 AI。但是,我的实践表明,用 AI 写作比我预期的要难。我可以做到差不多,但由于 AI 工具的训练方式,它们最终更倾向于解释而非辩论,这可能会让个人随笔失去很多趣味。

November 24, 2023

View Article

Q* 假设:思维树推理、过程奖励模型,以及如何大幅提升合成数据的能力 [译]

紧急专题:要弄懂 Q*,我们需要的信息其实就在我们身边,只是网络流行语更比现实生活有趣。

November 24, 2023

View Article

回望我在谷歌的 18 年 [译]

我于 2005 年 10 月加入谷歌,18 年后,我递交了辞呈。上周,我结束了在谷歌的最后一段日子。

November 23, 2023

View Article

我是如何成为机器学习的实践者 [译]

我于 2005 年 10 月加入谷歌,18 年后,我递交了辞呈。上周,我结束了在谷歌的最后一段日子。

November 23, 2023

View Article

苦涩的教训 [译]

只有两种模式能够随着计算能力的增加而无限扩展,那就是学习和搜索。构建 AI 系统时,不应将我们的发现内置其中,而应让 AI 系统能够像我们一样进行发现。这是 AI 领域仍需学习并克服的重要教训。

November 23, 2023

View Article

语言模型中的语言代理树搜索:实现推理、行动与规划的统一 [译]

大语言模型 (LLMs) 已经在各种决策任务上取得了卓越的成绩,但它们通常只执行简单的行为,并没有真正作为自主代理得到广泛应用。我们提出了一种名为 LATS (语言代理树搜索) 的新框架,它将 LLMs 在规划、行动和推理方面的功能有效结合起来。LATS 框架的创新之处在于,它借鉴了强化学习中的蒙特卡洛树搜索技术,将 LLMs 当作代理使用,同时充当价值函数和优化器的角色,通过这种方式大幅提升决策质量。最关键的是,LATS 利用外部环境提供的反馈,实现了一种更为周全和灵活的问题解决方式,这一点超越了现有方法的限制。我们在不同领域进行的实验评估证明了 LATS 的有效性,无论是在编程、HotPotQA 还是 WebShop 任务上,LATS 都显示出了其推理和行动能力。特别值得一提的是,在 HumanEval 编程任务上,配合 GPT-4 的 LATS 达到了 94.4% 的成功率,在 WebShop 网页浏览任务上,配合 GPT-3.5 实现了平均 75.9 的得分,这些成果都突显了我们方法的高效性和广泛适用性。

November 9, 2023

View Article

通向通用人工智能的里程碑:评估进展的新框架 [译]

我们构建了一个新的框架,这个框架可以帮助我们更好地理解通用人工智能(AGI)及其早期版本的能力和表现。这个框架详细划分了 AGI 的性能、适用范围和自我控制能力的不同层次。我们希望,这个框架能够像划分自动驾驶技术等级一样,为人们提供一种通用的语言,以便比较不同的 AGI 模型,评估它们可能带来的风险,并跟踪我们在实现 AGI 这一目标道路上的每一步进展。为了建立这个框架,我们审视了 AGI 的现有定义,并从中提炼出六大原则,以构建一个实用的 AGI 分类体系。这些原则强调重视 AGI 的实际能力,而不仅仅是其背后的技术机制;它们建议我们应当分开评估 AGI 的适用范围和性能水平;并且我们不应该只着眼于最终目标,而应该明确标记出通向 AGI 的每一个阶段。基于这些思路,我们根据 AGI 的能力深度(即性能)和广度(即适用范围)提出了“AGI 等级”,并且对当前系统如何符合这个分类体系进行了思考。我们还讨论了未来评估 AGI 行为和能力的基准测试所面临的挑战。最后,我们探讨了这些 AGI 的不同层次如何与实际部署时的自主性和风险管理相结合,并强调在部署高级 AI 系统时,选择合适的人机交互方式对于确保系统的负责任和安全使用至关重要。

November 8, 2023

View Article

利用 GPT 的视觉能力和 TTS API 来处理视频并添加旁白 [译]

这个笔记本演示了如何利用 GPT 的视觉能力来处理视频内容。

November 7, 2023

View Article

利用大语言模型开发先进的推理与规划算法 [译]

本文介绍了 Branches,这是我们开发的一款工具,用于构建和展示先进的大语言模型(LLMs)推理和规划算法的原型。我们利用 Branches 来解决为 HumanEval 生成 Python 代码的挑战。

November 7, 2023

View Article

大语言模型遭受的对抗性攻击 [译]

ChatGPT 的问世极大推动了大语言模型在现实世界的应用步伐。我们(包括我在 OpenAI 的同仁们,向他们表示敬意)在模型调整过程中投入巨大努力,确保默认的安全性行为(比如,通过 RLHF)。不过,对抗性攻击或一些特定的提示可能会诱使模型产生一些意料之外的回应。

November 7, 2023

View Article

思维树:利用大语言模型进行深度问题解决 [译]

语言模型正日益成为处理各类任务不可或缺的工具,但它们在推理时仍旧受限于按顺序逐个标记处理信息的方式。这就导致了在需要探究、战略规划或是初步决策至关重要的任务中,它们的效果可能会打折扣。为了突破这些限制,我们提出了一个新的语言模型推理框架——“思维树”(ToT),这是对现有“思维链”提示方法的一种扩展。它让语言模型能够在连贯的文本单元(我们称之为“思维”)中进行探索,这些“思维”是解题过程中的关键中间步骤。ToT 使得语言模型能够通过权衡多种不同的推理路径和自我评估决策来做出更加深思熟虑的选择,并且能在必要时展望未来或者回顾过去,以作出最佳的全局性决策。我们的实验显示,ToT 显著提升了语言模型在三个需要复杂规划或搜索的新型任务上的解题能力:24 点游戏、创意写作和迷你填字谜。举个例子,在 24 点游戏中,尽管使用“思维链”提示的 GPT-4 只解决了 4% 的问题,而我们的方法却达到了 74% 的高成功率。

November 7, 2023

View Article

GPTs 系列介绍 [译]

现在,您可以自己打造专属的 ChatGPT 版本,它可以结合特定指令、额外知识和各种技能。

November 6, 2023

View Article

Assistant API 文档 [译]

Assistant API 使您能够在自己的应用中创建 AI 助理。这样的助理根据指令运作,能够结合模型、工具和知识库来解答用户的问题。目前,Assistant API 支持三种 工具:代码解释器(Code Interpreter)、信息检索(Retrieval)和函数调用(Function calling)。我们未来的计划是推出更多由 OpenAI 创建的工具,并让您能在我们的平台上使用您自己的工具。

November 6, 2023

View Article

提升 RAG 效能:如何挑选最佳的嵌入与重排模型 [译]

在打造检索增强型生成(RAG)系统时,检索器扮演着至关重要的角色。市场上有丰富的嵌入模型可供选择,诸如 OpenAI、CohereAI 和开源的句子转换器。同时,也有来自 CohereAI 和句子转换器的多种重新排列工具。但是,在这么多选择面前,我们该如何挑选出最佳组合,以达到最优的检索效能?我们该怎样判断哪种嵌入模型最契合我们的数据?或者哪一种重新排列工具能够最大限度地优化我们的成果?

November 5, 2023

View Article

提示工程 [译]

提示工程,也被称作情境内提示,是一种和大语言模型(LLM)沟通的策略,目的是在不更新模型底层数据的前提下,引导它按我们想要的方式行动。它是一门实验性质的科学,不同模型间提示方法的效果差别很大,所以这需要通过大量的实验和经验法则来探索。

November 5, 2023

View Article

通过知识蒸馏实现的隐式思维链推理 [译]

为了让语言模型具备推理能力,研究人员通常会通过特定提示或调整模型使其在给出最终答案前,先产出一连串的推理步骤。不过,人类虽然能够用自然语言有效推理,可能对于语言模型来说,使用一些非自然语言形式的中间运算步骤,推理会更加高效。在本项研究中,我们探索了一种不同于传统的推理方式:不是直接输出每个推理步骤,而是通过语言模型内部的隐藏状态进行隐式推理。这种隐式的推理步骤,是通过对一个接受过显式思维链推理训练的教师模型进行“知识蒸馏”得来的。不同于传统的“横向”逐字输出推理过程,我们的方法是“纵向”的,在模型不同层级的隐藏状态间进行推理。通过对多位数乘法任务和小学数学问题数据集的实验,我们发现这种方法能解决那些没有显式思维链条就无法解决的问题,并且其速度与直接给出答案而不进行任何推理的速度相当。

November 5, 2023

View Article

EmotionPrompt:运用心理学知识通过情感激发提升大语言模型的能力[译]

在推理、语言理解以及数学问题解决等多个领域,大语言模型(LLMs)已经展现出惊人的能力,它们被认为是向人工通用智能(AGI)迈进的关键一步。但是,LLMs 对提示语的敏感性仍然是它们普及应用的一大难题。本文借鉴心理学的见解,提出了 EmotionPrompt,旨在通过加入情绪刺激来提升 LLMs 的表现。EmotionPrompt 的操作原则非常直接:就是在提示语中加入情绪因素。实验结果显示,在八个不同的任务中,EmotionPrompt 采用统一的提示模板,不仅在零次学习和少数次学习场景中都大幅度超越了传统提示和 Zero-shot-CoT,还在包括 ChatGPT、Vicuna-13b、Bloom 和 Flan-T5-large 等多种模型上都实现了这一成效。此外,EmotionPrompt 还显著提高了答案的真实度和信息量。我们相信,EmotionPrompt 为探索人与大语言模型互动的跨学科知识开辟了新的道路。

November 5, 2023

View Article

2023 年人工智能与开源界的风云变幻 [译]

2023 年即将过去,此刻不失为回首这一年人工智能领域研究成就、产业发展以及开源社区的盛况的好时机。

November 5, 2023

View Article

可解释语言模型:探索传统与创新方法 [译]

在本文中,我们会详细介绍和评估一些语言模型的可解释性技术,其中不乏 Normal 的一些创新尝试(比如与概率机器学习相关的技术),它们都旨在提升 AI 系统的可靠性和推理能力。我们将尝试以浅显的方式介绍这些技术,同时指出在实际应用中,直觉有时候可能会带来误导。

November 4, 2023

View Article

长故事概要:针对长视频问答的“概括后检索”方法 [译]

GPT-3 等大语言模型展现了它们在不需要特定训练数据的情况下适应新任务的惊人能力。这一能力在诸如叙事性问题解答的场景中特别有用,那里的任务种类繁多,而可供学习的数据却相对匮乏。在这项研究中,我们探讨了这些语言模型是否能将它们的零样本推理才能延伸到多媒体内容中的长篇多模态叙事,如戏剧、电影和动画,故事在其中发挥着核心作用。我们提出了一种名为“Long Story Short”的视频叙事问答框架,它首先把视频的故事概括为简短的情节,再检索与问题相关的视频片段。我们还建议采用 CLIPCheck 来提升视觉匹配的效果。我们的模型在长视频问答方面,相较于现有的最先进监督模型取得了显著的领先,展现了零样本问答技术的巨大潜力。

November 4, 2023

View Article

Voyager:结合大语言模型的创新虚拟智能体 [译]

让我们欢迎 Voyager 的加入——这是 Minecraft 游戏中首个以大语言模型(LLM)为核心的虚拟学习智能体。它能够不断地探索虚拟世界,自主掌握各种技能,并在没有人为介入的情况下,不断做出新的发现。Voyager 的核心由三部分组成:1) 一个自动优化探索路径的课程设计,2) 一个持续扩展的技能库,该库用可执行代码存储和调用复杂行为,3) 一种新型的迭代提示机制,通过融入环境反馈、执行错误和自我核验来不断优化程序。Voyager 通过所谓的黑箱查询与 GPT-4 进行交互,从而免去了对模型参数细微调整的需求。Voyager 所发展的技能不仅能跨越时间使用,还易于解释和组合,这显著加速了智能体的学习能力,同时有效减少了所谓的灾难性遗忘现象。从实践效果来看,Voyager 展现出了卓越的在场景中的终身学习能力,并在 Minecraft 游戏中展示了超群的技能。与以往最好的技术相比,它获得的独特物品多出了 $$3.3\times$$,旅行的距离也增加了 $$2.3\times$$,而在解锁关键的技术树里程碑方面,速度更是快了多达 $$15.3\times$$。Voyager 甚至能够在全新的 Minecraft 世界中,利用其学习的技能库,从零开始解决新的任务,而其他技术在这方面则显得力不从心。

November 3, 2023

View Article

创新输入法:引领输入技术的未来潮流 [译]

自从 ChatGPT 面世以来,生成式模型在语言处理的诸多方面取得了突破性的进展,已经成为众多自然语言处理任务的首选方法。然而,这些模型在输入技术领域的潜力还远未被完全挖掘。当前很多基于神经网络的技术已经开始应用于中文输入法引擎的构建过程中。以往研究往往默认用户输入的拼音无误,只关注拼音转汉字(P2C)的转换任务,这远远不能满足用户的实际需要。而且,这些研究也未能有效利用用户反馈来改善模型并提供更为个性化的服务。在我们的研究中,我们推出了一个创新的输入范式,名为 GeneInput。它利用提示指令来应对各种输入情境,并结合智能辅助输入功能,通过用户的实时反馈持续优化模型,为用户带来定制化的输入体验。我们的实验结果显示,GeneInput 在全键序列到字符转换(FK2C)任务上首次实现了业界领先水平。我们还开发了一种新的奖励模型训练方法,不再依赖于繁杂的手工注释,并且在智能联想和对话辅助任务中的表现甚至超越了 GPT-4。GeneInput 不仅性能优越,而且在鲁棒性、扩展性和在线学习方面也都显示出了比传统输入法更加出色的能力。

November 3, 2023

View Article

探索提示工程的多彩世界 [译]

提示工程是一门让我们能够在不改变模型本身的情况下指导大语言模型(LLM)行为的技术。随着越来越多为不同场景设计的提示的出现,我们越来越需要一套系统来帮助我们管理这些提示,以便更容易地找到、共享和优化它们。为此,我们在一个月前推出了 LangChain Hub,一个集浏览社区提示和管理个人提示于一体的平台。接下来,我们将带你了解自从该平台上线以来,我们观察到的提示工程领域的几个主要趋势,并分享一些我们认为特别有趣的案例。

November 2, 2023

View Article

激发创造力:将语言模型打造成层次化策略,提升解决复杂问题的探索效率 [译]

虽然大语言模型(LLMs)已经取得了令人瞩目的进展,但它们在处理一些复杂的推理问题时还是会遇到不少困难。目前的解决方案主要是通过挖掘详细和底层的推理链条。但是,这样的方法在寻找解决方案的过程中依然受到了限制,使得正确答案在庞大的可能性中难以脱颖而出。在这项研究中,我们通过上下文学习,把大语言模型构建成一个层次化的策略,从而激发出了其在多样化问题解决策略探索上的创造性潜能。这个层次化策略包含了两个部分:一个能够提出多种高层问题解决策略作为启示的“领导者”,以及一个根据领导者给出的高层指令来执行详细问题解决过程的“执行者”。执行者会以领导者的指示为蓝本,探索多条可能的推理路径来攻克问题,并为每个领导者的建议生成一组可能的解决方案。此外,我们还提出了一种高效且有效的基于锦标赛的方法来从这些探索出来的解决方案中挑选出最终的答案。我们的方法不仅能够给出有深度和启发性的建议,还能够拓宽问题解决策略的探索范围,从而在 MATH 数据集中的一些难题上取得更高的答案准确率。

November 2, 2023

View Article

利用语言模型模拟观众,让人际沟通更上一层楼 [译]

一种叫做 Zero-Shot-Context 的新方法,它可以在没有任何示例的情况下,自动提高翻译的质量。我们的实验结果显示,使用这种方法,GPT-3 的翻译效果得到了明显的提升,甚至可以与有示例提示的翻译相媲美。

November 2, 2023

View Article

在 CPU 上高效执行大语言模型的推理任务[译]

大语言模型(LLMs)已经在广泛的任务中展示出了令人瞩目的表现和巨大的发展潜力。然而,由于这些模型的参数量异常庞大,使得它们的部署变得相当具有挑战性,这不仅需要有足够大的内存空间,还需要有高速的内存传输带宽。在这篇文章中,我们提出了一种高效的方法,可以使得大语言模型的部署变得更为高效。我们支持自动化的仅限权重的 INT4 量化流程,并为此设计了一个特殊的、经过高度优化的大语言模型运行时环境,从而加速了在 CPU 上进行大语言模型推理的过程。我们的方法在多个流行的大语言模型,包括 Llama2、Llama 和 GPT-NeoX 上都展示出了广泛的适用性,并且在 CPU 上实现了极高的推理效率。

November 2, 2023

View Article

利用 LoRA 高效撤销 Llama 2-Chat 70B 的安全防护训练 [译]

AI 开发人员通常会使用安全校准程序来防止 AI 系统被滥用。举个例子,在 Meta 公司推出由一系列经过详细指导调整的大语言模型组成的 Llama 2-Chat 产品之前,他们在安全培训上进行了大量的投入,包括广泛的对抗测试和基于人类反馈的强化学习。然而,当攻击者能够接触到模型的权重数据时,安全训练能在多大程度上防止模型被滥用还是一个未知数。本研究通过对 Llama 2-Chat 公开权重进行隐蔽的微调,考察了语言模型安全训练的稳固性。我们采用了一种高效的微调方法——低秩适应(LoRA)。在预算不超过 $200、仅使用一块 GPU 的情况下,我们成功地破解了 7B、13B 和 70B 三种规模的 Llama 2-Chat 模型的安全训练。具体来说,我们的微调技术大幅降低了模型拒绝执行危险指令的次数。在两项拒绝标准测试中,我们对 70B Llama 2-Chat 模型的拒绝率降到了不足 1%。我们的微调方法在保持总体性能的同时,通过与 Llama 2-Chat 在两个标准测试中的对比,验证了模型性能的保持。此外,我们还展示了一些由我们的模型生成的危险输出示例。尽管对当前模型潜在风险的范围还存在很大的不确定性,但未来的模型可能会拥有更为危险的能力,比如侵入关键基础设施、制造危险生物武器或自主复制适应新环境的能力。我们的研究表明,隐蔽微调是一种切实可行且有效的方法,因此我们认为,在进行模型权重发布的风险评估时,评价微调带来的风险应当成为核心内容。

November 1, 2023

View Article

从错误中学习:让大语言模型更擅长推理 [译]

近期,大语言模型(LLM)展示出在解决数学题目上的出色推理能力。为了让这种能力更上一层楼,我们提出了“从错误中学习”(LeMa)这一方法,它借鉴了人类学习过程中的机制。就像一个解题失败的学生会反思自己的错误并学会如何改正一样,LeMa 也通过这样的错误驱动学习过程对 LLM 进行了微调。我们首先从不同的 LLM 中挑选出错误的推理过程,然后使用 GPT-4 作为“纠错师”,负责识别错误的环节、解释错误发生的原因,并对错误进行改正,最终得出正确答案。实验结果表明,LeMa 的确能够提升 LLM 的性能:在五个不同的 LLM 和两个数学推理任务中,LeMa 都比单独使用 CoT 数据进行微调表现得更好。尤其值得一提的是,LeMa 甚至能够提升专业 LLM 如 WizardMath 和 MetaMath 的性能,在 GSM8K 任务上达到了 85.4% 的 pass@1 准确率,在 MATH 任务上达到了 27.1% 的准确率,这些成绩超过了这些困难任务上其他非执行开源模型所能达到的最先进水平。

November 1, 2023

View Article

脑波解码:向着实时重现视觉感知迈进 [译]

在最近五年里,生成型和基础型人工智能系统在解读大脑活动方面取得了巨大进步。特别是在视觉感知方面,现如今我们能够通过功能性磁共振成像(fMRI)技术进行高度精确的解码。但是,这种技术的时间分辨率较低(大约为 0.5 Hz),这严重限制了它在实时应用方面的能力。为了解决这一问题,我们提出了一种新的方法,即利用脑磁图(MEG)这种设备。MEG 能以极高的时间分辨率(大约为 5000 Hz)测量大脑活动。我们为此开发了一个基于 MEG 的解码模型,该模型通过对比学习和回归分析进行训练,包括三个主要部分:i) 从图像中获得的预训练嵌入,ii) 端到端训练的 MEG 模块,以及 iii) 预训练的图像生成模块。我们的实验结果显示:首先,我们的 MEG 解码器在图像检索任务上的表现比传统的线性解码器提升了 7 倍。其次,我们发现利用 DINOv2(一种新型基础图像模型)能够更好地解码大脑对图像的反应,尤其是在反应较晚的阶段。第三,通过 MEG 信号,我们主要能够提取到高级的视觉特征,而当我们将同样的方法应用到 7T fMRI 数据时,我们还能够提取到低级的视觉特征。总的来说,这些发现为我们在实时解码人脑视觉过程方面迈出了重要的一步。

November 1, 2023

View Article

Musk 收购一年后,X(原 Twitter)的各项指标都在下滑 [译]

如果 Elon Musk 的目的是提升自己社交媒体主页的访问量,他完全有更经济、更简便的方法。在他用 440 亿美元收购 Twitter(近期更名为 X)快一年的时间里,我们唯一能看到的正面表现就是他个人主页 twitter.com/elonmusk/ 的访问量有所增加。

October 31, 2023

View Article