首页


构建“Mistral 7B 微调优化版”:最优秀的 7B 微调模型 [译]

自 9 月份推出以来,Mistral 7B 已成为我们向客户推荐最多的模型。今天,我们兴奋地宣布一个更加强大的版本:Mistral 7B 微调优化版。

December 21, 2023

View Article

数学队——及其他你为了进入斯坦福而做出的疯狂之举 [译]

我清晰地记得被普林斯顿大学拒绝的那一刻。那时我正在数学队的训练中,爸爸打来电话。他告诉我,提前录取通知已经到了。他没有提及信封的大小 - 大信封意味着被录取,小信封则代表被拒绝 - 我努力不去揣测他语气中的意味。我让他马上来接我。当他在回家路上想停下来加油时,我情绪失控地对他发脾气。回到家,我打开了那个小信封,似乎早就知道会是这样。我匆匆看过前几行 - 对此我们感到遗憾,申请者群体极为出色等等 - 我咒骂一声,拿起刀子猛刺进我的梳妆台。然后,我对着枕头尖叫。其实,并不是我非去普林斯顿不可,只是我渴望这一切早点结束。

December 21, 2023

View Article

Gemini 语言能力深度剖析 [译]

Google 最近发布的 Gemini 系列模型首次全面展示了在多种任务上能与 OpenAI 的 GPT(生成式预训练转换器)系列相匹敌的性能。本文深入探讨了 Gemini 的语言处理能力,并做出两项重要贡献。首先,我们提供了一个第三方的客观比较,分析了 OpenAI 的 GPT 与 Google 的 Gemini 模型的能力,这一比较包括可复现的代码和完全透明的结果。其次,我们深入分析了实验结果,找出了两种模型类别的优势所在。我们针对 10 个数据集进行了分析,测试了包括推理、回答知识性问题、解决数学问题、进行语言翻译、代码生成和作为遵循指令的 AI 智能体等多种语言能力。通过这项分析,我们发现 Gemini Pro 的准确度虽接近,但略低于对应的 GPT 3.5 Turbo,在我们所评估的所有任务中均是如此。我们还提供了一些导致这种次优表现的原因,包括在处理多位数字的数学推理上的不足、对多项选择题答案排序的敏感性、过于严格的内容过滤等问题。同时,我们也发现了 Gemini 在某些方面的高效表现,例如生成非英语内容以及处理更长、更复杂的推理链条。

December 21, 2023

View Article

认识“Coscientist”,你的 AI 实验室伙伴 [译]

一款基于人工智能的系统成功地规划并实施了真实世界的化学实验,显示出帮助人类科学家更快、更多地发现新知识的潜力

December 21, 2023

View Article

AI 代理中间件:不完美的临时解决方案 [译]

现有的监控、模型路由和提示管理架构尚不足以应对挑战。让我们来谈谈现在的情况。在大语言模型的操作流程中,正逐渐出现一个新概念:AI 代理中间件。

December 21, 2023

View Article

构建搜索引擎,而非向量数据库(Vector DB) [译]

在过去 12 个月中,我们见证了向量数据库(Vector DB)创业公司的迅猛增长。我此刻并不打算深入探讨它们各自的设计取舍。相反,我更想探讨和解释一些关于向量数据库的常见理解——它是什么、它的功能用途,以及在解决问题时,我们应如何恰当地利用向量数据库。

December 20, 2023

View Article

深入了解大语言模型运维 (LLMOps) [译]

虽然关于通过 OpenAI、Anthropic、Google 等公司的 API 调用 LLM 来构建应用的文章层出不穷,但我选择了一条不同的道路,尝试仅使用本地模型和技术来构建网页应用,尤其是那些能在浏览器中运行的技术!

December 20, 2023

View Article

如何选择你的人生伴侣 [译]

这里为您提供了一些建议和技巧,旨在提高大语言模型应用的精准度,并介绍了选择合适大语言模型的要点。

December 20, 2023

View Article

推测性解码:实现 Whisper 推理速度提升两倍 [译]

Sanchit Gandhi 发表了一篇关于 Whisper 模型的最新研究进展。这是一个由 Open AI 开发的先进语音转录模型,能够在多种基准测试和不同的音频环境下展示出色的性能。其最新版本,名为 large-v3,已在开源语音转录模型领域名列前茅,特别是在英语转录方面表现卓越。这个模型还具备出色的多语言性能,在 Common Voice 15 的数据集中测试了 58 种语言,其中有 42 种语言的单词错误率低于 30%。

December 20, 2023

View Article

通用型基础模型能否超越专用调整模型?医学领域的案例研究 [译]

像 GPT-4 这样的通用型基础模型在众多领域和任务中表现出惊人的能力。但人们普遍认为,除非经过专业知识的深度训练,这些模型无法达到专家级别的性能。例如,到目前为止,大多数针对医学能力基准的探索都采用了特定领域的训练,如 BioGPT 和 Med-PaLM 的研究。我们的研究延续了之前对 GPT-4 在医学领域的专业能力进行的探索,但我们并没有对其进行特别训练。不同于仅使用简单的提示来展示模型的即插即用能力,我们系统地探索了如何通过精妙的提示设计来提升模型性能。我们发现,创新的提示方法能够激发更深入的专家级能力,并证明 GPT-4 在医学问答数据集上轻松超越了以往的最佳成绩。我们研究的提示设计方法是通用的,无需特定领域知识,省去了专家定制内容的需求。在实验设计中,我们特别注意控制过拟合现象。研究的重点是我们推出的 Medprompt,它结合了多种提示策略。Medprompt 极大地提升了 GPT-4 的性能,在 MultiMedQA 套件的九个基准数据集上均取得了最佳成绩。该方法在调用模型次数少得多的情况下,大幅超过了如 Med-PaLM 2 这类先进的专业模型。在 MedQA 数据集(USMLE 考试)上,使用 Medprompt 的 GPT-4 相比以往使用专业模型取得的最好方法,错误率降低了 27%,首次实现了超过 90% 的分数。除了医学领域,我们还展示了 Medprompt 在其他领域的泛化能力,并通过在电气工程、机器学习、哲学、会计、法律、护理和临床心理学等领域的能力考试上的应用,证明了这一方法的广泛适用性。

December 20, 2023

View Article

Yann LeCun 对 AI 安全论证的五大失误 [译]

Yann LeCun,著名社交媒体公司 Meta 的首席 AI 科学家,坚信人工智能(AI)本质上是安全的,认为智能属性本身不会自动导致负面后果。他认为 AI 的对齐问题(Alignment)不是需要解决的难题,而仅仅是在发展过程中对系统进行细微调整。

December 20, 2023

View Article

为何有科学家不用 ChatGPT?他们这样说 [译]

许多研究者发现,AI 聊天机器人在写作、编程和收集信息等方面颇有帮助。然而,还有一些人却选择远离这一风潮。

December 20, 2023

View Article

OpenAI 首席科学家创造 ChatGPT 的同时,对 AI 安全心存忧虑 [译]

这篇文章选自《自然》杂志的年度特辑《Nature's 10》,该特辑由杂志编辑精选,聚焦科学领域的重大进展及其贡献者。

December 20, 2023

View Article

直译、反思、意译:提升 GPT 翻译质量的一种新策略

我最近对我的翻译 GPT 做了一点优化,将原来的直译->意译两步拆成了三步:直译、反思、意译。

December 20, 2023

View Article

一个永无止境的个人项目带来的启示 [译]

今年,我领悟到,完成一个仅为自己而做的个人项目几乎是不可能的挑战。不论你的创作是什么,使用哪种方式,真正明白自己到底想要什么、并且能够把它与那些自己期望拥有的欲望区分开来,是极其困难的。如果没有外界的压力,自己设定的“截止日期”基本上是没有实际意义的。而一旦开始某个项目,随着时间的推移和不断的投入,项目往往会不断扩大、发生变化,最终演变成完全不同的形态。同时,避免项目范围不断扩大也是一件难事。

December 19, 2023

View Article

如何成就伟大?只需持续做好事情 [译]

多年来,我们每个人都经历了不少的成就与挫败。随着我个人经历的这些成就与失败越来越多,我开始思考,哪些经历真正可以称之为“伟大”以及其背后的原因。

December 19, 2023

View Article

VideoPoet: 能零样本生成视频的大语言模型 [译]

近期,一系列新兴的视频生成模型引起了广泛关注,它们在很多情况下展示了令人惊叹的画质。然而,在视频生成领域,如何有效制作连贯的大范围动作仍是一大难题。目前即便是最先进的模型,要么只能生成较小的动作,要么在制作较大动作时会出现明显的不自然瑕疵。

December 19, 2023

View Article

Google 真正的“登月项目”(Moonshot) [译]

Google 的各种“登月项目” ——无论是 Waymo 无人驾驶汽车,Google Fiber 光纤网络,Nest 智能家居,Project Wing 无人机配送,Verily 生命科学以及 Project Loon 网络气球等 (这个列表还会持续扩展)——其实在很大程度上,都通常看作是一些科学实验项目。它们主要是把 Google 搜索的盈利从股东手中导向了这些创新尝试。其中,Waymo 可能是最富潜力的,但即使它能获得成功,最后的结果仍然是一种远离 Google 的使命——“整理全球信息,让人们可以随时随地获取并有效利用”——的汽车服务。

December 19, 2023

View Article

ReST 与 ReAct 的交汇:多步推理大语言模型 (LLM) 智能体的自我进化之路 [译]

在回答复杂的自然语言问题时,往往需要通过多步推理并结合外部信息。目前已有几种系统能够结合大语言模型 (LLM) 和知识检索来应对此类问题。但这些系统存在一些失败的案例,且由于与外部知识交互的过程不可导,我们无法直接对这些系统进行端到端的训练以解决这些问题。为了克服这些挑战,我们设计了一个能够理解和操控外部知识的 ReAct 风格 LLM 智能体。我们进一步通过一种类似 ReST 的方法对该智能体进行优化,这种方法通过迭代地训练前期的行为轨迹,并利用带有 AI 反馈的逐步扩大的强化学习,实现了持续的自我提高和自我简化。从一个初步设定的大型模型出发,仅经过两次迭代,我们成功打造了一个微调过的小型模型。这个小型模型在解决复杂组合问答问题上的表现可以媲美大型模型,但其参数量却少了两个数量级。

December 19, 2023

View Article

2023 年:AI 改变互联网的一年 [译]

2023 年,许多人开始学习如何与机器人沟通、创造、作弊,并进行合作。

December 19, 2023

View Article

2023 年回顾:聚焦 ChatGPT 时代之后的发展及 2024 年展望 [译]

大语言模型 (LLM) 运营领域如何变革,以及为何尚未见到广泛应用的生成式 AI — 但 2024 年或有所改变。

December 19, 2023

View Article

工程行业中生产力的头号绊脚石 [译]

我遇到的三大生产力障碍及解决之道 + 🎁 附赠福利:多任务处理的弊端

December 18, 2023

View Article

顶尖 1% 工程师的七个简易习惯 [译]

我有幸与许多卓越的工程师合作过,他们既来自像 FAANG 这样的大型公司,也来自诸如创业公司这样的小型企业。他们让我领略到了传说中的“10 倍效能”工程师 - 他们确实存在!这些工程师中的一些已经创办了自己的公司,引领了像 Vercel 这样改变我们认知互联网的开发,或者在如今的大型科技公司里领导着价值数十亿美元的项目。在与他们的合作中,我发现他们在编程时都有一些共通的习惯。

December 18, 2023

View Article

利用间接提示注入技术从 Writer.com 窃取数据 [译]

这一漏洞可能导致攻击者利用内容生成时用到的语言模型,窃取用户私密文件。尽管已经向 Writer.com 报告了这一问题,但截至目前为止,由于 Writer.com 在披露后并未将其分类为安全漏洞,因此漏洞尚未得到修复(具体详情见文末“负责任披露”部分)。

December 18, 2023

View Article

ChatGPT 插件:利用图像和跨插件请求伪造技术进行数据泄露 [译]

本文揭示了恶意网站如何控制 ChatGPT 聊天会话,并窃取会话历史的方式。

December 18, 2023

View Article

用 RAGAs(检索增强生成评估)评估 RAG(检索增强型生成)应用 [译]

探讨如何结合传统关键词搜索与现代向量搜索来获得更相关的搜索结果

December 18, 2023

View Article

在命令行中运行 Mistral 模型的多种方法 [译]

目前,Mistral AI 是最引人注目的 AI 研究实验室。他们最近发布了两种功能强大的小型大语言模型,这些模型遵循 Apache 2 协议授权,还有一个更大的模型可通过他们的 API 使用。

December 18, 2023

View Article

如何借助 Ollama 在 M1 Mac 上运行 Mistral-7B [译]

想在你的 Macbook 上尝试运行 Mistral 7B 吗?这篇教程将一步步指导你如何做到!

December 18, 2023

View Article

跨界思考:大语言模型中创意幽默生成的新思维探索 [译]

我们构建了一个新的框架,这个框架可以帮助我们更好地理解通用人工智能(AGI)及其早期版本的能力和表现。这个框架详细划分了 AGI 的性能、适用范围和自我控制能力的不同层次。我们希望,这个框架能够像划分自动驾驶技术等级一样,为人们提供一种通用的语言,以便比较不同的 AGI 模型,评估它们可能带来的风险,并跟踪我们在实现 AGI 这一目标道路上的每一步进展。为了建立这个框架,我们审视了 AGI 的现有定义,并从中提炼出六大原则,以构建一个实用的 AGI 分类体系。这些原则强调重视 AGI 的实际能力,而不仅仅是其背后的技术机制;它们建议我们应当分开评估 AGI 的适用范围和性能水平;并且我们不应该只着眼于最终目标,而应该明确标记出通向 AGI 的每一个阶段。基于这些思路,我们根据 AGI 的能力深度(即性能)和广度(即适用范围)提出了“AGI 等级”,并且对当前系统如何符合这个分类体系进行了思考。我们还讨论了未来评估 AGI 行为和能力的基准测试所面临的挑战。最后,我们探讨了这些 AGI 的不同层次如何与实际部署时的自主性和风险管理相结合,并强调在部署高级 AI 系统时,选择合适的人机交互方式对于确保系统的负责任和安全使用至关重要。

December 18, 2023

View Article

OpenAI 生产环境最佳实践官方指南 [译]

这份指南全面介绍了如何将产品原型发布到生产环境的最佳实践。不论你是资深的机器学习工程师还是刚入门的技术爱好者,这份指南都能为你提供在实际生产环境中成功应用该平台所需的各种工具和知识。内容涵盖从如何保护 API 访问安全到如何构建能应对高流量的架构。参考这份指南,可以帮助你更顺畅、高效地部署应用程序到生产环境。

December 17, 2023

View Article

大语言模型在帮助医生获取信息方面效果如何?[译]

斯坦福大学的专家们对 GPT-4 在辅助医生进行简便咨询方面的安全性和准确性进行了探究。

December 17, 2023

View Article

OpenAI 官方提示工程指南 [译]

这份指南旨在分享如何更有效地利用像如 GPT-4 这样的大语言模型(有时候也叫 GPT 模型)来获得更好的结果。介绍的方法可以相互结合,以发挥更大的作用。我们鼓励你进行实验,寻找最适合你的技巧。

December 16, 2023

View Article

如何用计算思维看待人工智能、宇宙与万物 [译]

人类的语言、数学和逻辑,这些都是我们解读世界的工具。在当今世纪,出现了一种新的、更加强大的工具:计算。在过去近 50 年中,我有幸基于这个计算概念,建立起一座越来越高的科学技术之塔。今天我想和大家分享,这一路走来,我们发现了什么。

December 16, 2023

View Article

提升软件工程效率的小技巧:留点悬念,让工作更流畅 [译]

4 个改变我工作效率的编程习惯

December 15, 2023

View Article

提示工程指南 [译]

发掘大语言模型 (LLMs) 的巨大潜能!🚀

December 15, 2023

View Article

FunSearch:利用大语言模型在数学科学领域探索新奇发现 [译]

通过搜索编写在计算机代码中的“函数”,FunSearch 利用大语言模型 (LLMs) 首次在数学科学的未解之谜中取得突破

December 15, 2023

View Article

大语言模型真的需要这么多层吗? [译]

研究表明,移除 70% 的注意力头和 20% 的前馈网络对上下文学习影响甚微,这暗示大语言模型或许训练得不够充分。

December 15, 2023

View Article

探讨人工智能对经济的影响 [译]

人工智能对经济的影响将受到其技术发展和实施的速度与有效性的双重影响。我们在这里分享我们对这个日渐丰富的研究领域的理解和我们如何实时跟踪这一发展趋势。

December 15, 2023

View Article

OpenAI 的 Chat Completions API 的一些更新

解读一下 OpenAI 的 Chat Completions API 的一些更新。

December 15, 2023

View Article

Google DeepMind 最新的 FunSearch

FunSearch 是 Google DeepMind 最近利用大语言模型在数学领域的一个重大成果,甚至于你能从中看出前不久传闻中的 Q* 的影子,因为它本质上是实现了大语言模型自己提出解决数学问题的方案,并自己去验证解决方案。

December 15, 2023

View Article

开发者视角:项目管理的智慧 [译]

谈谈如何管理一个软件项目。

December 14, 2023

View Article

如何避免 12 大软件架构常见误区 [译]

虽然构建成功的软件架构的过程看似简单,实际上却颇具挑战。要理解 QARs,并在此基础上做出最优权衡,需要深刻的洞察力和丰富的经验,而这些往往需要通过对架构本身的不断试验和调整来积累。虽然过程本质上不复杂,但所涉及的权衡决策通常充满挑战,而且难以找到简单的解决方案。

December 14, 2023

View Article

AI 时代的商业市场新风貌 [译]

在不断演进的市场商业模式中,每一种新兴平台都在重新定义交易的方式和地点。互联网时代,我们从传统的分类广告和布告栏转向了亚马逊(Amazon)、eBay 和克雷格列表(Craigslist)这样的网站;而移动互联网时代,则催生了 DoorDash、优步(Uber)和 Instacart 这样的应用程序。现在,生成式 AI(Generative AI)技术的兴起预示着市场将迎来又一次革新。它不仅将改变商品和服务的销售方式,更重要的是,它也将改变这些商品和服务的制造方式。

December 14, 2023

View Article

2024 年科技领域的重大创新思想 [译]

智能能源网格、语音先行的伴侣应用、可编程药品、针对儿童的 AI 工具。我们向 a16z 的超过 40 位合作伙伴征询了他们认为将在 2024 年成为创新动力的重要理念。

December 14, 2023

View Article

在 iPad 或 iPhone 上本机离线运行大语言模型 [译]

本教程将指导您如何在苹果设备上本地安装一个类似于 ChatGPT 的大语言模型(LLM)。

December 13, 2023

View Article

开发者与企业,是时候用 Gemini Pro 打造你的应用了 [译]

想了解如何将 Gemini Pro 融入你的应用或业务,请访问 ai.google.dev。

December 13, 2023

View Article

人工智能辅助程序员的三种类型 [译]

像 ChatGPT 这样的大语言模型 (LLM) 能够编写引人信服的代码片段。2023 年初,这一发现在 LinkedIn 上引起了不少热议,许多人误以为这意味着不再需要经验丰富的开发人员及其专业知识、挑剔的态度和高昂的薪酬了。如今,任何一个有网络连接的人似乎都能轻而易举地让 AI 编写下一个大型社交媒体应用,用 JavaScript 编写,并融合一些区块链技术。

December 13, 2023

View Article

大语言模型 API 市场的变迁之路 [译]

随着越来越多公司加入这个领域,大语言模型 API 市场将如何发展?

December 13, 2023

View Article

利用 AI 进行角色扮演:对作家和教育者来说是个重要工具 [译]

或者说,GPT-4 能有多好地模拟 1963 年的 LSD 旅程?

December 13, 2023

View Article

人工智能即将全面改变我们使用电脑的方式 [译]

人工智能即将全面改变我们使用电脑的方式并彻底重塑软件行业。

December 13, 2023

View Article