深入解析“混合专家模型(Mixtral of Experts)” [译]
自从 Mixtral 8x7B(发布公告、模型说明)亮相以来,“混合专家模型”(Mixture of Experts,简称 MoEs)这类 Transformer 成了开放 AI 领域的焦点话题。在这篇博客中,我们将深入探讨 MoEs 的基础构架、训练方式,以及在实际应用中需要权衡的各种因素。
December 11, 2023
View Article翻译的一些我觉得不错的科技文章。
自从 Mixtral 8x7B(发布公告、模型说明)亮相以来,“混合专家模型”(Mixture of Experts,简称 MoEs)这类 Transformer 成了开放 AI 领域的焦点话题。在这篇博客中,我们将深入探讨 MoEs 的基础构架、训练方式,以及在实际应用中需要权衡的各种因素。
December 11, 2023
View ArticleMistral AI 团队致力于为开发者社区提供顶尖的开源模型。在 AI 领域,要实现突破,不仅要超越现有的架构和训练方法,更重要的是让社区能够利用创新模型,激发新的发明和应用。
December 11, 2023
View Article人们常认为,一个杰出的领导者的任务就是招聘员工,并授权他们去做出色的工作。但如果你不深入了解细节,你怎么能判断他们的工作是否出色呢?因此,我确保自己深入到细节中,并且我们真正推动了产品的发展。
December 11, 2023
View Article上周,PDF 转 Markdown 的工具 Marker 成为 Hacker News 首页的热门话题。作为一个对机器学习(ML)充满好奇的学生,我觉得这是一个绝佳的机会,深入了解这款出色的文档 AI 工具的内部机制。
December 11, 2023
View Article“专家混合模型”是一种创新的神经网络架构设计,它在 Transformer 架构中融合了众多的专家/模型层。在这种设计中,数据流动时,每一个输入的 Token 都会被动态分配给一些专家进行处理。这种做法使得计算更高效,因为每个专家都能在其擅长的特定任务上发挥出色。
December 10, 2023
View Article如何使用 OpenAI 大语言模型 (LLM) 在 Weaviate 向量数据库中用 Python 生成摘要,运用所谓的“生成式反馈循环”概念
December 10, 2023
View Article最近,我一直忙于开发 Ollama,因此投入了大量时间研究如何在本地系统上运行大语言模型(大语言模型),并探索如何将它们封装进应用程序。一般而言,大部分桌面应用程序只要求用户输入 OpenAI API 密钥,或者从源代码编译 Python 项目即可集成大语言模型。尽管这些方法在理论上可行,但对于许多用户来说,它们的技术门槛仍然较高。我追求的是用户能够一键下载并立即运行的应用程序。
December 10, 2023
View Article虽然关于通过 OpenAI、Anthropic、Google 等公司的 API 调用 LLM 来构建应用的文章层出不穷,但我选择了一条不同的道路,尝试仅使用本地模型和技术来构建网页应用,尤其是那些能在浏览器中运行的技术!
December 10, 2023
View Article职业生涯就像是一个漫长的旅程,最难的地方在于你的目的地是未知的,甚至没有地图来指引你如何前行。
December 10, 2023
View Article本文汇集了许多来自 Netflix 工程团队的博客和开源项目的研究成果。如果您在阅读中发现任何不准确之处,请不吝告知。
December 10, 2023
View Article探讨如何结合传统关键词搜索与现代向量搜索来获得更相关的搜索结果
December 9, 2023
View Article目前,我主要的工作是兼任部分时间的 CTO 服务。坦白说,在进行创新的同时担任这个角色对我来说颇有挑战。同时兼顾这两者非常艰难,所以我暂时放下创新者的角色,专注于规划发展路线图和招聘事宜。招聘其实是一个挑战,需要精准识别不同职位和所需资源。
December 8, 2023
View Article在本文中,我会详细介绍如何打造你专属的 AI 旁白。文章末尾,我还会分享一些实用的代码。
December 8, 2023
View Article出于恐惧?我早就想分享这个故事了。
December 8, 2023
View ArticleOpenAI 还没具体说明 Q* 是什么,但已经透露了许多线索。
December 8, 2023
View Article从学术论文的理论到利用 OpenAI、Weaviate 和 LangChain 的 Python 应用实现
December 7, 2023
View Article如何通过这些“超参数”和调整策略优化你的检索增强生成(RAG)流程
December 7, 2023
View Article这篇博客的灵感完全来自 Andrej Karpathy 在 YouTube 上的视频“忙碌人士的大语言模型速览”。在我看来,这是对大语言模型的最精彩解释。对于更喜欢阅读而不是观看的朋友,这篇文章是你的理想之选。
December 7, 2023
View Article深入了解我们如何使用生成式 AI 模型进行创新实验,从而拓宽 GitHub Copilot 在开发者整个生命周期中的应用。
December 7, 2023
View ArticleClaude 2.1 在处理高达 20 万 Token 的庞大上下文时,检索特定句子的能力令人瞩目。我们通过实验发现,利用精心设计的提示技巧,可以引导 Claude 更准确地回忆出相关信息。
December 7, 2023
View Article“emoji”这个词与情绪并无直接关联。很多人误以为“emoji”一词源自“emotion”(情感),其实这只是个巧合。它实际上来自于日语中的“絵”(图片,发音 _eh_)加上“文字”(字母或字符,_mōji_)。简而言之,这个词指的是一种图画文字。尽管这个词本身与“情感”这个词在词源上并无关联,但我们使用 emoji 的方式却能深刻反映我们的自我特性以及我们如何与他人建立联系。
December 6, 2023
View Article很多离开谷歌的工程师表示,他们最怀念的内部工具之一是 Critique,谷歌的代码审查工具。探究谷歌的代码审查工具(Critique):AI 助力的创新与最新统计
December 6, 2023
View Article让 AI 更贴近每个人的生活
December 6, 2023
View Article新兴技能的出现催生了一个新职称:要掌握这些技能,我们需要超越简单的命令行编程,转而开发 软件。
December 6, 2023
View Article必须采用多模型战略,新兴 AI 基础设施的发展,以及大语言模型(LLM)作为新的抽象层次。
December 6, 2023
View Article在大语言模型应用阶段,重点是让回答变得非常具体,无论是针对数据集、用户、使用场景,还是特定的调用请求。
December 5, 2023
View Article提示工程、RAGs 与微调的对比是每位搭建基于大语言模型(LLM)应用的 AI 工程师都面临的关键选择。
December 5, 2023
View Article这里为您提供了一些建议和技巧,旨在提高大语言模型应用的精准度,并介绍了选择合适大语言模型的要点。
December 5, 2023
View Article未来,个性化的 AI 助手将可以在设备上离线运行,将衍生出很多出人意料的创新
December 5, 2023
View Article通常,大语言模型需要大量的 GPU 内存才能运行。但是,有没有可能仅用单个 GPU 来进行推理计算呢?如果可以,最少需要多少 GPU 内存呢?
December 4, 2023
View Article我花了许多时间仔细研究大语言模型(LLM)的输出。有一点引起了我的注意:LLM 生成的文章似乎有一种特殊的…感觉。这种感觉很难用言语描述,但在大语言模型发展的初期,你可以很明显地感觉到自己在阅读一个 AI 生成的文章。
December 4, 2023
View ArticleGitHub Copilot 团队分享了如何打造一个既能满足个人用户也能满足企业用户需求的大语言模型(LLM)应用程序的心得。若你希望利用大语言模型 (LLM) 打造并扩展你的应用程序,这篇文章将是你的不二之选。
December 4, 2023
View ArticleGitHub Copilot 是目前最成功的大语言模型应用之一,可以帮程序员自动生成可用的代码,已经有超过一百万付费用户。GitHub Copilot 开发团队分享了构建这个产品时的经验教训。整个产品的开发历时三年,尽力了三个阶段:发现、实现和扩展。这三个阶段对于其他产品的研发也非常具有借鉴价值。
December 4, 2023
View Article在我们的分析领域,不同背景的人才聚集一堂。这已经是众所周知的事实,以至于我们往往对此视而不见。有些人对此感到遗憾,比如会想:“如果我能早些投身于分析领域,了解得更多就好了。”也有人会调整自己的简历,试图营造一种与事实不尽相符的职业连贯性。
December 4, 2023
View Article仅仅一年时间,ChatGPT 已经深入科学研究的各个领域。七位科学家分享了他们关于这个聊天机器人正确与错误用法的认识与体会。
December 4, 2023
View Article传统的童话故事结构与我们的思维方式不谋而合,它能有效地指导我们进行战略问题分析,并制定出每个人都能明白的计划。
December 3, 2023
View Article要掌握复杂性的精髓,最佳策略往往是拆解后再重建。这正是一群志愿者,在一位前 Safari 开发者的带领下所做的事情。他们从零开始打造了一个成熟的操作系统 SerenityOS,和一个网络浏览器 Ladybird(这意味着:他们没有复用任何现有模块,比如读取 JPEG 文件的模块)。他们如同真正的工程师一般,出于_乐趣_而投入这项工作。听起来不错,但你可能会怀疑,用这种方式能构建出一个具备所有复杂功能的网络浏览器吗?这正是一个探索工程师如何面对复杂性的故事。
December 3, 2023
View Article小步快跑,助你在软件开发中加速前行。
December 3, 2023
View Article我们能否在历史的十字路口避免战争?这个问题一直受到个人、学者、政策制定者和组织的关注。在这项研究中,我们试图基于人工智能(AI)和大语言模型(LLMs)的最新进展来回答这个问题。我们提出 WarAgent,一个基于 LLM 的多智能体 AI 系统,用于模拟历史国际冲突中参与国家的决策及其后果,包括第一次世界大战(WWI)、第二次世界大战(WWII)和中国古代的战国时期(WSP)。通过评估模拟的有效性,我们检验了尖端 AI 系统在研究诸如国际冲突这样的复杂集体人类行为的能力及其局限性。在这些模拟中,智能体之间的新兴互动也为检验导致战争的触发因素和条件提供了新视角。我们的发现提供了基于数据和 AI 增强的洞察,可以重新定义我们解决冲突和维持和平的策略。其影响超越了历史分析,提供了一个利用 AI 理解人类历史并可能预防未来国际冲突的蓝图。
December 3, 2023
View ArticleAI 并非来自外星,而是我们自己的一部分。
December 3, 2023
View Article将工作比作恋爱是一种激动人心的体验!进入职场,我们满怀期待,寄望一切顺利。但有时,我们会发现自己只是机械地维持着职场关系,不知道如何摆脱,甚至不确定是否能够摆脱,或者摆脱后是否能找到更好的机会。也许我们放弃的正是生命中最好的机遇。或许现在的工作还不错,但我们总想知道外面是否还有更好的可能。又或者,你已经是那位幸运儿,找到了自己的理想职位。约会是令人兴奋的吗?更确切地说,它充满了迷惑。面对未来,我们该如何做出最佳选择呢?我的建议是:跟随内心。
December 2, 2023
View Article目前,我主要的工作是兼任部分时间的 CTO 服务。坦白说,在进行创新的同时担任这个角色对我来说颇有挑战。同时兼顾这两者非常艰难,所以我暂时放下创新者的角色,专注于规划发展路线图和招聘事宜。招聘其实是一个挑战,需要精准识别不同职位和所需资源。
December 2, 2023
View Article十多年前,我记下了几段笔记,标题是“建立技术杠杆”,此后我几乎把它忘在脑后。这些笔记记录的是我和 Kevin Scott 在 LinkedIn 担任 SVP 工程师期间的一次会议。那时,我们正在硅谷努力说服潜在买家收购 Digg 的过程中。直到今天早上,当我试图为这篇讨论相同主题的文章起名时,我才想起了那篇文章。
December 2, 2023
View Article像 GPT-4 这样的通用基础模型,在众多领域和任务中展现出了惊人的能力。然而,通常人们认为,如果不进行针对特定知识领域的密集训练,这些模型无法达到专家级别的能力。例如,目前大多数在医学能力基准上的研究都依赖于特定领域的训练,就像 BioGPT 和 Med-PaLM 的尝试一样。我们的研究则是在没有特殊训练的情况下,继续探究 GPT-4 在医学挑战基准测试中的专家级能力。我们不仅仅是为了展示模型开箱即用的能力而使用简单的提示,而是系统地探索了提示工程来提高性能。我们发现,创新的提示方法可以释放出更深层次的专家能力,并且证明 GPT-4 轻松超越了医学问答数据集上之前的领先成绩。我们探索的提示工程方法是通用的,不依赖于特定的领域知识,这消除了对专家策划内容的依赖。我们的实验设计严格控制了在提示工程过程中的过拟合问题。作为研究的一个高潮,我们推出了 Medprompt,它结合了多种提示策略。Medprompt 大大提高了 GPT-4 的性能,在 MultiMedQA 套件的全部九个基准数据集上均达到了最先进的水平。这种方法使用远少于 Med-PaLM 2 等最新专家模型的模型调用次数,取得了巨大的优势。使用 Medprompt 指导下的 GPT-4,在 MedQA 数据集(USMLE 考试)上的错误率比迄今为止使用专家模型的最佳方法降低了 27%,并首次突破了 90% 的分数。超出医学领域的挑战,我们展示了 Medprompt 在其他领域的广泛适用性,通过在电气工程、机器学习、哲学、会计、法律、护理和临床心理学等多个领域的能力考试上的研究,证明了这种方法的广泛适用性。
December 2, 2023
View Article未来,个性化的 AI 助手将可以在设备上离线运行,将衍生出很多出人意料的创新
December 2, 2023
View Article我希望你能在选择颜色时更加自信。即使你对颜色毫无感觉,这篇文章也会尝试帮助你找到合适的颜色。我们将探讨在实际应用中常见的颜色错误以及如何避免这些错误。
December 1, 2023
View Article正如我一位同事上周晚餐时所说,现在的 GenAI 就像青少年的性行为:人人都在谈论,但没人真正懂得怎么做,大家都以为别人在做,于是每个人都声称自己在做。
November 30, 2023
View Article本篇博客是关于使用纯 PyTorch 加速生成式 AI 模型的系列文章的第二部分,由 PyTorch 团队撰写。我们在这里分享了 PyTorch 的最新性能特性,并通过实际案例,展示了如何最大限度地提升 PyTorch 的性能。在系列的第一篇文章中,我们演示了如何仅用 PyTorch 将“Segment Anything”加速超过 8 倍。本文将聚焦于大语言模型(LLM)的优化技术。
November 30, 2023
View Article本指南深入剖析了最常见的领导风格,以清晰、直接的方式分析了它们的优点与不足。您将得到一个实用且全面的概述,帮助您不仅了解这些风格本身,还能理解它们在实际情况中的应用方式。无论您已是领导,希望提升领导方法,或是初入领导岗位,这份指南都将为您提供有价值的见解,助您有效应对领导挑战。
November 30, 2023
View Article工作中不仅有艰巨的任务和职业挫折这样的压力源,更具挑战的是,有时你不得不与那些你不喜欢、不合得来或让你感到烦恼的人一起工作。
November 29, 2023
View Article