通用型基础模型能否超越专用调整模型?医学领域的案例研究 [译]
像 GPT-4 这样的通用型基础模型在众多领域和任务中表现出惊人的能力。但人们普遍认为,除非经过专业知识的深度训练,这些模型无法达到专家级别的性能。例如,到目前为止,大多数针对医学能力基准的探索都采用了特定领域的训练,如 BioGPT 和 Med-PaLM 的研究。我们的研究延续了之前对 GPT-4 在医学领域的专业能力进行的探索,但我们并没有对其进行特别训练。不同于仅使用简单的提示来展示模型的即插即用能力,我们系统地探索了如何通过精妙的提示设计来提升模型性能。我们发现,创新的提示方法能够激发更深入的专家级能力,并证明 GPT-4 在医学问答数据集上轻松超越了以往的最佳成绩。我们研究的提示设计方法是通用的,无需特定领域知识,省去了专家定制内容的需求。在实验设计中,我们特别注意控制过拟合现象。研究的重点是我们推出的 Medprompt,它结合了多种提示策略。Medprompt 极大地提升了 GPT-4 的性能,在 MultiMedQA 套件的九个基准数据集上均取得了最佳成绩。该方法在调用模型次数少得多的情况下,大幅超过了如 Med-PaLM 2 这类先进的专业模型。在 MedQA 数据集(USMLE 考试)上,使用 Medprompt 的 GPT-4 相比以往使用专业模型取得的最好方法,错误率降低了 27%,首次实现了超过 90% 的分数。除了医学领域,我们还展示了 Medprompt 在其他领域的泛化能力,并通过在电气工程、机器学习、哲学、会计、法律、护理和临床心理学等领域的能力考试上的应用,证明了这一方法的广泛适用性。
December 20, 2023
View Article