AI升级：正在接近“人”的GPT-4

AI的“下一步”，OpenAI并没有让市场等太久。

3月15日，OpenAI正式发布了多模态预训练大模型GPT-4。作为迄今为止规模最大、功能最强大的多模态预训练模型，GPT-4实现了语言与图片的融合，令计算机更好地理解了人类的交流方式。

“这是OpenAI努力扩展深度学习的最新里程碑。”OpenAI在对GPT-4的官方介绍中表示，“GPT-4是一个大型多模态模型，它接受图像和文本输入、进行文本输出，虽然在许多现实场景中它尚不如人类，但在各种专业和学术基准上表现出与人类相当的性能。”

(资料图片仅供参考)

自1956年人工智能概念首次被提出后，人工智能在巅峰与暗流中游走数年，如今再次来到了转折时刻。

已经足够“聪明”

从整体而言，GPT-4实现了多重能力的跃升。

与此前的版本相比，GPT4在语言、文本、图像三个层面利用大量数据训练AI系统。由此，GPT-4具备强大的识图能力，文字输入限制也提升至2.5万字；GPT-4的回答准确性也显著提升，还能够生成歌词、创意文本从而实现风格变化。同时，GPT-4在各类专业测试及学术基准上也表现优良。

例如，根据OpenAI公布的实验数据，GPT-4参加了多种基准考试测试，包括美国律师资格考试Uniform Bar Exam、法学院入学考试LSAT、“美国高考”SAT数学部分和证据性阅读与写作部分的考试，在这些测试中，它的得分高于88%的应试者。相较之下，GPT-3.5版本大模型的成绩是倒数10%。

“如果说GPT3系列模型给大家证明了，AI能够在一个模型里做多个任务（也就是所谓通用），GPT4在很多任务上已经是人类水平（human-level），在很多专业和学术考试上超越90%的人类。”出门问问创始人&CEO李志飞评论称。

除了足够“聪明”之外，相较于此前的GPT模型而言，GPT-4最大的突破之一是在文本之外还能够处理图像内容。OpenAI表示，用户同时输入文本和图像的情况下，比如带有文本和照片的文档、图表或者屏幕截图，它能够生成相应的自然语言和代码等文本。

除了普通图片，GPT-4还能处理更复杂的图像信息，包括表格、考试题目截图、论文截图、漫画等。

此外，在多语种方面，GPT-4也体现出优越性。在测试的26种语言中，GPT-4在24种语言方面的表现均优于GPT-3.5等其他大语言模型的英语语言性能，其中包括部分低资源语言如拉脱维亚语、威尔士语等。在中文语境中，GPT-4能够达到80.1%的准确性。

尽管GPT-4功能强大，但同时OpenAI仍坦言，与早期GPT模型类似，GPT-4也具备局限性。其依然会形成推理错误，因而在使用语言模型输出时需要非常小心，最好以人工核查、附加上下文或避免高风险使用的方式予以辅助。

在参数量方面，此次OpenAI并未公布GPT-4的模型参数和数据规模，也并未给出技术原理。此前，GPT-3的参数量则为1750亿。OpenAI表示，正在开源OpenAI Evals软件框架，它被用于创建和运行基准测试以评估GPT-4等模型，同时可以逐样本地检查模型性能。

“GPT-4的模型发布，本身是技术持续升级迭代发展的必然阶段。AI行业每一年都会有些新模型发布，趋势就是大模型、多模态。”在接受21世纪经济报道记者采访时，IDC中国研究总监卢言霞表示，“多模态肯定是必然趋势，毕竟AI要真正达到人的智慧，需要处理多模数据。且在各行业场景里，大都是涉及多模态数据的处理。”