GPT-4_四五百科

正确率仅15%，GPT-4远不如人类？

当前，大型语言模型（LLMs）或许是通用人工智能（AGI）得以实现的“最优解”。然而，尽管大模型在流利性和知识广度方面貌似已接近人类水平，但评估它们的挑战日益突显。随着大模型的迅猛发展，一些传统基准已经失效。因此，新的测评基准亟需制定。近日，来自 Meta、HuggingFace 和 AutoGPT 的研究团队共同提出了一个用于测试通用 AI 助手的基准——GAIA，该基准提出了现实世界中需要一系列基本能力的问题，如推理、多模态处理、网络浏览和通用工具使用熟练技能。研究团队表...

2023.11.26