LIama 4疑似作弊，都怪Meta把牛皮吹破了性能测试遭质疑

2025-04-12 13:10:19 国内热搜作者：时代周报热度：636

4月5日，美国科技巨头Meta宣布推出新一代开源大模型Llama 4。该模型有两个混合专家架构的版本，分别为Scout和Maverick，而更强大的Llama 4 Behemoth仍在训练中。据称，Llama 4在多个基准测试中表现出色，尤其是Behemoth，在多项测试中超越了GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro等顶尖封闭模型。

然而，模型发布后不久，开发者实测发现其实际效果并不如宣传中的那样出色，甚至存在诸多问题。有开发者质疑Meta在评测基准上进行了“量身定制”训练以提升排名。知名科技媒体TechCrunch也指出，Meta新AI模型的性能测试具有一定的误导性。

Meta对此回应称，相关说法毫无事实依据。Llama 4 Scout拥有170亿活跃参数和16个专家模块，提供长达1000万tokens上下文窗口。Llama 4 Maverick同样拥有170亿活跃参数，但专家模块数量提升至128个。在多项主流基准测试中，Maverick表现优异，尤其在推理和编码方面可以与DeepSeek V3媲美。Llama 4 Behemoth则拥有2880亿活跃参数和16个专家模块，在多项基准测试中超越了行业顶尖模型。

尽管官方声称Llama 4在编程、数学、创意写作等任务中表现出色，但开发者实测结果却显示其在这些领域的表现欠佳。风险投资人迪迪·达斯直言Llama 4是一个糟糕的编程模型，并指出在KCORES基准测试中，Llama 4落后于GPT-4o、Grok 3、DeepSeek-V3等模型。此外，Llama 4在aider多语言编码基准测试中的得分仅为16%。