一号热搜榜,为您提供最新的热搜资讯,热搜榜信息!

LIama 4疑似作弊,都怪Meta把牛皮吹破了 性能测试遭质疑

国内热搜 作者:时代周报 热度:636

LIama 4疑似作弊,都怪Meta把牛皮吹破了 性能测试遭质疑

4月5日,美国科技巨头Meta宣布推出新一代开源大模型Llama 4。该模型有两个混合专家架构的版本,分别为Scout和Maverick,而更强大的Llama 4 Behemoth仍在训练中。据称,Llama 4在多个基准测试中表现出色,尤其是Behemoth,在多项测试中超越了GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro等顶尖封闭模型。

LIama 4疑似作弊,都怪Meta把牛皮吹破了 性能测试遭质疑

然而,模型发布后不久,开发者实测发现其实际效果并不如宣传中的那样出色,甚至存在诸多问题。有开发者质疑Meta在评测基准上进行了“量身定制”训练以提升排名。知名科技媒体TechCrunch也指出,Meta新AI模型的性能测试具有一定的误导性。

LIama 4疑似作弊,都怪Meta把牛皮吹破了 性能测试遭质疑

Meta对此回应称,相关说法毫无事实依据。Llama 4 Scout拥有170亿活跃参数和16个专家模块,提供长达1000万tokens上下文窗口。Llama 4 Maverick同样拥有170亿活跃参数,但专家模块数量提升至128个。在多项主流基准测试中,Maverick表现优异,尤其在推理和编码方面可以与DeepSeek V3媲美。Llama 4 Behemoth则拥有2880亿活跃参数和16个专家模块,在多项基准测试中超越了行业顶尖模型。

LIama 4疑似作弊,都怪Meta把牛皮吹破了 性能测试遭质疑

尽管官方声称Llama 4在编程、数学、创意写作等任务中表现出色,但开发者实测结果却显示其在这些领域的表现欠佳。风险投资人迪迪·达斯直言Llama 4是一个糟糕的编程模型,并指出在KCORES基准测试中,Llama 4落后于GPT-4o、Grok 3、DeepSeek-V3等模型。此外,Llama 4在aider多语言编码基准测试中的得分仅为16%。

标签: 作弊     牛皮     性能