根據(jù)Live CodeBench編程代碼測試平臺(tái)的評(píng)分，更新到0528版本的DeepSeek-R1的代碼編程性能超越了OpenAI于今年年初推出的o3 mini high。

根據(jù)知乎博主@toyama nao的測試，DeepSeek-R1 0528版本的邏輯成績有14.4%的大幅提升，更新之后再次躋身推理模型的第一梯隊(duì)，其中模型使用成本最亮眼，只有OpneAI o3 (high)的5%，不過通過測試的平均耗時(shí)較長。

在外網(wǎng)博主@Lech Mazur基于《紐約時(shí)報(bào)》解謎游戲的所設(shè)計(jì)的基準(zhǔn)測試Extended NYT Connections中，DeepSeek-R1 0528版本的得分由38.6提升49.8，提升幅度高達(dá)29%。在Thematic Generation benchmark測試中，DeepSeek-R1 0528版本的得分（越低越好）由1.80縮減至1.74，排名則是由第9名躍升至第5名。

DeepSeek團(tuán)隊(duì)還是非常謙虛，僅僅是一個(gè)小版本升級(jí)就有如此高的性能提升，換成別家說不定都命名成新模型了。

點(diǎn)個(gè)贊2354

發(fā)表評(píng)論注冊(cè)|登錄

熱點(diǎn)資訊

好物推薦