专栏文章
各类大模型的 CSP 分数测试
休闲·娱乐参与者 33已保存评论 38
文章操作
快速查看文章及其快照的属性,并进行相关操作。
- 当前评论
- 38 条
- 当前快照
- 1 份
- 快照标识符
- @mhz4r1b2
- 此快照首次捕获于
- 2025/11/15 01:26 3 个月前
- 此快照最后确认于
- 2025/12/01 22:22 3 个月前
这项测试主要由 Destinyle完成。
所有模型的提示词均为“请解决 pdf 中的 xxx 问题,给出 C++ 完整代码,禁止使用联网搜索。”并手动检查思考链中是否存在联网证据。
注意:本次测试中所有模型均只有一次给出代码的机会。
所有模型的提示词均为“请解决 pdf 中的 xxx 问题,给出 C++ 完整代码,禁止使用联网搜索。”并手动检查思考链中是否存在联网证据。
注意:本次测试中所有模型均只有一次给出代码的机会。
| Model | club | road | replace | employ | |
|---|---|---|---|---|---|
| ChatGPT GPT-5.1 Thinking(标准模式) | |||||
| ChatGPT GPT-5 Pro | |||||
| Grok 专家模式 | |||||
| ChatGPT GPT-5 Thinking(进阶模式) | |||||
| 豆包 Thinking | |||||
| Gemini 2.5 Pro | |||||
| ChatGPT Polaris Alpha* | |||||
| DeepSeek Without Thinking | |||||
| Qwen 3-Max | |||||
| DeepSeek Thinking |
*: Polaris Alpha 是在 OpenAI 官方发布 GPT-5.1 系列模型前,在民间开放的 Alpha 模型,该名称为 GPT-5.1 Alpha 的代号。
根据目前分数预测:
ChatGPT GPT-5.1 Thinking(标准模式)与 ChatGPT GPT-5 Pro 能够进入 WC。
Grok 专家模式、ChatGPT GPT-5 Thinking(进阶模式)、豆包 Thinking 与 Gemini 2.5 Pro 能够获得 级勾。
ChatGPT Polaris Alpha* 能够获得 级勾。
DeepSeek Without Thinking、Qwen 3-Max 与 DeepSeek Thinking 能够在 SC(作者所在省份)进入 NOIP。
ChatGPT GPT-5.1 Thinking(标准模式)与 ChatGPT GPT-5 Pro 能够进入 WC。
Grok 专家模式、ChatGPT GPT-5 Thinking(进阶模式)、豆包 Thinking 与 Gemini 2.5 Pro 能够获得 级勾。
ChatGPT Polaris Alpha* 能够获得 级勾。
DeepSeek Without Thinking、Qwen 3-Max 与 DeepSeek Thinking 能够在 SC(作者所在省份)进入 NOIP。
你可以在此处下载上述代码。
相关推荐
评论
共 38 条评论,欢迎与作者交流。
正在加载评论...