社区讨论
面向编程竞赛的开源题目检索模型和平台
学术版参与者 16已保存回复 22
讨论操作
快速查看讨论及其快照的属性,并进行相关操作。
- 当前回复
- 22 条
- 当前快照
- 1 份
- 快照标识符
- @mhjsanlf
- 此快照首次捕获于
- 2025/11/04 07:41 4 个月前
- 此快照最后确认于
- 2025/11/04 10:24 4 个月前
近年来,编程竞赛中的重复题或几乎重复题目越来越常见。大家可以在 Luogu 的题目讨论区发现很多“双倍经验,多倍经验”一类的帖子。
为了应对这一问题,我们收集了多种数据,包括题目–代码对、重复题目对、完整题面与简化题意对等,并基于这些数据构建了一个面向编程竞赛的检索评测基准,训练了一个专用的题目检索模型。目前,这个模型在开源方案中表现最佳。
该模型也可以用于检索与某道题目相似的其他题目(不局限于重复题),以获得更多解题思路或相关知识点的补充,从而提升学习效率与理解深度。
大家可以在我们部署的在线服务中试用该模型:
http://1.94.255.218:5000/
大约两年前,http://yuantiji.ac/zh/ (原题自动机)项目提出了基于闭源大模型 API 的“简化再检索”方案。而我们用了一条不同的路径 —— 纯粹基于检索,模型轻量、对题目检索任务专门优化,在 GPU 上的查询响应时间约为 0.2 秒/条。
更重要的是:整个模型完全开源!如果希望在本地部署检索服务(CPU 或 GPU,建议内存 ≥ 16 GB),可参考我们的开源仓库:
https://github.com/coldchair/CPRet
(仓库中也提供了完整的训练脚本,支持自行微调或改进模型。)
对于对题目有保密需求的比赛,本地部署尤为适用。我们希望社区能借助这个工具,减少重复题目的传播。
如果有任何问题或建议,欢迎在 GitHub 提 issue 或者该贴下面回复,我们非常期待听到你的反馈!
本项目也在 Codeforces 上发布了介绍,欢迎查阅:https://codeforces.com/blog/entry/143098
回复
共 22 条回复,欢迎继续交流。
正在加载回复...