面向编程竞赛的开源题目检索模型和平台

近年来，编程竞赛中的重复题或几乎重复题目越来越常见。大家可以在 Luogu 的题目讨论区发现很多“双倍经验，多倍经验”一类的帖子。

为了应对这一问题，我们收集了多种数据，包括题目–代码对、重复题目对、完整题面与简化题意对等，并基于这些数据构建了一个面向编程竞赛的检索评测基准，训练了一个专用的题目检索模型。目前，这个模型在开源方案中表现最佳。

该模型也可以用于检索与某道题目相似的其他题目（不局限于重复题），以获得更多解题思路或相关知识点的补充，从而提升学习效率与理解深度。

大家可以在我们部署的在线服务中试用该模型： http://1.94.255.218:5000/

大约两年前，http://yuantiji.ac/zh/ （原题自动机）项目提出了基于闭源大模型 API 的“简化再检索”方案。而我们用了一条不同的路径 —— 纯粹基于检索，模型轻量、对题目检索任务专门优化，在 GPU 上的查询响应时间约为 0.2 秒/条。

更重要的是：整个模型完全开源！如果希望在本地部署检索服务（CPU 或 GPU，建议内存 ≥ 16 GB），可参考我们的开源仓库：

https://github.com/coldchair/CPRet

（仓库中也提供了完整的训练脚本，支持自行微调或改进模型。）

对于对题目有保密需求的比赛，本地部署尤为适用。我们希望社区能借助这个工具，减少重复题目的传播。

如果有任何问题或建议，欢迎在 GitHub 提 issue 或者该贴下面回复，我们非常期待听到你的反馈！

本项目也在 Codeforces 上发布了介绍，欢迎查阅：https://codeforces.com/blog/entry/143098

讨论操作