一、引言与项目概览

DeepSWE 是一个全新的、完全开源的强化学习训练项目,其目标是构建一个具备多步代码理解与修改能力的大型语言模型智能体(coding agent)。该项目训练起点是 Qwen3-32B 模型,不依赖任何监督微调(SFT)或教师模型蒸馏,仅通过强化学习完成整个 agent 的建构。最终模型 DeepSWE-Preview 在 SWE-Bench-Verified 基准任务上取得 42.2% 的 Pass@1 成绩,并通过测试时轨迹扩展(Test-Time Scaling)将 Pass@16 提...

阅读全文...

引言

收集数据一直是训练语言模型解决软件工程问题的一大难题。在此前的SWE-Bench的工作中,从10个左右的 GitHub 仓库里人工手动构造出了最多 1000 条高质量的实例用于进行测试和研究,但人工操作显然限制了扩展性和可用性。现有的方法存在如下几个问题:

  • 数据集的规模有限
  • 创建成本较高(人力成本、存储成本等)
  • 开源模型发展较为受限

![[Pasted image 20250714154807.png]]

基于这个痛点...

阅读全文...

之前的服务器到期了,续费的价格颇为不菲,于是趁这个机会买了一个新的服务器,也正好重构一下博客。此前网站的主题太为臃肿,加上没有做加速,大量的时间都停留在渲染前端界面上,反而忽略了内容。

一转眼又是一年八月。

我对夏季的感情是复杂的。在能够被想起来的那些记忆碎片里,为数不多的幸福和欢乐大多来自于炎热的夏日。

小时候住在湘江边上,每逢七八月外婆便会带我坐公交车去烈士公园玩,那里有一个很大的湖。游客们会在湖上划船,也有小贩在湖边售卖各式各样的玩具和零食。那时候我年纪还很小,船是划不了的,于是就在湖边...

阅读全文...

Intro

一个“好”的基准测试可以用来反应LMs在现实世界应用的表现,以帮助塑造他们未来的的发展。
但构建一个"好”的Benchmark也是困难的,因为这要求:

  1. 任务要有挑战性
  2. 模型预测需要是能够且容易验证的

现有的编码基准测试(如HumanEval)大多涉及自包含问题(Self-contained problem)。自包含问题指的是不依赖外部上下文或复杂依赖关系的问题,所有必要的信息和代码都已在问题本身中完整提供,可以在一个小范围内(如几行代...

阅读全文...

初始 LLM 接受的输入通常只包含文本信息,而不具备多模态理解的能力。如果需要LLM接受单元格数据并进行处理,我们通常需要先将其文本化以与 LLM 的输入接口对齐。

Excel 文件(.xls / .xlsx)在本质上是一种富结构的二进制或压缩 XML 文件,其内容不仅包括了基本的表格数据(即单元格中的文字和数值),还可能包含:

  • 合并单元格
  • 图表、图像、批注
  • 单元格格式(颜色、字体、对齐方式)
  • 数学公式(如 =SUM(A1:A5))
  • 阅读全文...