坐在工位前加班的时候突然想起去年的一些旅行旧事。
去年的十二月底,搭乘全日空从东京经由札幌飞往北海道最北端的小城稚内。天气很不好,在新千岁航站楼的广播里一直在放送欠航预警。
延迟了半小时后最终还是冒着风险起飞了,落地稚内的时候已经是下午五点,外面飘着暴雪。
我从来没有见过这么厚的雪。即使是在北极,斯瓦尔巴群岛上的极夜里,让人意识到这是在北国之冬的更多也是来自于无言的冰川而非呼啸着的暴风雪。
我拖着行李箱在几十厘米深的积雪中艰难地行走,总算到了前几日提前预定的青旅,里面亮着温暖的灯。

“チェック...

阅读全文...

概述

本文记录了在部署和使用 SWE-smith(一个用于生成软件工程任务的工具)过程中遇到的各种技术问题及其解决方案。SWE-smith 是一个复杂的系统,涉及多个组件:bug生成、验证、收集、issue生成等。

遇到的问题与解决方案

1. Git推送权限问题

问题描述:
在执行 python -m swesmith.harness.gather 命令时,遇到以下错误:

su
...

阅读全文...

本文详细记录了针对 DeepSeek-Coder-7B-base-v1.5 模型,结合 HuatuoGPT 医疗对话数据进行 SFT(Supervised Fine-Tuning) 的全过程。记录从最初设计到逐步调试的每一步,包括所做的改动、背后的原因、遇到的问题、解决方案以及最终结果。


1. 项目背景与目标

本次任务的目标是:

  1. 首先加载基模型,在这个项目中基模型为

    阅读全文...

📋 项目概述

本文记录了一次完整的医疗AI模型评估系统搭建过程,涉及将自训练的Medical GPT模型接入HealthBench评估框架,并使用DeepSeek Chat作为评分器的完整技术实现。

技术栈

  • 评估框架:simple-evals + HealthBench
  • 被评估模型:DeepSeek Coder 7B + QLoRA微调 (Medical GPT)
  • 评分模型:DeepSeek Chat (Deep...

    阅读全文...