标签《AI》

用 Claude Code 做了个 Claude Code 的成本计算器

2025 7 27 10:28 PM 0 条评论 311 次查看

分类：AI 标签：AI

先展示效果图吧：

古法编程大战氛围编程

2025 7 20 03:00 AM 0 条评论 330 次查看

分类：AI 标签：AI

自从上周使用 Claude Code 以来，我越发觉得 Cursor 弱智了。可是免费的 Any Router 被攻击停服了，我只好找其他替代方案了。
很容易想到的方式就是让 Claude Code 使用 Gemini 模型，毕竟有免费的 API 可以薅羊毛。
实现也很简单：做个 API 代理服务，将 Claude Code 的请求转成 Gemini 的 API 格式去调用 Gemini 模型，拿到响应后再转成 Claude 的格式。
看上去应该是个很简单的任务吧，我决定让 AI 编程工具帮我搞定。

AI 自动编程王者之争：Cursor vs Roo Code vs Gemini CLI vs Claude Code

2025 7 11 06:56 PM 0 条评论 984 次查看

分类：AI 标签：AI

去年我曾测试过 Cline、GitHub Copilot 和 Cursor 的编程表现，但是今年 agentic coding tool 这个领域的竞争更加激烈了，我也想重新测试下当今的王者是谁。
正好最近在研究 MacBook 的 ANE 芯片能干啥时，发现它可以做 OCR，且 Apple 原生提供了 OCR 的接口。
考虑到经常有同事找我排查问题时只发截图，我还需要将其中的文字提取出来才能用于定位问题，于是想让 AI 帮我写一个简单的 OCR 工具。
我并没有什么 macOS 应用的开发经验，因此这个项目正好可以考查一下各种 AI 工具对小白的帮助程度。

我设计的测试方案如下：

基于我简单的了解，开发 macOS 应用应该需要 XCode，可能需要先配置一些环境，因此我先设计一段提示词，故意让它用 VSCode 配置：
帮我开发一个macOS应用：
1. 平时它在后台静默运行。
2. 当用户截图或在任意应用（如浏览器）中复制图片时，它自动检测图片中的文本内容。
3. 如果检测到有文本内容，就弹出一个小窗口，并提供一键复制功能，过几秒钟自动关闭窗口。
4. 用户可以打开菜单栏，查看历史的文本列表。（无需持久化，保存最近5条。）

先不要写代码，如果需要用vscode创建必要的环境，指导我怎么做。直到我完成环境配置后，才开始生成代码
配置完成后，用下面的提示词生成代码：
我已经创建好了，请检查下项目结构，开始写代码。如果需要操作，请通知我

对 Cursor 的一些观察和思考

2025 1 26 05:32 PM 0 条评论 383 次查看

分类：AI 标签：AI

自上次评测 AI 自动编程工具以来，各种新兴产品如 Trae 等相继入局，而 Roo Code（原Roo Cline）也通过集成 VS Code LM API，提供了每月 50 次的 Claude 3.5 Sonnet 免费调用。这些替代品的出现和完善使它们在成本上有着显著的优势，但在自动补全和光标预测方面，仍无人撼动 Cursor 的地位，那它究竟有怎样的核心技术壁垒呢？

AI 自动编程评测：Cline vs GitHub Copilot vs Cursor

2024 12 26 11:13 PM 0 条评论 606 次查看

分类：AI 标签：AI

最近 Cursor 很火，而我一直觉得免费的自动补全工具就已经够用了，花钱使用自动编程工具似乎有些浪费。然而最近的一次经历让我对其大为改观：Cline + Claude 3.5 Sonnet 在 5 分钟内就帮我解决了一个几天都没有搞定的问题。

好奇之下，我准备评测一番各种自动编程的工具，看看谁是目前的王者。

这次的任务背景如下：
公司有一个服务需要调用多种大语言模型的 API，在接入其他模型时，都能通过 HTTP 接口异步调用，唯独 AWS Redrock 提供的 Claude 模型没有。
我花了几天时间去搜索文档和寻找资料，只得到这个结论：AWS Redrock 没有提供 HTTP 的接口文档，官方只提供了同步库（如 boto3）来进行调用，没有异步实现。
大约半年前，我曾向 AWS 的工程师请求帮助，得到了一份复杂的代码片段，介绍了如何为 HTTP 接口调用添加签名。我简单尝试了一下，发现签名仍然错误。也许再多花几个小时修改代码，我有可能可以解决这个问题，但当时业务重心偏向 GPT-4o 模型，所以我就将其搁置了。
如今有了 AI 自动编程工具，我决定让它们来解决这个问题。

微调的上限是由底模决定的

2024 9 30 05:19 PM 0 条评论 334 次查看

分类：AI 标签：AI

继上个月研究 LLM 的微调以来，我把各种参数都折腾了一遍，效果大致已经到极限了。
当时的数据量只有 400 多条，为了避免过拟合，我一共只训练了 2 轮。为了避免相同的训练顺序对学习造成影响，还将两次训练集的顺序打乱了。

由于数据量很少，初始 loss 更低的 PiSSA 是非常推荐使用的，不然本就稀少的数据被用于降低初期较高的 loss，显得有点浪费。
之前那篇文章我没有说明 PiSSA 的原理，这里简单提一下：
LoRA 的原理是构造 2 个低秩矩阵，其中 A 矩阵是随机值，B 矩阵全是 0，它们相乘后再和原矩阵相加作为参数。
而 PiSSA 则是将原矩阵进行奇异值分解，也就是让分解得到的两个矩阵相乘等于原矩阵。当然，完全相等也没必要，一般会使用快速奇异值分解，让 A * B 近似于原矩阵即可。这样，我们在微调 A、B 矩阵时，初始状态更接近原矩阵（初始 loss 低），微调效果也更接近全参微调（最终 loss 低）。

我选用的验证集约 40 条，Qwen2-7B-Instruct 的 eval loss 大概能降到 0.3。
之后针对验证集中表现不好的例子，我又陆续构造了约 200 条数据。至此，eval loss 大概能降到 0.2。但继续增加数据量，却发现模型会出现教不会的现象。
顺便对比一些在线的模型：gpt-4o 和 gpt-4o-mini 大概到 0.14，glm-4-flash 大概到 0.25。

如何微调一个自用的小模型

2024 8 9 12:26 AM 0 条评论 715 次查看

分类：AI 标签：AI

最近在用大模型做多语种的翻译，选择了 2 张 4090 能部署的当前最强模型：Qwen2-72B-Instruct-GPTQ-Int4。
但在使用过程中发现了不少问题，例如：

速度太慢，用 vLLM 部署，32 并发时大概 300 tokens/s，每个请求其实不到 10 tokens/s。
指令遵循不行，当要求过多时，会随机无视一些指令。
喜欢废话，即使要求它只输出翻译，也可能会附带一堆多余信息。目前发现最好的方式是让它输出在一个 XML 标签里（例如 <OUTPUT></OUTPUT>），然后用字符串匹配或正则表达式来提取翻译。

那么有没有办法解决呢？

AI 时代的显卡选择

2024 7 14 11:11 PM 0 条评论 626 次查看

分类：AI 标签：AI

最近我一直在折腾大模型的推理、部署和训练，遇到了不少坑，先阶段性地总结一下。

先说下结论吧：

个人学习最简单的方案：16 寸 MacBook Pro M3 Max 128 GB 内存，靠谱的低价约 28000+ RMB。最大可进行约 70B Int8 量化模型的推理（如 Qwen2-72B-Instruct-GPTQ-Int8）。
个人学习+游戏需求：RTX 4090，不太好买，约 15000+ RMB。最大可进行约 30B Int4 量化模型或 7B 模型的推理。
小规模部署：双 RTX 4090。最大可进行约 70B Int4 或 AWQ 量化模型的推理（如 Qwen2-72B-Instruct-GPTQ-Int4）。
训练 70B 的模型：租 8 * Tesla A800/A100/H800/H100 80GB 的服务器（越往右性价比越高），每天约 1000～3000 RMB。
追求速度：用各个厂商的云服务。

其他不推荐的选项：

192 GB 内存的 Mac Studio 或 Mac Pro：型号较老，价格太贵，唯一的优势是可以进行约 70B 模型的推理。
RTX 3090 等其他游戏显卡：相较于 RTX 4090 的性价比较低。
Tesla A100 等高端专业显卡：价格太高，如果要进行 70B 模型的推理需要 2 张（约 15 万 RMB），性价比不如 4 张 RTX 4090。如果用于训练和微调，闲置时有点浪费。
AMD 显卡：性价比较高，但生态不如 NVIDIA，这意味着很多库和工具不支持 AMD 显卡或性能较差，较新的论文和库一般都只有 NVIDIA 版。不适合学习，除非你确定正好能满足你的需求。
国产显卡：价格不低，生态较差，很多库无法使用或需要专门安装老版本的魔改版。

keakon的涂鸦馆

用 Claude Code 做了个 Claude Code 的成本计算器

古法编程大战氛围编程

AI 自动编程王者之争：Cursor vs Roo Code vs Gemini CLI vs Claude Code

对 Cursor 的一些观察和思考

AI 自动编程评测：Cline vs GitHub Copilot vs Cursor

微调的上限是由底模决定的

如何微调一个自用的小模型

AI 时代的显卡选择

最新评论

分类

标签