type
status
date
slug
summary
tags
category
icon
password
AI summary
一觉醒来,宿舍楼下的树都开花了,原来是阿姨绑上去的假花
一觉醒来,宿舍楼下的树都开花了,原来是阿姨绑上去的假花

🎶𝓦𝓮𝓮𝓴𝓵𝔂 𝓼𝓸𝓷𝓰 𝓹𝓲𝓬𝓴 🪗:

知识小品

Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions

自从 OpenAI 发布了据有推理功能的 o1 模型之后,最近国内的公司也逐渐追赶上了模型推理的步伐,包括最近发布的 DeepSeek 深度推理,能够在回答之前进行深度的思考,而且展示了完整的思维链内容(比 OpenAI 大方),而且计划后续完全开源!还有就是这篇来自阿里巴巴的 Marco-o1,公开分享了他们关于 o1 模型训练过程使用的技术。
notion image

1. 链式推理微调 (Chain-of-Thought Fine-Tuning, CoT Fine-Tuning)

核心概念:
CoT 是一种通过模拟人类思维过程进行逐步推理的方法。在生成最终答案之前,模型会逐步生成中间推理步骤。这种方式可以帮助模型更好地处理复杂问题,尤其是需要逻辑推导的场景。
原理:
  • 通过对模型进行基于 Chain-of-Thought 数据集的微调,模型学会了以结构化的方式推理。
  • 数据集中包括开放性问题的中间推导步骤和最终答案,指导模型逐步生成输出,而不是直接给出答案。
  • 微调后的模型能够在任务中展示更强的逻辑推理能力。

2. 蒙特卡洛树搜索 (Monte Carlo Tree Search, MCTS)

核心概念:
MCTS 是一种广泛用于决策问题(如围棋、国际象棋等)的算法,基于模拟和统计优化决策路径。它通过不断探索和评价可能的路径,逐步找到最佳解决方案。
原理:
  • 状态与节点:MCTS 将问题的每一个推理状态表示为树中的一个节点。
  • 行动与分支:从当前状态生成的可能输出(如下一步推理)被视为树的分支。
  • 模拟 (Rollout):从某一节点出发,模型模拟推理过程,直到达到终止状态。
  • 奖励计算:计算该路径的奖励得分(如模型的置信评分),并将其反馈给树,以优化搜索路径。
  • 信心评分 (Confidence Scores):对模型生成的每个 token 的 log 概率计算 softmax 得分,归一化后用于路径评分,帮助模型选择最优路径。

3. 推理行动策略 (Reasoning Action Strategy)

核心概念:
推理行动策略决定了模型在 MCTS 中每一步的探索细化程度。行动的粒度越细,模型能够更深入地探索,但计算成本也更高。
原理:
  • Step 级别行动:每一步行动表示完整的推理步骤(如从问题到子结论)。
  • Mini-step 级别行动:将推理步骤细化为小的子步骤(如 32 或 64 个 token),允许更细粒度的搜索。
  • Token 级别行动:理论上可达到最细粒度,但受限于计算资源,论文未完全实现此策略。
在 Marco-o1 中的应用:
  • 实验表明,mini-step(特别是 32-token 级别)在解决复杂问题时表现较优。
  • Coarse-grained 的 step 策略在简单问题上表现更高效。
  • 根据问题复杂度调整粒度,提高了解决不同问题的适配性。

4. 反思机制 (Reflection Mechanism)

核心概念:
反思机制旨在模拟人类对错误的自我检视和修正能力,增强模型的自我校正能力。
原理:
  • 模型在生成推理后添加“反思”步骤,例如在回答后附加提示:Wait! Maybe I made some mistakes! I need to rethink from scratch.
  • 利用模型的自我批评能力,对初始推理进行复查,发现并修正潜在错误。
  • 反思的效果通过引导模型生成新的推理路径,显著提升问题解决的准确性。
在 Marco-o1 中的应用:
  • 对难题的初始回答错误率进行反思后,约有一半问题被修正为正确答案。
  • 模型通过反思步骤形成内在反馈回路,无需外部干预即可自我优化。

Awesome-ML-SYS-Tutorial

作者 zhaochenyang20 的 ML SYS 学习笔记和代码仓库。作者对 ML 系统的设计和实现非常感兴趣,希望通过学习和实践来提高自己在这个领域的能力。
  1. 记录作者在 ML 系统方面的学习笔记和思考,包括 PyTorch 分布式通信、NCCL 和 NVIDIA 显卡拓扑、SGLang 代码解析等内容。
  1. 分享作者在知乎上发表的一些相关文章,涉及量化方法评测、Alignment 算法、Reward/Embed Model Server Engine 等主题。
  1. 整理和分享其他优秀博文中的一些有价值的内容,如 PyTorch DDP 入门教程、nvidia-smi 命令使用技巧等。
notion image

callGraph

callGraph 是一个多语言工具,可以解析源代码中的函数定义和调用,并生成函数调用图。

主要功能

  • 支持多种编程语言,包括 awk、bash、basic、dart、fortran、go、lua、javascript、julia、kotlin、matlab、perl、pascal、php、python、R、raku、ruby、rust、scala、swift 和 tcl。
  • 可以指定起始函数,只显示与该函数相关的调用图。
  • 可以忽略指定的函数,以减少调用图的复杂度。
  • 可以输出为 PNG、SVG 或 PDF 格式的图像文件。
  • 可以生成包含仅用到的函数的源代码文件。
  • 可以生成描述函数调用关系的 YAML 文件。
notion image

Leopards

Leopards 是一个用于查询列表字典( json arrays 很适合哎)或对象的库,类似于数据库中的过滤功能。它支持 OR、AND 和 NOT 等复杂查询,并且比 Pandas 更快。正巧前几天处理 json arrays 数据集时,发现不太好对列表中的字典进行过滤查询等。
notion image

随便看看

Extractous

Extractous 是一个快速高效的非结构化数据提取解决方案,使用 Rust 编写,并提供多种编程语言的绑定。它旨在提供一个快速、高效且全面的内容和元数据提取解决方案。
notion image

大模型(ChatGPT)“语料污染”第一真实案例

这个案例大约是受害者在使用 ChatGPT 编写代码时,生成的代码包含了调用恶意 API 的操作,且要求用户提交私钥。受害者未察异,实际运行了带有自己私钥的代码,结果 30 分钟后钱包被盗,损失约 2.5k 美元。通过分享的聊天记录可知,生成的代码是 ChatGPT 同构使用联网工具搜索得到的,在找到相关功能的代码后整理输出了一个脚本给受害者,所以本质上是因为那个开源的项目是钓鱼的,太危险了!
AI 生成代码的安全性这个问题在学术界也经过一段时间的研究了,最早到 2022 年 Copilot 问世的时候有研究发现 AI 生成的代码会包含漏洞,因为 Github 等语料库并不都是安全的代码。目前的研究大多还暂时聚焦在生成的代码是否有典型的漏洞特征,比如 SQL 注入等。目前的另一个研究方向就是关注如何让 LLM 生成安全的代码,暂时还没有看到很好的方法,对于模型,无非是微调和强化学习,所以感觉训练数据很重要。
但是对于这个案例,并不是典型的漏洞特征,因为无法确定模型给出的 API 端点是否是恶意的?那能否使用 LLM 辅助识别开源项目中的恶意 API 呢?(好像不太好做,只给出一个 API,然后简单的 post 操作,好像分析不出来什么
所以,面对这种情况 LLM 一应该最好提醒一下,敏感的密钥操作应确定是否安全~

随便玩玩

课程评估脚本

到了学期末了,很多课程已经开始逐渐结课了,教务课程网站就多了很多待评估的教师和课程,但是每一个评测要点的和写的真的好多啊,还是重复性的工作,对于很懒的我不能接受!
当一件事,如果需要毫无意义的重复3次以上。
那就必须把这个流程,想尽一切办法自动化。
无论是AI、是RPA、是开发插件等等,都可以。
我们自己的精力是有限的,一定要把时间和精力,放在更有价值的事情上。
所以用了一两个小时弄了一个自动评估的脚本,刚开始自动填充的评论内容是我写死在代码里的,但考虑到想分享给大家用,所以后面又借助 AI 迭代了一个能够配置自定义评价内容的版本。整个流程都是 AI 协助的,我只是提需求,反馈问题,让 AI 优化修改代码。因为我不会写 js 代码,只是大致能看懂 🤗
notion image

Final2x

Final2x 是一款功能强大的图像超分辨率工具,可以使用多种模型将图像放大到任意尺寸,提高图像的分辨率和质量,使其更加清晰和细节丰富。(可以将家里模糊的老照片高清放大一下,我把我爸妈的结婚照还有其他照片给高清放大,真清楚,效果不错~)

主要功能

  • 支持使用多种模型进行图像超分辨率
  • 可将图像放大到任意尺寸,提高分辨率和质量
  • 支持处理 RGBA 图像
  • 支持 Windows、macOS 和 Linux 平台
notion image

随便说说

北京的冬天来的好早啊,可能北方都是这么早,只不过我在成都待了四年,已经不习惯这么早步入冬天了。下周,天气变冷,最低达到零下八度,这才十一月底,刚开始送暖还觉着好热,殊不知现在有点不足了…嗓子还没完全好透,希望这周完全康复吧!
网易云新出的小功能
网易云新出的小功能
最近更新网易云发现在点开喜欢的音乐,也就是点了红心的音乐时,右边会出来一个小灯泡💡,点亮之后会推荐当前歌曲风格很像的一首歌,试了几次感觉挺不错,比日推还准(¯▽¯)👍
随笔周刊——第 15 期随笔周刊——第 13 期
Loading...
huhu
huhu
一个喜欢折腾的人👻
小红书
最新发布
随笔周刊——第 19 期
2025-1-15
随笔周刊——第 2 期
2025-1-15
随笔周刊——第 6 期
2025-1-15
Do Emergent Abilities Exist in Quantized Large Language Models
2025-1-15
Code Translation
2025-1-15
随笔周刊——第 7 期
2025-1-15
公告