type
status
date
slug
summary
tags
category
icon
password
AI summary
🎶𝓦𝓮𝓮𝓴𝓵𝔂 𝓼𝓸𝓷𝓰 𝓹𝓲𝓬𝓴 🪗:
(这个人肯定吃了好多个周杰伦 🤣
知识小品
💥💥💥OpenAI o1
周五一早醒来就看见关于 OpenAI 最新 🍓 模型的各种文章和帖子,新模型代号 OpenAI o1,体验下来是真的强啊,特别是对于复杂问题的推理能力,看到三四十个推理步骤,🧎♂️🧎♂️🧎♂️了,这是我的测试对话链接。通过网上的讨论和报道,OpenAI 最新模型使用了强化学习来训练模型再输出中使用 CoT 的能力,也包括输出的多次采样,增加推理时间等。所以模型能力的提升来到了推理部分,Scaling Law for Inference !
但是,今天也看到好多人随便测测就说模型的能力也没咋变啊,还是不能比较数字大小,首先对于这个问题,我实测下来是没问题的,对于数字母等也没问题,对于更复杂的密码算法破译也没问题!而且根据核心的内部人员说道,该模型非常适用于 hard prompt,对于比较简单的问题,可能确实不如 gpt-4o 等,所以可以拿 Leetcode hard 题目试试,或者复杂的数学问题试试。而且目前这个还是在 preview 阶段,最终的模型,我相信一定是 surprising 的!
一些解说
- 推理时间扩展:传统的大型语言模型通常通过大量的训练数据记住信息,并在回答问题时快速调用这些记忆。但 Jim Fan 指出,OpenAI o1模型的创新之处在于它专注于推理,而不是记忆。这意味着,模型不需要非常庞大的参数来记住所有的事实,而是可以通过推理来得出结论。这样做不仅可以提高效率,还可以减少对模型记忆的依赖。
- 推理核心与工具调用:他提到,较小的模型可以通过一个“推理核心”来完成任务。这个核心通过调用外部工具(例如浏览器或代码验证器)来补充知识,而不是依靠模型本身记住所有细节。这种方法让模型更加灵活,也减少了训练时的计算需求。换句话说就是:模型知道什么时候自己不懂,然后找方法去“查询”或“验证”答案,而不是依赖模型自身储存所有知识。
- 计算资源的转移:Fan 强调,OpenAIl 01 通过 在推理阶段使用大量计算资源来滚动出多种策略和场景,并从中选择最佳方案。也就是模型在解决问题时,会模拟各种可能的策略,然后选出最佳答案。这类似于 AlphaGo 使用 蒙特卡洛树搜索(MCTS)来不断优化决策过程。这意味着,模型不再依赖预训练期间的计算,而是在推理阶段动态调整,解决问题时更加高效。
- 生产中的挑战:尽管学术上的表现已经很好,但在实际生产中使用01模型面临更多挑战。比如,如何决定搜索过程何时结束,什么样的标准可以判定结果的好坏,以及调用外部工具的计算成本如何控制等。OpenAI 的 o1 模型不再依赖记忆海量数据来进行推理,而是通过灵活使用工具和优化推理过程来实现高效的决策。这在减少模型规模的同时,还保持了强大的推理能力
下面是相关的技术论文:
Let's verify step by step
这篇论文探讨了大型语言模型在执行复杂多步推理任务时的可靠性问题。尽管这些模型在多步推理方面取得了显著进步,但它们仍然会定期产生逻辑错误。为了训练更可靠的模型,研究者们考虑了两种监督方法:结果监督(outcome supervision)和过程监督(process supervision)。结果监督仅对最终结果提供反馈,而过程监督则对每个中间推理步骤提供反馈。鉴于训练可靠模型的重要性以及人类反馈的高成本,仔细比较这两种方法变得尤为重要。
论文的主要贡献包括:
- 展示了过程监督在训练模型解决MATH数据集中的问题方面,显著优于结果监督。使用最先进的过程监督奖励模型(PRM),解决了MATH测试集代表性子集中78.2%的问题。
- 证明了大型奖励模型可以可靠地近似人类监督,用于较小奖励模型的大规模数据收集。
- 展示了主动学习(active learning)显著提高了过程监督的数据效率,提高了2.6倍。
- 发布了完整的过程监督数据集PRM800K,以促进相关研究。
论文通过实验和分析,强调了过程监督在提高模型推理能力方面的潜力,并提出了通过主动学习来降低人类数据收集成本的方法。此外,论文还探讨了过程监督在AI对齐方面的潜在优势,包括更容易解释的推理过程和更直接地奖励模型遵循人类认可的推理链。
Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning
这篇论文试图解决的问题是如何通过 Reverse Curriculum Reinforcement Learning 来提高大型语言模型在复杂推理任务中的性能。具体来说,论文面临的挑战包括:
- 强化学习(Reinforcement Learning, RL)在复杂推理任务中的应用:在应用RL到复杂推理任务时,核心挑战在于识别能够产生正向奖励的动作序列,并为优化提供适当的监督信号。
- 监督信号的稀疏性:现有的监督方法,如基于结果的监督(Outcome Supervision, OS),虽然简单易行,但提供的奖励信号稀疏,难以精确定位错误。而基于过程的监督(Process Supervision, PS)虽然能够提供详细的反馈,但需要大量的人工标注,成本高昂。
- 模型的探索和学习效率:在多步骤推理任务中,模型在探索过程中容易累积错误,导致难以获得正确的最终结果。同时,推理步骤的增加导致搜索空间呈指数级增长,使得获取正确结果变得更加困难。
为了解决这些问题,论文提出了R3方法,它通过从正确的示范推理路径的中间状态开始探索,逐步滑动起始状态,从而在模型探索的每个阶段提供类似于过程监督的信号,同时仅使用基于结果的奖励函数。这种方法旨在克服现有方法的局限性,提高LLMs在推理任务中的性能。
Large Language Monkeys: Scaling Inference Compute with Repeated Sampling
这篇论文探讨了如何通过增加生成样本的数量来扩展语言模型(LLMs)在推理(inference)阶段所使用的计算资源。具体来说,论文试图解决以下两个问题:
- 覆盖率(Coverage):随着生成样本数量的增加,我们能够使用任何生成的样本解决的问题比例是多少?换句话说,增加样本数量能否提高解决问题的能力?
- 精确度(Precision):在必须从生成的样本集合中选择最终答案的情况下,我们能否识别出正确的样本?
论文的核心观点是,通过重复采样(repeated sampling)作为扩展推理计算的另一种方式,可以在多个任务和模型上观察到覆盖率随样本数量的增加而提高。这表明,通过增加样本数量,可以显著提高语言模型在各种任务上的性能,甚至在某些情况下,使用更多的样本和较弱的模型组合,可能比使用较少样本和更强的模型更为有效和经济。
ReFT: Reasoning with Reinforced Fine-Tuning
这篇论文试图解决大型语言模型(LLMs)在进行数学问题解决时的泛化能力不足问题。具体来说,论文指出,现有的通过监督微调(Supervised Fine-Tuning, SFT)使用思考链(Chain-of-Thought, CoT)注释来增强LLMs推理能力的方法,由于训练仅依赖于给定的CoT数据,导致模型泛化能力不强。为了解决这个问题,论文提出了一种新的微调方法——强化微调(Reinforced Fine-Tuning, ReFT),以增强LLMs在数学问题解决中的泛化能力。
ReFT方法首先通过SFT对模型进行预热,然后利用在线强化学习(特别是论文中使用的近端策略优化算法PPO)进一步微调模型。在这个过程中,模型会自动采样大量的推理路径,并且奖励自然地来源于问题的真实答案。通过这种方式,ReFT能够从多个正确的推理路径中学习,从而提高了模型的泛化能力。
论文在GSM8K、MathQA和SVAMP数据集上进行了广泛的实验,结果表明ReFT显著优于SFT。此外,通过结合推理时的策略,如多数投票和重新排序,可以进一步提升ReFT的性能。重要的是,ReFT在不依赖额外或增强的训练问题的情况下,仅通过学习与SFT相同的训练问题就获得了改进,这表明了ReFT在泛化能力上的优越性。
Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters
这篇论文研究了如何通过在大型语言模型(LLMs)的测试时(test-time)增加计算量来提高其性能。具体来说,论文试图回答以下问题:如果允许LLM在固定的非平凡(fixed but non-trivial)推理时间计算量下,它能在挑战性提示(challenging prompt)上的性能提升多少。这项研究不仅对LLM可达到的性能有重要意义,也对未来LLM的预训练(pretraining)和如何在推理时间与预训练计算之间权衡提供了洞见。
论文的核心观点是,通过在测试时增加计算量,可以使得LLM在面对复杂问题时,通过更深入的思考来提高其决策的准确性。这与人类在面对难题时倾向于深思熟虑以提高决策质量的行为相似。论文探讨了两种主要的测试时计算扩展机制:
- 针对基于过程的验证器(process-based verifier)奖励模型进行搜索。
- 根据测试时的提示,适应性地更新模型对响应的分布。
论文发现,不同方法在扩展测试时计算的有效性,关键取决于提示的难度。基于这一观察,论文提出了一种“计算最优”(compute-optimal)的扩展策略,该策略能够根据每个提示自适应地、有效地分配测试时计算量。使用这种计算最优策略,可以在保持性能的同时,将测试时计算扩展的效率提高4倍以上,与最佳N选一(best-of-N)基线相比,使用的测试时计算量减少了4倍。此外,在与FLOPs匹配的评估中,论文发现,在较小的基础模型获得一定非平凡成功率的问题上,使用测试时计算可以超越一个14倍大的模型。
Tutorial on Diffusion Models for Imaging and Vision
89 pages of diffusion alpha.
卡内基·梅隆大学的 2024 年秋季版高级 NLP 课程讲义
CS11-711 高级自然语言处理(卡内基梅隆大学语言技术研究所开设的课程)是一门面向研究生水平的自然语言处理入门课程,旨在为对该领域前沿研究感兴趣的学生提供指导。课程中描述了自然语言处理中的基本任务,如句法分析、语义分析和话语分析,以及解决这些任务的方法。该课程重点关注使用神经网络的现代方法,并涵盖为此所需的基模型和学习算法。(讲义在Schedule页面里)
MiniMind
本开源项目旨在完全从0开始,最快仅用3小时!即可训练出仅为26M大小的微型语言模型MiniMind。MiniMind改进自DeepSeek-V2、Llama3结构,项目包含整个数据处理、pretrain、sft、dpo的全部阶段,包含混合专家(MoE)模型。
随便看看
Ice Land!Explore the Mysterious Laki Volcano
Links 上大分,一周一更,太爱啦!!当时上课摸鱼看见更新了,忍住没看,Links 的视频一定得大屏幕 4k HDR 观看 🤩。这次 Links 直接从日本飞往了冰岛,自驾前往无人的火山群中,太美啦!!!中间小螃蟹说的一句话,好让人感动 😭😭😭
整片火山群只有我一辆车,可以理解为就我一个人在上面驰骋,虽然路摇摇晃晃的,但是我眼前的每一秒钟,都是非常非常世间罕见的绝景,就感觉我生命无比的自由。很多时候,人生就是为了这个瞬间,去感受去体验。
binsider
一款强大的ELF二进制文件分析工具,提供静态和动态分析、字符串检查、库检查和十六进制转储等功能,通过友好的终端用户界面进行操作。
外国人整理的悟空学习资料 🫡
太强了,看了一下,文档列的太细致了,72变的招式讲解等,提供了完整的 177 页目录的 Google Doc 和 PDF。黑神话这波文化输出 yyds !!!
随便玩玩
Follow!!!
嘿嘿,开心死了,要了一个月的饭终于要到了 Follow 的邀请码!Follow 是新一代的 RSS 软件,目前还在内测阶段,作者已经在 X 等社交媒体进行推广,邀请测试,但是始终没要到内测资格,馋死了,每天在别人家评论区跪求 🥲,就是使劲舔 👅,因为自己本来就是 RSS 重度用户,之前一直用的 Fluent。
转折点竟然在学校课堂上,那天去上课,我和室友坐后排,我一抬头发现前面那个人在看的软件图标好熟悉,仔细一瞧,竟然是 follow!!我一点没犹豫的就拍了拍那个同学,问他能不能给我生成一个邀请码,因为一个邀请码需要 10 个 power,那个同学很大方的给我了 🥰,妈呀,世界怎么如此美妙 💃💃💃,目前基本添加了很多源了,还在陆续补充中~
天津之旅
中秋节和大学同学去了天津玩,行程三天,回来蛮累的,总体体验应该是中规中矩的旅行,没有特别有特色的景点。第一天在天津市区的几个景点逛了逛,打卡涂鸦墙世纪钟、意式风情街,在海河旁 city walk 一会,做了一个谁听谁说亏的一分钟五块钱的二十分钟没有体验感的天津之眼,从这里开始就感觉特别亏,导致也不想去坐船了😅,也导致不想在市区溜了┐(─__─)┌
第二天直接买票去了滨海新区,确实是新区,路上哪里都很干净。先吃了海鲜大餐,然后去了网红图书馆,也就是庆余年的拍摄地,但进去才发现,高层的书全是贴纸可还行🤯,没想到的方式…然后打车去了海边的公园,开始暴走,里面没共享单车可以租,其他的又很贵,算求🥲,走了两个小时,走不动了(◍•﹏•),也比较单调,只有海,适合家庭露营在附近,不适合目的性强的旅行。然后打车到了国家海洋博物馆,三个找个椅子坐了一小时🫡😬,就是很累。然后又决定打车回去看日落,快到的时候发现,嘶,太阳怎么在对面,感觉这里时候看日出啊,但靠近之后,看到眼前的美景,所有的疲惫烟消云散,冲向栏杆旁,看着远处一望无际的淡蓝色的大海与在夕阳照映下的粉色云朵,那时的心情和感受,让我立刻想到前面小螃蟹说的话:此刻,就感觉我生命无比的自由。很多时候,人生就是为了这个瞬间,去感受去体验。
更多照在这里(。・・。)👉:天津之旅
随便说说
最近两周在跟着室友一起健身,室友是专业的健身人员,对于我这种社恐能有人一起去健身房还能教我动作,真开心😊。
中秋的安排还是比较紧的,有些许疲惫,在天津那晚还喝多了难受,以后再也不敢了🥹
- 作者:huhu
- 链接:https://blog.mwwlzz.top/article/Weekly-6
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。