type
status
date
slug
summary
tags
category
icon
password
AI summary
🎶𝓦𝓮𝓮𝓴𝓵𝔂 𝓼𝓸𝓷𝓰 𝓹𝓲𝓬𝓴 🪗:
知识小品
Tips for Writing a Research Paper using LaTeX
一个关于使用 LaTeX 撰写研究论文的指南。提供了一些关于论文写作、表格和图形组织的技巧,并包含了一些可复用的 LaTeX 模板和示例。该项目还分享了一些有用的资源,如 LaTeX 模板、论文海报示例以及一些简单的 Python 程序用于创建图形。
A brief summary of language model finetuning
语言模型微调是深度学习领域的一个重要技术,它通过在特定任务上继续训练预训练的语言模型,来提高模型在该任务上的表现。微调过程通常涉及以下几个步骤:选择合适的预训练模型、收集并预处理目标任务的数据集、设计微调策略、评估模型性能,并可能进行多次迭代优化。微调的应用非常广泛,包括但不限于文本分类、问答系统、文本生成等。然而,微调也面临着一些挑战,例如过拟合、模型大小和计算资源的需求、以及微调策略的选择等问题。
Embedding Model Fine-Tuning 案例
一个中文语境下的嵌入模型微调案例,包括环境准备、数据集准备、基线评估、微调准备、全参数微调以及 LoRA 和 NUDGE 微调方法的介绍和应用。讨论了不同的损失函数适用的数据集格式,并提出了未来需要增加的负样本挖掘工具。实践了数据合成和难负例挖掘,并在 AirBench 数据集上进行了全参数微调,评估了微调效果。
Introduction to LLM fine tuning, RAG and image training
LLM 微调入门教程,不需要太多前置知识~
Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent
混元模型的技术报告,腾讯开源了自家的 MoE 模型以及相关的技术细节,技术报告也是诚意满满👍
1. 大规模合成数据
- 通过合成数据提高训练数据的质量和多样性,使模型能够更有效地学习丰富的表示,并泛化到未见数据。
2. 增强的模型结构
- 键值(KV)缓存压缩技术:采用分组查询注意力(GQA)和跨层注意力(CLA)策略减少KV缓存开销,提高部署和扩展的效率。
- 混合专家路由策略:结合共享专家和可路由的专家,使用经典的top-k路由策略,动态学习特定领域的知识。
- 专家特定的学习率缩放:根据专家处理的token数量调整学习率,优化训练效率。
3. 探索MoE扩展规律
- 分析模型大小、训练数据和性能之间的关系,为模型设计提供指导,并为未来更强大的MoE结构的大型语言模型的开发和优化提供见解。
4. 预训练和后训练策略
- 预训练:采用详细的预训练计划和对MoE扩展规律的探索,增强模型的基本能力。
- 后训练:包括监督式微调(SFT)和从人类反馈中学习的强化学习(RLHF),以提高特定任务的能力和与人类偏好的对齐。
5. 长上下文预训练
- 训练模型处理更长的序列(高达256K令牌),使用RoPE位置编码和长上下文数据,增强模型处理长文本的能力。
随便看看
Argilla 2.4
Argilla 是一款开源的数据标注和数据质量管理平台,Hugging Face 推出了 Argilla 2.4,通过其用户界面,用户可以在没有编码知识的情况下,轻松地从 Hugging Face Hub 导入数据集并构建用于模型微调和评估的高质量数据集。
- 协作式数据标注:提供直观的用户界面,允许多个用户同时对数据进行标注,支持多种数据类型的标注,如文本分类、命名实体识别、问答系统等,提高标注效率并确保标注结果的一致性和准确性。
- 数据质量控制:内置多种数据质量控制机制,如标注一致性检查、异常值检测、标注冲突解决等,确保训练数据的高质量,从而直接影响模型性能。
- 模型性能评估:可以上传模型预测结果与人工标注进行对比,发现模型的优缺点,为进一步优化提供依据。
- 灵活的集成能力:设计了灵活的 API,可以轻松集成到现有的机器学习工作流程中,支持与多种流行的机器学习框架和工具集成,如 Hugging Face、spaCy、scikit-learn 等。
语鲸
也是一个 RSS 订阅工具,不过好像得到了腾讯的支持,可以很方便的订阅微信公众号的内容,更新也很及时,目前使用的 Follow 不太方便订阅微信公众号,除非自己搭建一个第三方服务来当作 server,机子不够就懒得弄了。看了一下这个 web 端做的挺不错,就是 UI 还有些丑,特别是最外层的文章 AI 总结,UI 好劣质哈哈哈
PyGWalker
一个Python库,可以简化Jupyter Notebook的数据分析和数据可视化工作流程,通过将pandas数据框转换为交互式用户界面来进行可视化探索。
- 将pandas数据框转换为交互式用户界面,支持简单的拖放操作和自然语言查询
- 支持在Jupyter Notebook、Kaggle、Google Colab等环境中使用
- 支持在marimo notebooks和Streamlit中使用
- 提供了强大的数据表格,可快速查看数据及其分布情况
- 支持保存数据探索结果到本地文件
Docker Layer ICU
提供了一键安装 Docker 的解决方案,针对国内用户无法直接访问 Docker 官方安装脚本的问题,提供了一个代理脚本。该代理脚本基于 Docker 官方一键安装脚本,对于 CentOS 7 和 CentOS 8,替换了软件源为阿里云,以确保 Docker 能够顺利安装。安装完成后,会替换 Docker 的镜像加速地址为 https://docker.cloudlayer.icu,使用 Cloudflare Workers 进行加速。(挺好的,感觉比我自建的docker镜像方便)
随便玩玩
儿童绘本风格的 AI 绘画
好可爱哇,整体风格也和绘本很像,有时间和精力的感觉可以搞个 workflow 制作绘本卖钱了,或者做一些故事图去小红书起号!
A children's book illustration of the little fox in profile, in the style of Jon Klassen, in the style of Miki Asai, and there is some moonlight on its face. The fox has brown fur and red ears. At the top, looking curiously into the camera with big eyes and ears wide open. The colors are warm, looking back with big eyes and smiling slightly. The background is a dark blue sky, sitting on tall grass at night, with its eyes wide open and big ears perched atop its head. The scene is illustrated as if from an animated film. In one corner of the illustration --ar 16:9 --style raw --personalize --v 6.1
随便说说
看到一些觉得挺有意思的摘录
最近科研无所进展,卡壳了,大多时间也就去处理课堂作业了,准备找师兄、导师交流一下,继续推进了 🫡🫡🫡
- 作者:huhu
- 链接:https://blog.mwwlzz.top/article/Weekly-12
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。