Self-Evaluation Guided Beam Search for Reasoning

让模型在推理的每一步进行自我评估和校正，结合随机性探索以提高多步骤推理的准确性和稳定性。 https://arxiv.org/abs/2305.00633 初步调研，没细看论文。 Abstract 将问题分解为中间步骤在大型语言模型（LLM）的推理中表现出色。然而，推理链的增长会带来不确定性和错误积累，从而难以获得准确的最终结果。为了解决多步推理中的不确定性挑战，我们引入了一种逐步...

Oct 28, 2024 文献阅读

LLM 学习笔记4-大模型训练

预训练，后训练（微调，对齐，RLHF）预训练 Tokenization 任何信息都可以被转化为 Token，任何 Token 都可以被学习。训练的第一步：Tokenization，把文本或其他信息分解为一个个离散的单元（Token）。 Embedding Tokens 可以用 embeddings（词嵌入，将单词表示为向量，使得相似的单词在向量空间中距离更近）的方式进一步表示...

Oct 24, 2024 LLM 学习笔记

LLM 学习笔记3-大语言模型基础

迁移学习，自监督学习，预训练模型（PTMs）迁移学习、自监督学习深度学习：各类自然语言处理任务（机器翻译，情感分析等）的主流框架。训练拟合数据的模型，需要有监督数据。问题：缺乏大规模监督数据，模型深度有限，泛化性能差解决：先让模型获得一个通用能力，再把这个模型迁移到更小的任务上，拥有特定的能力。 PTMs（预训练模型）先在大规模的未标注数据上进行预训练，然后在下游任务...

Oct 21, 2024 LLM 学习笔记

LLM 学习笔记2-神经网络

神经网络基础，RNN，CNN，Seq2Seq，Transformer 简单神经网络机器学习。神经网络：模仿人脑结构设计出来的一种架构，最小的学习单元是神经元。神经元是一个计算单元，由 n 维输入 $x$，偏置 $n$，n 维权重 $w$，激活函数 $f(z)$ 构成，$w, b$ 是神经元的参数。单层神经网络：由许多简单神经元连接在一起组成。多层神经网络：...

Oct 21, 2024 LLM 学习笔记

LLM 学习笔记1-绪论

符号智能 $\to$ 狭义智能 $\to$ 通用智能 ##符号智能用预定义的符号和规则来表示知识，从而进行进一步的信息分析和推理。局限性：构建知识库很困难；不是所有知识都能通过结构化的三元组明确表达；符号智能系统无法解决知识库未涵盖的内容。狭义智能这种范式通常从特定于任务的数据中训练数据驱动的机器学习模型，并将任务知识存储在特定于任务的小模型的参数中。 2010 年以后...

Oct 21, 2024 LLM 学习笔记

LogicPro

使用算法题来构造高质量的推理数据。 Abstract 提出了一个 LogicPro 的新方法来增强 LLM 的复杂逻辑推理。根据算法题和代码题解构造输入，基于此构造不同的复杂逻辑推理问题，最后结合代码题解的中间变量输出，推导出推理过程和最终结果。这个方法可以构建一个困难（所有模型都是无效的）、多样化、可拓展的数据集，并获得了一个由中间变量值引导的高质量推理过程。在BBH27、GSM8...

Oct 8, 2024 文献阅读

多智能体相关实验总结

阅读多智能体相关的论文，着重关注其中实验部分，总结他们用了什么 benchmark，在测试模型的哪些能力，结果怎么样。 Mixture-of-Agents 只用开源模型，部分指标优于 GPT-4o 大量实验有助于了解 MoA 内部机制成本效益提高两倍以上，并提供与 GPT-4 Turbo 相当的性能 Setup Benchmark 主要在 ...

Sep 14, 2024 文献阅读, Multi-Agent

abc044d Digit Sum

数学题意 https://atcoder.jp/contests/abc044/tasks/arc060_b 给定两个整数 $n, s$，求最小的整数 $b(b \geq 2)$，使得 $n$ 在 $b$ 进制下的各数位和为 $s$。如果不存在这样的 $b$，输出 -1. $1 \leq n, s \leq {10}^{11}$ 思路观察到数据范围，可以考虑根号复杂度的做法。...

Sep 5, 2024 XCPC

MetaGPT

在综述里看到的，介绍 Agents Communication 的结构 “Shared Message Pool” 里提到的文章。 https://arxiv.org/abs/2308.00352 https://github.com/geekan/MetaGPT Introduction 通过广泛的实践，人类已经开发出被广泛接受的各种领域的标准化操作流程（SOP），这些 SOP...

Aug 2, 2024 文献阅读, Multi-Agent

Internet of Agents

Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence https://arxiv.org/abs/2407.07061 https://github.com/OpenBMB/IoA Introduction 创建一个平台来促进智能体之间的自动协作，IoA，一个受...

Aug 2, 2024 文献阅读, Multi-Agent

Self-Evaluation Guided Beam Search for Reasoning

LLM 学习笔记4-大模型训练

LLM 学习笔记3-大语言模型基础

LLM 学习笔记2-神经网络

LLM 学习笔记1-绪论

LogicPro

多智能体相关实验总结

abc044d Digit Sum

MetaGPT

Internet of Agents

Trending Tags