mfc 毕业论文(优选11篇)

个人学习 10 0

mfc 毕业论文 第1篇

检索增强生成(RAG)作为解决大型语言模型(LLM)缺乏知识问题的有希望的解决方案而兴起。现有的RAG数据集并未充分代表现实世界问答(QA)任务的多样性和动态性。为了弥补这一差距,论文引入了全面的RAG基准(CRAG),这是一个由4,409个问答对组成的事实性问答基准,模拟Web和知识图谱(KG)搜索的模拟API。

CRAG旨在涵盖五个领域和八个问题类别的多样化问题阵列,反映了从热门到长尾的实体流行度和从年度到秒级的时间动态。

mfc 毕业论文 第2篇

本文提出了一个开放平台GenAI-Arena,用于评估不同的图像和视频生成模型,用户可以积极参与评估这些模型。通过利用集体用户反馈和投票。

为了进一步促进基于模型的评估指标研究,还发布了三个任务数据准备脚本GenAI-Bench。结果显示现有的多模态模型在评估生成的视觉内容方面仍然落后,即使是表现最好的模型GPT-4o在质量子分数上的皮尔森相关性也只有,并且在其他方面表现得像随机猜测一样。

mfc 毕业论文 第3篇

在模型响应的不确定性或置信度的估计中,可以显著地评估不仅仅是对响应的信任,而且对整个模型的信任。论文探讨了通过仅黑箱或查询访问它们来估计大语言模型(LLMs)响应的置信度的问题。

提出了一个简单且可扩展的框架,在其中设计了新颖的特征并训练一个(可解释的)模型(例如逻辑回归)来估计这些特征的置信度。实验表明,简单框架在估计flan-ul2、llama-13b和mistral-7b的置信度方面一致优于现有的黑箱置信度估计方法,在基准数据集如TriviaQA、SQuAD、CoQA和Natural Questions上的性能提高了超过10%(在AUROC上)。

mfc 毕业论文 第4篇

高质量的指令数据对于对齐大型语言模型(LLMs)至关重要。尽管一些模型如Llama-3-Instruct拥有开放的权重,但它们的对齐数据仍然是私有的。

我们能否通过直接从对齐的LLM中提取来大规模生成高质量的指令数据呢?论文介绍了一种用于生成大规模对齐数据的自我合成方法,称为Magpie。

为了将Magpie数据与其他公共指令数据集进行比较,使用每个数据集对Llama-3-8B-Base进行微调,并评估了微调模型的性能。

结果表明,在某些任务中,使用Magpie微调的模型的表现与官方的Llama-3-8B-Instruct相当,尽管后者通过监督式微调(SFT)增强了1000万数据,并通过后续反馈学习进一步提升。

mfc 毕业论文 第5篇

MCTSr算法是将大语言模型(LLMs)与蒙特卡洛树搜索(MCTS)创新整合的方法,旨在提高复杂数学推理任务的性能。

面对LLMs在策略和数学推理中的准确性和可靠性挑战,MCTSr利用系统探索和启发式自我完善机制来改进LLMs内的决策框架。

该算法通过迭代的选择、自我完善、自我评估和反向传播过程构建蒙特卡洛搜索树,使用改进的上限置信区间(UCB)公式来优化探索和利用的平衡。

广泛的实验表明,MCTSr在解决奥林匹克级数学问题上的有效性,显著提高了多个数据集上的成功率,包括GSM8K、GSM Hard、MATH和奥林匹克级基准,如 Math Odyssey、AIME和OlympiadBench。

mfc 毕业论文 第6篇

复杂的多步骤推理任务,如解决数学问题或生成代码,对于即使是最先进的大型语言模型(LLMs)来说仍然是一个重大挑战。在推理时验证LLM输出的标准技术是使用结果奖励模型(ORM),目标是提高LLMs的推理性能。

但是对于具有长期或多跳推理链的推理任务,这仍然不足,因为其中间结果既不得到适当的奖励也不受惩罚。过程监督解决了这一限制,通过在推理过程中分配中间奖励。

论文提出了一种名为OmegaPRM的新型分而治之式蒙特卡洛树搜索(MCTS)算法,用于高效收集高质量的过程监督数据。该算法通过二分搜索迅速识别思考链(CoT)中的第一个错误,并平衡正负例,从而确保效率和质量。

整个过程无需任何人工干预,使这个方法在成本上都比现有方法更具成本效益。

mfc 毕业论文 第7篇

利用激活稀疏性是显著加速大型语言模型(LLMs)推理过程而不影响性能的有前景的方法。

但是激活稀疏性由激活函数决定,常用的如SwiGLU和GeGLU显示出有限的稀疏性。简单替换这些函数为ReLU也达不到足够的稀疏性。并且不充分的训练数据可能进一步增加性能下降的风险。

为了解决这些挑战,论文提出了一种新的dReLU函数,旨在改善LLM的激活稀疏性,同时使用高质量训练数据混合比例以促进有效的稀疏化。利用Mixture-of-Experts (MoE) 模型的前馈网络(FFN)专家中的稀疏激活模式进一步提高效率。

通过将这个稀疏化方法应用于Mistral和Mixtral模型,每次推理迭代仅激活25亿和43亿参数,同时实现更强大的模型性能。评估结果表明,这种稀疏性实现了2-5倍的解码加速。

LLM提示工程与微调

mfc 毕业论文 第8篇

大语言模型(LLM)在医学问答基准测试中取得了令人印象深刻的表现。但是高基准测试准确率并不意味着能够推广到真实世界的临床环境中。

医学问答基准测试依赖于与量化LLM性能一致的假设,但这些假设在临床的开放环境中可能不成立。论文寻求量化LLM在医学问答基准测试性能在基准假设被违反时的推广能力。提出了一种我们称为MedFuzz(用于医学模糊测试)的对抗性方法。

论文介绍了一种排列测试技术,可以确保成功的攻击具有统计意义。并展示如何使用在“MedFuzzed”基准上的表现以及单个成功攻击来使用这些方法。这些方法在提供洞察LLM在更现实设置中的稳健操作能力方面显示出希望。

mfc 毕业论文 第9篇

大型语言模型(LLMs)已发展到涵盖广泛的领域知识。但是控制大语言模型不应知道的信息同样重要,这样可以确保对齐和安全使用。

精确且高效地从LLM中遗忘知识仍然具有挑战性,因为保留与遗忘之间的界限模糊,以及针对具有数千亿参数的最先进模型进行优化的大计算需求。

论文介绍了嵌入式损坏提示(ECO Prompts),这是一个轻量级的大语言模型遗忘框架,用于解决知识纠缠和遗忘效率的挑战。不依赖于LLM本身进行遗忘,而是在推理过程中通过使用提示分类器来识别和保护需要遗忘的提示,强制执行遗忘状态。

通过广泛的遗忘实验,证明了这个方法在实现有希望的遗忘效果的同时,在一般领域和与遗忘领域紧密相关的领域几乎没有副作用,并且这个方法可扩展到从到236B参数的100个LLM,增加参数数量不会导致额外成本。

LLM推理

mfc 毕业论文 第10篇

离线偏好优化是提高和控制大语言模型(LLMs)输出质量的关键方法。通常偏好优化被视为一个离线监督学习任务,使用凸损失函数。虽然这些方法基于理论见解,但它们固有地受到人类创造力的限制,因此损失函数的大搜索空间仍然未被充分探索。

论文通过执行LLM驱动的目标发现,自动发现新的最先进的偏好优化算法,而无需(专家)人类干预。

通过迭代提示一个LLM提出并实施基于先前评估的性能指标的新偏好优化损失函数。这一过程导致了以前未知且表现出色的偏好优化算法的发现。这些算法中表现最佳的被称为DiscoPOP(发现的偏好优化),这是一种新算法,它自适应地融合了逻辑和指数损失。实验表明DiscoPOP的表现是最先进的,且成功转移到保留的任务上。

mfc 毕业论文 第11篇

多模态大语言模型(mLLMs)在大量的文本-图像数据上进行训练。尽管大多数mLLMs是在仅有标题的数据上训练的,Alayrac等人展示了在它们的训练中额外包含文本和图像的交错序列可以促使上下文学习能力的出现。

但是他们使用的数据集M3W是不公开的,并且仅限英语。当前的多语种和多模态数据集要么仅由标题组成,要么规模中等,或完全是私有数据。这限制了对世界上其他7000种语言的mLLM研究。因此论文推出了mOSCAR,这是第一个从网络爬取的大规模多语种和多模态文档语料库。

抱歉,评论功能暂时关闭!