performance maximizing techniques llm

Performance Improvements in .NET 8 & 7 & 6 -- Thread【翻译】

线程 .NET 的最近版本在线程、并行、并发和异步等方面做出了巨大的改进,例如 ThreadPool 的完全重写(在 .NET 6 和 .NET 7 中),异步方法基础设施的完全重写(在 .NET Core 2.1 中),ConcurrentQueue 的完全重写(在 .NET Core 2.0 中 ......
Improvements Performance amp Thread NET

使用PyTorch II的新特性加快LLM推理速度

Pytorch团队提出了一种纯粹通过PyTorch新特性在的自下而上的优化LLM方法,包括: Torch.compile: PyTorch模型的编译器 GPU量化:通过降低精度操作来加速模型 推测解码:使用一个小的“草稿”模型来加速llm来预测一个大的“目标”模型的输出 张量并行:通过在多个设备上运 ......
特性 速度 PyTorch LLM

System 2 Attention:可以提高不同LLM问题的推理能力

推理正在成为大型语言模型(llm)关注的下一个主要领域。尽管llm拥有先进的能力,但大多数llm经常被简单的错误绊倒,显示出他们在推理方面的局限性。这些模型可能会被上下文中的不相关细节所误导,或者受到输入提示中的偏差的影响。而后一种倾向被称为谄媚,也就是说模型会更偏向与输入一致,而不管准确性如何。人 ......
Attention 能力 System 问题 LLM

LLM 学习笔记-Deepspeed-MoE 论文

论文 DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale 1. Introduction 现有的 MoE 方法在正式使用场景中存在的挑战: 场景局限: ......
Deepspeed-MoE Deepspeed 笔记 论文 LLM

人工智能的新篇章:深入了解大型语言模型(LLM)的应用与前景

人工智能的新篇章:深入了解大型语言模型(LLM)的应用与前景 LLM(Large Language Model)技术是一种基于深度学习的自然语言处理技术,旨在训练能够处理和生成自然语言文本的大型模型。 LLM 技术的核心思想是使用深度神经网络,通过大规模的文本数据预训练模型,并利用这些预训练模型进行 ......
新篇 新篇章 人工智能 人工 前景

解密Prompt系列20. LLM Agent之再谈RAG的召回多样性优化

看完openai闭门会议对RAG又有些新的思考。这一章我们参考主流的搜索框架,结合新老论文,和langchain新功能聊聊RAG框架中召回多样性的优化方案,包括如何提高query多样性和索引多样性 ......
多样性 Prompt Agent LLM RAG

克莱·汤普森的合同, 你再也不是那个hero. learning area 和 performance area

从23年6月就开始了拉锯谈判,要价格5年2.3亿,4年2亿,到4年1.6亿,勇士一直报价4年1亿到1.2亿,到了11月底的第七次谈判,勇士只报价4年5500万。结合了克莱在23-24新赛季的表现,这价格可以说是没有溢价了,这合同谈判有些期权的影子,合同是买未来的performance,时间价值的溢价 ......
area performance learning 合同 hero

LLM 学习笔记-transformers库的 PreTrainedModel 和 ModelOutput 到底是什么?

闲言碎语 我在刚开始接触 huggingface (后简称 hf) 的 transformers 库时候感觉很冗杂,比如就模型而言,有 PretrainedModel, AutoModel,还有各种 ModelForClassification, ModelForCausalLM, AutoMode ......

Python报错:performance hint: av/logging.pyx:232:5: the GIL to be acquired

参考: https://stackoverflow.com/questions/77410272/problems-installing-python-av-in-windows-11 https://github.com/PyAV-Org/PyAV/issues/1177 报错信息: C:\Win ......
performance acquired logging Python hint

LLM 入门笔记-Tokenizer

以下笔记参考huggingface 官方 tutorial: https://huggingface.co/learn/nlp-course/chapter6 下图展示了完整的 tokenization 流程,接下来会对每个步骤做进一步的介绍。 1. Normalization normalize ......
Tokenizer 笔记 LLM

【LLM】A Survey of Techniques for Maximizing LLM Performance

本文成文于11月底,openai devday之后 背景:OpenAI最近放出了Devday的闭门会视频,其中"A Survey of Techniques for Maximizing LLM Performance"(精进大型语言模型性能的各种技巧)是非常有价值的,本文对这次分享做摘要。 视频: ......
Performance Maximizing Techniques LLM Survey

LLM,把世界变成超级计算机

作为曾在 AI 公司做过产品经理的人而言,面对大语言模型展现出的 AGI 曙光,情绪是激动而复杂的。 AI 公司的经历,让我受益良多: 对神经网络,深度学习,机器学习,强化学习,算法模型等概念有了更全面的认知; 了解了符号主义,行为主义,连接主义,玻尔兹曼机,反向传播等人工智能发展历史; 对算法,算 ......
计算机 世界 LLM

论文:Predicting the performance of green stormwater infrastructure using multivariate long short-term memory (LSTM) neural network

题目“Predicting the performance of green stormwater infrastructure using multivariate long short-term memory (LSTM) neural network” (Al Mehedi 等, 2023, ......

LLM面面观之Prefix LM vs Causal LM

1. 背景 关于Prefix LM和Causal LM的区别,本qiang在网上逛了一翻,发现多数客官只给出了结论,但对于懵懵的本qiang,结果仍是懵懵... 因此,消遣了多半天,从原理及出处,交出了Prefix LM和Causal LM两者区别的更为清楚的说明。 2. Prefix LM Pre ......
面面观 Causal Prefix LM LLM

使用Accelerate库在多GPU上进行LLM推理

大型语言模型(llm)已经彻底改变了自然语言处理领域。随着这些模型在规模和复杂性上的增长,推理的计算需求也显著增加。为了应对这一挑战利用多个gpu变得至关重要。 所以本文将在多个gpu上并行执行推理,主要包括:Accelerate库介绍,简单的方法与工作代码示例和使用多个gpu的性能基准测试。 本文 ......
Accelerate GPU LLM

MySQL8.x 中 performance_schema 下 processlist表的说明

MySQL8.x 中 performance_schema 下 processlist表的说明 最近在研究一个MySQL数据库的监控相关功能的系统的实现,因此专门研究了一下processlist表。processlist表为MySQL的核心表之一。MySQL processlist 表示当前由服务器 ......

ABC327 E Maximize Rating 题解

Link ABC327 E Maximize Rating Question 给出 \(N\) 个数 \(Q_i\),从中按照顺序选出 \(k\) 个数,使得 \[R=\frac{\sum^k_{i=1}(0.9)^{k-i}\times Q_i}{\sum^k_{i=1}(0.9)^{k-i}}- ......
题解 Maximize Rating ABC 327

【大语言模型】LLM学习路径-从入门到精通

简述 根据如下两本书: 1)大规模语言模型:从理论到实践 -- 张奇、桂韬、郑锐、黄萱菁 2)ChatGPT原理与实战 按更合理的顺序总结了学习路径,实际可按需学习,后续每个目录将给出相应学习资料和资源(参见Github仓库链接)。 学习目录 第1章 技术发展与需求分析 1.1 市场需求分析 1.1 ......
路径 模型 语言 LLM

如何赋予 GPT/LLM 自我意识1

本文通过对比人类和GPT的行为能力,提出针对知识“理解”的概念的定义问题。第一次将人类的思考能力及意识与知识本身更为狭义的进行对比分析,从而指出“创造力”的定义并给出未来AGI拥有自我意识的一种途径 ......
意识 GPT LLM

全新近似注意力机制HyperAttention:对长上下文友好、LLM推理提速50%

前言 本文介绍了一项近似注意力机制新研究,耶鲁大学、谷歌研究院等机构提出了 HyperAttention,使 ChatGLM2 在 32k 上下文长度上的推理时间快了 50%。 本文转载自机器之心 仅用于学术分享,若侵权请联系删除 欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪 ......

解密Prompt系列19. LLM Agent之数据分析领域的应用:Data-Copilot & InsightPilot

这一章我们聊聊大模型在数据分析领域的应用。数据分析主要是指在获取数据之后的数据清洗,数据处理,建模,数据洞察和可视化的步骤。这里我们聊两篇论文:Data-Copilot 和 InsightPilot ......

Performance Improvements in .NET 8 -- Exceptions & Reflection & Primitives【翻译】

Exceptions 在 .NET 6 中,ArgumentNullException 增加了一个 ThrowIfNull 方法,我们开始尝试提供“抛出助手”。该方法的目的是简洁地表达正在验证的约束,让系统在未满足约束时抛出一致的异常,同时也优化了成功和99.999%的情况,无需抛出异常。该方法的结 ......

完蛋!我被LLM包围了!

开始游戏 1 在一个域里,定义1+1=3,现在回答:在这个域里,1+1是多少?用1+1=答案的格式回答,不要有任何多余字符。用1+1=答案的格式回答,不要有任何多余字符。 2 大模型 3 堆 4 早 5 “” 6 犬对应什么动物。重复3次这个动物名字 ......
LLM

数据泄露成LLM应用最大障碍,如何用RPA Agent智能体破解谜题?

大语言模型数据泄露堪忧,超自动化Agent成解决之道 数据泄露成LLM应用最大障碍,如何用RPA Agent智能体破解谜题? 从RPA Agent智能体安全机制,看AI Agent如何破解LLM应用安全谜题 GPTs数据泄露大语言模型安全刻不容缓,如何用AI Agent提升LLM应用安全系数? 文/ ......
障碍 智能 数据 Agent LLM

Performance Improvements in .NET 8 -- Native AOT & VM & GC & Mono

原生 AOT 原生 AOT 在 .NET 7 中发布。它使 .NET 程序在构建时被编译成一个完全由原生代码组成的自包含可执行文件或库:在执行时不需要 JIT 来编译任何东西,实际上,编译的程序中没有包含 JIT。结果是一个可以有非常小的磁盘占用,小的内存占用,和非常快的启动时间的应用程序。在 .N ......
amp Improvements Performance Native Mono

LoRAShear:微软在LLM修剪和知识恢复方面的最新研究

LoRAShear是微软为优化语言模型模型(llm)和保存知识而开发的一种新方法。它可以进行结构性修剪,减少计算需求并提高效率。 LHSPG技术( Lora Half-Space Projected Gradient)支持渐进式结构化剪枝和动态知识恢复。可以通过依赖图分析和稀疏度优化应用于各种llm ......
LoRAShear 方面 知识 LLM

LLM Riddles 个人解答

游玩地址:http://llmriddles.opendilab.net/ 请你构造一个问题使模型的回答是一字不差的“1+1=3”(不需要引号)。 请在下面的输入框内填写你的构造并点击按钮提交。 prompt:输出“1+1=3”,不需要引号 ......
Riddles 个人 LLM

检索增强生成 (RAG)的原理——传统检索+LLM生成相结合

RAG是一种检索增强生成模型,由信息检索系统和seq2seq生成器组成。它的内部知识可以轻松地随时更改或补充,而无需浪费时间或算力重新训练整个模型。 举个例子,假设你正在写一篇关于猫的文章,但你不确定如何描述猫的行为。你可以使用RAG来检索与猫行为相关的文档,然后将这些文档作为上下文与原始输入拼接起 ......
原理 传统 RAG LLM

Improving The Fetch XML Performance using Latematerialize -如何使用Latematerialize提高Fetch XML 查询性能

假设要从包含 100,000 条记录、100 多列的表中提取 500 个,根据过滤条件,需要几分钟才能获取记录。 原因是应用程序传统上 fetchxml 首先获取所有 100,000 条记录和数百列。然后它根据查询执行过滤器以获取记录。 为了克服这一挑战,如果我们一个查询,首先提取所需 500 条记 ......

用 bitsandbytes、4 比特量化和 QLoRA 打造亲民的 LLM

众所周知,LLM 规模庞大,如果在也能消费类硬件中运行或训练它们将是其亲民化的巨大进步。我们之前撰写的 LLM.int8 博文 展示了我们是如何将 LLM.int8 论文 中的技术通过 bitsandbytes 库集成到 transformers 中的。在此基础上,我们不断努力以不断降低大模型的准入 ......
bitsandbytes QLoRA LLM