模型llama a100 7b

大语言模型底层架构丨带你认识Transformer

本文分享自华为云社区《大语言模型底层架构你了解多少？大语言模型底层架构之一Transfomer的介绍和python代码实现》，作者：码上开花_Lancer 。语言模型目标是建模自然语言的概率分布，在自然语言处理研究中具有重要的作用，是自然语言处理基础任务之一。大量的研究从n 元语言模型（n-gr ......

底层 Transformer 架构模型语言更新时间 2023-12-06

三维模型的顶层合并构建的优势方面浅析

三维工厂K3DMaker是一款三维模型浏览、分析、轻量化、顶层合并构建、几何校正、格式转换、调色裁切等功能专业处理软件。可以进行三维模型的网格简化、纹理压缩、层级优化等操作，从而实现三维模型轻量化。轻量化压缩比大，模型轻量化效率高，自动化处理能力高；采用多种算法对三维模型进行几何精纠正处理，精度高，... ......

顶层模型方面优势更新时间 2023-12-06

第二章若依JFlow流程模型设计

这篇文章主要讲解了如何使用JFlow框架创建业务场景和流程模型，绘制流程图及注意事项，以及单节点的表单绘制和需要注意的细节 ......

模型流程第二章 JFlow更新时间 2023-12-05

语言大模型（LLMs）的特点

语言大模型(Large Language Models, LLMs)是近年来自然语言处理领域的重要发展之一。其主要特点是: 海量参数:LLMs包含了上十亿个参数,特别是GPT-3包含了1759亿个参数。这些大规模的参数使其可以学习非常复杂的模式和表征。巨量数据集:LLMs通过海量数据进行预训练,例 ......

模型特点语言 LLMs更新时间 2023-12-05

聊聊神经网络模型流程与卷积神经网络的实现

神经网络模型流程神经网络模型的搭建流程，整理下自己的思路，这个过程不会细分出来，而是主流程。在这里我主要是把整个流程分为两个主流程，即预训练与推理。预训练过程主要是生成超参数文件与搭设神经网络结构；而推理过程就是在应用超参数与神经网络。卷积神经网络的实现在聊聊卷积神经网络CNN中，将卷积神 ......

神经网络卷积神经网络模型更新时间 2023-12-05

PyTorch造大模型“加速包”，不到1000行代码提速10倍！英伟达科学家：minGPT以来最好的教程式repo之一

前言 PyTorch团队让大模型推理速度加快了10倍。且只用了不到1000行的纯原生PyTorch代码！本文转载自量子位仅用于学术分享，若侵权请联系删除欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。 CV各大方向专栏与各个部署框架最全教程整理 ......

程式科学家模型 PyTorch 代码更新时间 2023-12-05

网络编程之IO模型

我们讨论网络编程中的IO模型时，需要先明确什么是IO以及IO操作为什么在程序开发中是很关键的一部分，首先我们看下IO的定义。 IO的定义 IO操作（Input/Output操作）是计算机系统中的一种重要操作，用于数据的输入和输出，通常涉及到计算机与外部设备（如硬盘、网卡、键盘、鼠标、打印机等）之间的 ......

网络编程模型网络更新时间 2023-12-05

三-select模型

select模型是对简单C/S模型的优化，他解决了accept函数阻塞等待连接的问题。并且允许应用程序同时监视多个套接字，从而实现简单的并发请求。通过调用select函数确认一个或多个套接字当前的状态，并根据当前状态进行相应操作。在select模型模型中，select函数是最关键的。 select模 ......

模型 select更新时间 2023-12-05

HTTPS处于OSI模型中哪个层？

HTTPS（Hypertext Transfer Protocol Secure）位于 OSI（Open Systems Interconnection）模型的应用层和传输层之间。在 OSI 模型中，从底层到顶层依次是：物理层、数据链路层、网络层、传输层、会话层、表示层和应用层。HTTPS 是在应 ......

模型 HTTPS OSI更新时间 2023-12-05

关于三维模型几何坐标校正的技术方法探讨

坐标几何模型方法技术更新时间 2023-12-05

使用Huggingface创建大语言模型RLHF训练流程的完整教程

ChatGPT已经成为家喻户晓的名字，而大语言模型在ChatGPT刺激下也得到了快速发展，这使得我们可以基于这些技术来改进我们的业务。但是大语言模型像所有机器/深度学习模型一样，从数据中学习。因此也会有garbage in garbage out的规则。也就是说如果我们在低质量的数据上训练模型，那 ......

Huggingface 模型流程语言教程更新时间 2023-12-05

llama源码阅读

收到这个启发: https://www.bilibili.com/video/BV1Cw411y7gs/?p=5&spm_id_from=pageDriver&vd_source=d68ed178f151e80fea1e02efd205802c 原来的模型也可以自己单机低成本调试. 这个是调试代码 ......

源码 llama更新时间 2023-12-05

因果推断9-18 链状结构、叉状结构、对撞结构、D-分割、模型检验和等价类

https://www.bilibili.com/video/BV1tk4y127L1/?spm_id_from=333.788&vd_source=3ad05e655a5ea14063a9fd1c0dcdee3e 所以得到一个结论，如果在一个链结构里面，比如X->Y->Z，condition到中间 ......

结构链状等价因果模型更新时间 2023-12-04

使用 PyTorch 完全分片数据并行技术加速大模型训练

本文，我们将了解如何基于 PyTorch 最新的完全分片数据并行 (Fully Sharded Data Parallel，FSDP) 功能用 Accelerate 库来训练大模型。动机 🤗 随着机器学习 (ML) 模型的规模、大小和参数量的不断增加，ML 从业者发现在自己的硬件上训练甚至加载 ......

模型 PyTorch 数据技术更新时间 2023-12-04

Day12 jvm 内存模型JMM

1. jvm 内存模型 JMM 原帖链接 JMM控制 Java 线程之间的通信，决定一个线程对共享变量的写入何时对另一个线程可见。每条线程在自己的工作内存中对共享变量（副本）进行操作，JMM再负责把这些操作同步到主内存中 JVM1.8 用Meta space（元空间）（在JVM外的本地内存中）取代 ......

模型内存 Day jvm JMM更新时间 2023-12-04

做算力的浪潮信息为什么还要再卷大模型？

避免重复造轮子，前提是轮子已经造得很好。大模型有多卷？现在国内已经有180个以上生成式大模型，科技大厂、互联网大厂纷纷入局，既有百度、浪潮信息、阿里、腾讯等一众巨头，也有专攻AI的讯飞、商汤等垂直领域小巨头，以及“日日新”的创业企业。今天A厂商发布大模型，各种参数对比下来堪称最强，第二天B厂商 ......

浪潮模型信息更新时间 2023-12-04

从HumanEval到CoderEval: 你的代码生成模型真的work吗？

本文主要介绍了一个名为CoderEval的代码生成大模型评估基准，并对三个代码生成模型（CodeGen、PanGu-Coder和ChatGPT）在该基准上的表现进行了评估和比较。 ......

代码生成 HumanEval CoderEval 模型代码更新时间 2023-12-04

人工智能的新篇章：深入了解大型语言模型(LLM)的应用与前景

人工智能的新篇章：深入了解大型语言模型(LLM)的应用与前景 LLM（Large Language Model）技术是一种基于深度学习的自然语言处理技术，旨在训练能够处理和生成自然语言文本的大型模型。 LLM 技术的核心思想是使用深度神经网络，通过大规模的文本数据预训练模型，并利用这些预训练模型进行 ......

新篇新篇章人工智能人工前景更新时间 2023-12-04

LangChain调用本地模型

学习LangChain参考 https://python.langchain.com.cn/docs/get_started/quickstart 调用本地下载的模型参考 https://blog.csdn.net/qq_43692950/article/details/131743987 在Jup ......

LangChain 模型更新时间 2023-12-04

从Hugging Face下载模型到本地并调用

不同的模型需要的显存不同，下载前先查一下自己GPU能支持什么模型 1. 用如下脚本可以下载HuggingFace上的各种模型，网址 https://huggingface.co/models download.py #coding=gbk import time from huggingface_ ......

模型 Hugging Face更新时间 2023-12-04

他山之石，可以攻玉｜银行业数据中心数字化转型之模型篇 04（完结）

导语：银行业数据中心数字化转型是一项系统性工程既涉及管理层面转型——包括数字化转型战略、基础架构和技术架构转型、技术创新和知识体系转型，又涉及执行层面转型——包括人员管理（P）、流程管理（P）、技术管理（T）、资源管理（R）等。数据中心数字化转型作为一项宏大的系统性工程，必须要依据一个模型或标 ......

可以攻玉他山之石银行业数据中心模型更新时间 2023-12-04

OSI七层模型

physical layer 物理层data link layer 数据链路层network layer 网络层transport layer 传输层session layer 会话层presentation layer 表示层application layer 应用层——————————————— ......

模型 OSI更新时间 2023-12-04

11月推荐阅读的12篇大语言模型相关论文

现在已经是12月了，距离2024年只有一个月了，本文总结了11月的一些比较不错的大语言模型相关论文 https://avoid.overfit.cn/post/ca7d20ae68dd4f54a69d7d2d5df51e8d ......

模型语言论文更新时间 2023-12-04

倾斜摄影三维模型的根节点合并的优势分析

节点模型优势更新时间 2023-12-04

ARIMA模型，ARIMAX模型预测冰淇淋消费时间序列数据|附代码数据

全文下载链接：http://tecdat.cn/?p=22511 最近我们被客户要求撰写关于ARIMAX的研究报告，包括一些图形和统计输出。标准的ARIMA（移动平均自回归模型）模型允许只根据预测变量的过去值进行预测。该模型假定一个变量的未来的值线性地取决于其过去的值，以及过去（随机）影响的值 ......

模型时间序列数据序列冰淇淋更新时间 2023-12-03

BAAI、北大&港中文团队提出 SegVol：通用且可交互的医学体素分割模型

前言上周，北京智源人工智能研究院（BAAI）、北京大学和香港中文大学的研究团队开源了SegVol 医学通用分割模型。与过去一些很棒的 Medical SAM 工作不同，SegVol 是第一个能够同时支持 box，point 和 text prompt 进行任意尺寸原分辨率的 3D 体素分割模型。作 ......

北大模型团队医学 SegVol更新时间 2023-12-03

聊聊神经网络模型预训练生成超参数实现

概述在上一篇博客中，已经阐述了预训练过程中，神经网络中超参数的计算逻辑，本文，从程序实现的角度，将数学计算转换为程序代码，最终生成超参数文件；并将替换聊聊神经网络模型示例程序——数字的推理预测中已训练好的超参数文件，推理预测数字，最终比对下两者的精确度。神经网络层实现首先，根据神经网络 ......

神经网络模型神经参数网络更新时间 2023-12-03

聊聊神经网络模型传播计算逻辑

概述预训练过程就是在不断地更新权重超参数与偏置超参数，最后选择合适的超参数，生成超参数文件。上一篇博客是使用已有的预训练超参数文件，要训练自己的超参数，需要对神经网络层中前向传播与反向传播计算熟悉，了解计算逻辑，才能不断地更新选择合适的超参数。神经网络计算详解整个神经网络的层数是4层，从顺序 ......

神经网络逻辑模型神经网络更新时间 2023-12-02

模型部署的一些问题及其解决方案

# 1. 显示<PIL.Image.Image image mode=RGB size=512x512 at 0x7A12021134C0>图片并保存得到一个<PIL.Image.Image image mode=RGB size=512x512 at 0x7A12021134C0>的Image ......

模型解决方案方案问题更新时间 2023-12-02

高斯混合模型:GMM和期望最大化算法的理论和代码实现

高斯混合模型(gmm)是将数据表示为高斯(正态)分布的混合的统计模型。这些模型可用于识别数据集中的组，并捕获数据分布的复杂、多模态结构。 gmm可用于各种机器学习应用，包括聚类、密度估计和模式识别。在本文中，将首先探讨混合模型，重点是高斯混合模型及其基本原理。然后将研究如何使用一种称为期望最大化( ......

算法模型理论代码 GMM更新时间 2023-12-02

共3520篇 :13/118页 首页上一页10111213141516下一页尾页