NLP

[NLP复习笔记] Transformer

1. Transformer 概述 1.1 整体结构 \(\text{Transformer}\) 主要由 \(\text{Encoder}\) 和 \(\text{Decoder}\) 两个部分组成。\(\text{Encoder}\) 部分有 \(N = 6\) 个相同的层,每层包含 一个 \( ......
Transformer 笔记 NLP

AI_NLP以及SAM的理解-分割模型

机器学习 一般机器学习分为有监督学习,无监督学习和强化学习 无监督学习 Unsupervised Learning Self-Supervised Learning,又称为自监督学习 -Self-Supervised Learning 的核心思想 Masked Autoencoders Are Sc ......
模型 AI_NLP NLP SAM AI

[NLP复习笔记] 神经网络及BP算法

1. 神经网络 1.1 神经元 神经元(Neuron)或节点(Node) 是神经网络的基本单元。下图是一个简单的神经元示意图,\(x\) 表示 输入(\(\text{Input}\)), \(x_i\) 表示来自于前面第 \(i\) 个 神经元(\(\text{Neuron}\))的输入,通常会增加 ......
神经网络 算法 神经 笔记 网络

[NLP复习笔记] RNN、LSTM

1. RNN 1.1 RNN 简介 循环神经网络(\(\text{Recurrent Neural Network}\),简称 \(\text{RNN}\))是一种用于处理序列数据的神经网络。其核心思想是使用循环结构来保持一个内部状态,这个状态理论上可以捕获到目前为止的全部信息流。\(\text{R ......
笔记 LSTM NLP RNN

[NLP复习笔记] 基于负采样的 Skip-gram 及 SGD 训练公式推导

1. one-hot 向量 我们先了解一下 \(\text{one-hot}\) 向量。\(\text{one-hot}\) 编码是表示分类变量的常见方法,尤其在数据预处理和机器学习的特征工程中。一个 \(\text{one-hot}\) 向量是一个其中只有一个元素是 1,其余为 0 的向量。 假设 ......
公式 Skip-gram 笔记 Skip gram

[NLP复习笔记] 单词向量表示、余弦相似度以及TF-IDF

1. 单词与向量 1.1 Term-document 矩阵 Term-document 矩阵是信息检索和文本挖掘中常用的一种表示方法,这种矩阵是一个二维表格,用来表示词(term)在文档(document)集合中的分布情况。在这个矩阵中,行通常代表词汇(terms),列代表文档。矩阵中的每一个元素, ......
余弦 向量 单词 笔记 TF-IDF

[NLP复习笔记] 朴素贝叶斯分类器

1. 贝叶斯决策论 假设有 \(N\) 中类别标记 \(\gamma = \{c_1, c_2, \dots, c_N\}\),\(\lambda_{ij}\) 是将一个真实标记为 \(c_{j}\) 分类为 \(c_i\) 所产生的损失。基于后验概率 \(P(c | \mathbf{x})\) 可 ......
笔记 NLP

[NLP复习笔记] N-gram 及基本平滑方法

1. N-gram 模型 1.1 N-gram 模型介绍 \(\text{N-gram}\) 是一种基于统计语言模型的算法,用于预测文本中的单词,其中 \(\text{N}\) 一般指的是序列中的单词数量。其基本思想是将文本内容进行大小为 \(\text{N}\) 的滑动窗口操作来计算概率。 例如: ......
笔记 方法 N-gram gram NLP

NLP开源库SentencePiece

SentencePiece:SentencePiece 是一个提供无监督文本标记化和文本编码的库。它的主要特点是可以在字符级别和单词级别之间找到一个平衡,使用所谓的"subword units"作为标记化的单位。这种方法特别适合处理罕见词和词汇变化。SentencePiece 包括两种主要的标记化算 ......
SentencePiece NLP

NLP复习之向量语义

向量语义 词汇语义 语义概念(sense or concept)是单词含义(word sense)的组成部分,词原型可以是多义的。 同义词是指:在某些或者全部的上下文中,单词之间有相同或近似含义 可能没有完全相同含义的同义词例子! 即使在很多情况下(上下文语境),单词间的含义是相同的。 但仍然有可能 ......
向量 语义 NLP

NLP复习之作业2

朴素贝叶斯分类器和加一平滑计算每个单词的似然值 贝叶斯规则:c表示类别,d表示数据 \[P(c|d) = \frac{P(d|c)P(c)}{P(d)} \]例题1 假设句子“I always like foreign films.”中每个单词对应每个类的似然估计如下,请判断该句子属于正面还是负面评 ......
NLP

NLP复习之作业1

N元文法的统计 二元概率方程: \[P(w_n|w_{n-1}) = \frac{C(w_{n-1}w_n)}{C(w_{n-1})} \]三元概率估计方程: \[P(w_n|w_{n-2},w_{n-1}) = \frac{C(w_{n-2;n-1}w_n)}{C(w_{n-2;n-1})} \] ......
NLP

Helsinki-NLP-抱脸翻译模型

# 等待下载#--de-zh https://huggingface.co/Helsinki-NLP/opus-mt-de-ZH/tree/mainhttps://huggingface.co/Helsinki-NLP/opus-tatoeba-es-zh https://huggingface.c ......
Helsinki-NLP Helsinki 模型 NLP

NLP项目实战02:英文文本识别

简介: 欢迎来到本篇文章!今天我们将讨论一个新的自然语言处理任务——英文短文识别。具体而言,即通过分析输入的英文文本来判断其是比较消极的还是比较积极的。 展示: 1、项目界面 如下所示是项目启动后用户使用使用界面 2、布局介绍 首先可以看到用户使用界面上存在这么几个部分: 2.1、最左边的功能栏 2 ......
实战 文本 项目 NLP

NLP项目实战01--之电影评论分类

介绍: 欢迎来到本篇文章!在这里,我们将探讨一个常见而重要的自然语言处理任务——文本分类。具体而言,我们将关注情感分析任务,即通过分析电影评论的情感来判断评论是正面的、负面的。 展示: 训练展示如下: 实际使用如下: 实现方式: 选择PyTorch作为深度学习框架,使用电影评论IMDB数据集,并结合 ......
实战 项目 电影 NLP 01

NLP QA数据集

NLP QA数据集 数据文档 背景描述 CNN/Daily Mail(简称CNN/DM)作为单文本摘要语料库,每篇摘要包含多个摘要句。数据集最初是从美国有限新闻网(CNN)和每日邮报网(Daily Mail)收集的约100万条新闻数据作为机器阅读理解语料库。后来进行简单改动,形成用于单文本生成式摘要 ......
数据 NLP

NLP自然语言处理—主题模型LDA案例:挖掘人民网留言板文本数据|附代码数据

全文链接:http://tecdat.cn/?p=2155 最近我们被客户要求撰写关于NLP自然语言处理的研究报告,包括一些图形和统计输出。 随着网民规模的不断扩大,互联网不仅是传统媒体和生活方式的补充,也是民意凸显的地带。领导干部参与网络问政的制度化正在成为一种发展趋势,这种趋势与互联网发展的时代 ......
自然语言 数据 模型 文本 留言板

NLP-Beginner-实验一-基于机器学习的文本分类

任务 基于logistic回归和softmax rengression的文本分类 实验 分析不同的特征、损失函数、学习率对最终分类性能的影响 shuffle 、batch、mini-batch 处理流程 读取文本->提取词向量(BOW,N-gram)->softmax回归->输出预测特征 实验设置: ......
NLP-Beginner Beginner 文本 机器 NLP

将强化学习引入NLP:原理、技术和代码实现

本文深入探讨了强化学习在自然语言处理(NLP)中的应用,涵盖了强化学习的基础概念、与NLP的结合方式、技术细节以及实际的应用案例。通过详细的解释和Python、PyTorch的实现代码,读者将了解如何利用强化学习优化NLP任务,如对话系统和机器翻译。 关注TechLead,分享AI全维度知识。作者拥 ......
原理 代码 技术 NLP

NLP文本生成全解析:从传统方法到预训练完整介绍

本文深入探讨了文本生成的多种方法,从传统的基于统计和模板的技术到现代的神经网络模型,尤其是LSTM和Transformer架构。文章还详细介绍了大型预训练模型如GPT在文本生成中的应用,并提供了Python和PyTorch的实现代码。 关注TechLead,分享AI全维度知识。作者拥有10+年互联网 ......
文本 传统 方法 NLP

NLP技术如何为搜索引擎赋能

在全球化时代,搜索引擎不仅需要为用户提供准确的信息,还需理解多种语言和方言。本文详细探讨了搜索引擎如何通过NLP技术处理多语言和方言,确保为不同地区和文化的用户提供高质量的搜索结果,同时提供了基于PyTorch的实现示例,帮助您更深入地理解背后的技术细节。 关注TechLead,分享AI全维度知识。 ......
搜索引擎 引擎 技术 NLP

nlp期末概念复习

概率模型 隐马尔科夫,viterbi 贝叶斯 平滑技术:处理数据矩阵稀疏问题,事件可能在样本库中未出现 拉普拉斯平滑 Good-Turing平滑 词性标注 词性标注:给定一个词序列,确定每个词的词性 信息来源:词本身,上下文 马尔科夫词性标注器,一阶马尔科夫链 基于转换的词性标注:让计算机学习修正错 ......
概念 nlp

自然语言处理(NLP)的研究方向

自然语言处理(NLP)的研究方向包括但不限于以下方面: 词法分析:对文本进行分词、词性标注等基本处理,是后续处理的基础。 句法分析:研究句子的语法结构,对句子进行解析,如依存句法分析。 语义理解:分析文本的语义,理解文本表达的含义和情感,是自然语言处理的核心问题。 信息抽取:从大量非结构化文本中抽取 ......

深度解析NLP文本摘要技术:定义、应用与PyTorch实战

在本文中,我们深入探讨了自然语言处理中的文本摘要技术,从其定义、发展历程,到其主要任务和各种类型的技术方法。文章详细解析了抽取式、生成式摘要,并为每种方法提供了PyTorch实现代码。最后,文章总结了摘要技术的意义和未来的挑战,强调了其在信息过载时代的重要性。 关注TechLead,分享AI全维度知 ......
实战 深度 文本 摘要 PyTorch

NLP机器翻译全景:从基本原理到技术实战全解析

机器翻译是使计算机能够将一种语言转化为另一种语言的技术领域。本文从简介、基于规则、统计和神经网络的方法入手,深入解析了各种机器翻译策略。同时,详细探讨了评估机器翻译性能的多种标准和工具,包括BLEU、METEOR等,以确保翻译的准确性和质量。 关注TechLead,分享AI全维度知识。作者拥有10+ ......
实战 原理 机器 技术 NLP

一文概览NLP句法分析:从理论到PyTorch实战解读

关注TechLead,分享AI全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验,同济本复旦硕,复旦机器人智能实验室成员,阿里云认证的资深架构师,项目管理专业人士,上亿营收AI产品研发负责人。 本文全面探讨了自然语言处理(NLP)中句法分析的理论与实践。从句法和语法的定义,到 ......
句法 概览 实战 PyTorch 理论

自然语言处理历史史诗:NLP的范式演变与Python全实现

本文全面回顾了自然语言处理(NLP)从20世纪50年代至今的历史发展。从初创期的符号学派和随机学派,到理性主义时代的逻辑和规则范式,再到经验主义和深度学习时代的数据驱动方法,以及最近的大模型时代,NLP经历了多次技术革新和范式转换。文章不仅详细介绍了每个阶段的核心概念和技术,还提供了丰富的Pytho ......
自然语言 范式 史诗 自然 语言

R语言自然语言处理NLP:情感分析上市公司文本信息知识发现可视化|附代码数据

全文链接:http://tecdat.cn/?p=31702 原文出处:拓端数据部落公众号 情感分析,就是根据一段文本,分析其表达情感的技术。比较简单的情感分析,能够辨别文本内容是积极的还是消极的(褒义/贬义);比较复杂的情感分析,能够知道这些文字是否流露出恐惧、生气、狂喜等细致入微的情感。此外,情 ......

MLP代码模型--NLP方向

训练 对于二分类任务,通常使用一个包含两个输出单元的输出层,而不是一个单一的输出单元。这是因为在二分类任务中,每个类别通常对应一个输出单元,一个用于表示类别1(例如正类别),另一个用于表示类别2(例如负类别) 预测 是 ......
模型 方向 代码 MLP NLP

nlp基础-生成模型解码策略

首先参考transformers的源代码 # transformers.generation.utils..GenerationMixin._get_generation_mode if generation_config.constraints is not None or generation_ ......
模型 策略 基础 nlp
共131篇  :1/5页 首页上一页1下一页尾页