NLP

nlp入门(三)基于贝叶斯算法的拼写错误检测器

源码请到:自然语言处理练习: 学习自然语言处理时候写的一些代码 (gitee.com) 数据来源:norvig.com/big.txt 贝叶斯原理可看这里:机器学习算法学习笔记 - 过客匆匆,沉沉浮浮 - 博客园 (cnblogs.com) 一、数据预处理 将输入的数据全部变为小写方便后续处理 de ......
检测器 算法 错误 nlp

nlp入门(二) :商品信息可视化与文本分析实战

源码请到:自然语言处理练习: 学习自然语言处理时候写的一些代码 (gitee.com) 数据来源:麦卡里价格建议挑战Mercari Price Suggestion Challenge | Kaggle 如果不会使用魔法可以使用百度云 链接:https://pan.baidu.com/s/1EM2M ......
实战 文本 商品 信息 nlp

TextBrewer:融合并改进了NLP和CV中的多种知识蒸馏技术、提供便捷快速的知识蒸馏框架、提升模型的推理速度,减少内存占用

TextBrewer:融合并改进了NLP和CV中的多种知识蒸馏技术、提供便捷快速的知识蒸馏框架、提升模型的推理速度,减少内存占用 ......
知识 TextBrewer 框架 模型 多种

NLP | WMT数据集说明

**网址**:https://www.statmt.org/ ![](https://img2023.cnblogs.com/blog/3085423/202308/3085423-20230807173834377-929343051.png) 其中下面这个是WMT每年的链接: ![](https ......
数据 NLP WMT

DataWhale NLP第二期 第一次打卡

> 理解赛题,跑通竞赛实践全流程 > 跑通实践基线Baseline,获得自己的成绩 > 提交任务一打卡,查看个人成绩排行榜 ## 赛题理解 [赛题链接](https://challenge.xfyun.cn/topic/info?type=text-detector&option=ssgy&ch=y ......
DataWhale 第一次 NLP

聊聊自然语言处理NLP

## 概述 自然语言处理(NLP)的正式定义:是一个使用计算机科学、人工智能(AI)和形式语言学概念来分析自然语言的研究领域。不太正式的定义表明:它是一组工具,用于从自然语言源(如web页面和文本文档)获取有意义和有用的信息。NLP工具的实现一般是基于机器学习与深度学习、其它算法(Lucene Co ......
自然语言 自然 语言 NLP

自然语言处理(Natural Language Processing,NLP)

自然语言处理(Natural Language Processing,NLP)是人工智能领域的一个重要分支,旨在使计算机能够理解、处理和生成人类自然语言。NLP 的目标是让计算机能够像人类一样有效地理解和交流,从而实现更自然、更智能的人机交互。 NLP的理解概括: 文本理解和分析: NLP技术能够从 ......

nlp入门

源码请到:自然语言处理练习: 学习自然语言处理时候写的一些代码 (gitee.com) 一、字符串处理 这里是一些自然语言中常用的python字符串操作,python内置无需安装 1.1 strip函数:去掉首尾特定字符 示例: text = " abcdef125s wr2258abcd " pr ......
nlp

NLP | safetensors是什么文件

safetensors是谷歌开发的一种TensorFlow Lite模型文件格式,用于在移动设备上运行模型。`.safetensors` 文件是用 numpy 保存的,这意味着它们只包含张量数据,没有任何代码,加载 .safetensors 文件更安全和快速。如果你想在手机上打开本地后缀为safet ......
safetensors 文件 NLP

【AI夏令营】NLP赛题解析与Baseline逐行精读

**【任务】** 1.深入研读baseline代码,仔细理解其每个部分,并记录详尽的学习笔记; 2.主动挑战自己,对基线代码进行优化,力求改进代码的实际效果和性能; 3.完成任务二,并查看个人成绩排行榜。 **【Baseline精读】** 本次主要是针对任务二(关键词提取,也会有部分任务一的内容) ......
夏令营 夏令 Baseline NLP

NLP句子相似性方法总结及实现

目录 1、基于Word2Vec的余弦相似度 2、TextRank算法中的句子相似性 3、莱文斯坦距离(编辑距离) 4、莱文斯坦比 5、汉明距离 6、Jaro距离(Jaro Distance) 7、Jaro-Winkler距离(Jaro-Winkler Distance) 8、基于Doc2Vec的句子 ......
相似性 句子 方法 NLP

Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

[TOC] > [Lewis P. and Perez E., et al. Retrieval-augmented generation for knowledge-intensive nlp tasks. NIPS, 2020.](http://arxiv.org/abs/2005.11401) ......

NLP(四十七):损失函数

三元组损失 triplet loss 设计初衷: 让x与这个跟他同类的点距离更近,跟非同类的点距离更远。 d是距离,m的含义是,当x与x+的距离减去x与x-,如果小于-m时,对损失函数的贡献为0, 如果大于-m时,对损失的贡献大于0. 含义就是:当负例太简单时,不产生损失,这个损失的目标是,挑选困难 ......
函数 损失 NLP

NLP(四十六):GLOVE

转载自https://zhuanlan.zhihu.com/p/58916233 在上节,我们学习了词向量的两种训练方式:Skip-Gram和CBOW,都是通过句子中的某个单词去预测另一个单词。而本节,我们将学习第三种词向量的训练模型:GLOVE[1]。 GLOVE模型是由斯坦福教授Manning、 ......
GLOVE NLP

NLP | 数据增强总览

深度学习视觉领域的增强方法可以很大程度上提高模型的表现,并减少数据的依赖,而NLP上做数据增强不像在图像上那么方便,但还是有一些方法的。 与计算机视觉中使用图像进行数据增强不同,NLP中文本数据增强是非常罕见的。这是因为图像的一些简单操作,如将图像旋转或将其转换为灰度,并不会改变其语义。语义不变变换 ......
数据 NLP

论文日记四:Transformer(论文解读+NLP、CV项目实战)

# 导读 重磅模型**transformer**,在2017年发布,但就今天来说产生的影响在各个领域包括NLP、CV这些都是巨大的! Paper《[Attention Is All You Need](https://arxiv.org/pdf/1706.03762.pdf)》,作者是在机器翻译这个 ......
论文 Transformer 实战 项目 日记

NLP | mC4数据集

MC4 是C4 的子集,MC4 是从公共 Common Crawl 存储库中提取的约 750GB 英语文本的集合。Common Crawl 包含数十亿个从 Internet 抓取的网页。尽管 C4 数据集被明确设计为仅英语,但 MC4 覆盖了 Common Crawl 迄今为止发布的 108 种语言 ......
数据 NLP mC4 mC

NLP应用 | thumt的bleu评估讲解

### **传入参数:** **model:** ```txt # def parse_args 中,命令行输入模型名称,默认是"transformer"。 parser.add_argument("--model", type=str, required=True, help="Name of t ......
thumt bleu NLP

NLP | 文本分词的工具包

**文本分词(Tokenization)是将一个文本序列分割成一个个单独的“词”或“标记”的过程**。在自然语言处理(NLP)中,文本分词是一个必要的预处理步骤,几乎所有的自然语言处理任务都需要对文本进行分词。 文本分词的目的是根据某种规则或算法,将文本序列分割成较小的单元,例如**单词、词组、标点 ......
工具包 文本 工具 NLP

NLP | 词嵌入:原理与应用简要概述

**词嵌入技术**主要是为了解决自然语言处理中的词表示问题,将词转化成机器容易理解的形式。 在早期的自然语言处理任务中,词通常被表示为离散的符号,例如"猫"就是一个符号,"狗"是另一个符号,这种表示方法无法捕捉词与词之间的语义关系。 **作用原理**词嵌入技术将词映射到连续的向量空间中,使得语义上相 ......
简要 原理 NLP

【停用词】NLP中的停用词怎么获取?我整理了6种方法

[toc] # 一、停用词介绍 您好,我是[@马哥python说](https://www.zhihu.com/people/13273183132) ,一名10年程序猿。 在自然语言处理(NLP)研究中,停用词stopwords是指在文本中频繁出现但通常没有太多有意义的词语。这些词语往往是一些常见 ......
方法 NLP

NLP应用 | 保存checkpoint模型

**需求描述:** 当我们训练模型的时候,我们要训练很多训练步数,我们想要保存训练到一定阶段的checkpoint模型参数,并把这些checkpoint模型保存到一个指定的文件夹下。在文件夹下我们最多保存`keep_checkpoint_max`个checkpoint模型的文件。保存到`output ......
checkpoint 模型 NLP

NLP | 对遇到的问题的一些思考

1、一些成熟的库的封装,有其一系列的配套的模型,标记器,训练函数......。我们要是想使用对应的函数工具,我们首先要把自己的模型注册成人家的模型后,使用起来才不会有很多错。 所有尽量不要用各种封装的库进行拼接,可能会有很多坑。 2、数据处理是十分重要的,甚至占绝大部分时间。因为数据的质量对模型的性 ......
问题 NLP

NLP | 迁移学习介绍

迁移学习是指将**在一个任务上学到的知识和经验迁移到另一个相关任务上的机器学习方法**。它通过利用源领域的知识来改善目标领域的学习性能。==迁移学习的核心原理是通过共享知识和经验,从已解决的任务中获得的特征、表示或模型,来加速或改善新任务的学习过程==。 ### 常见的迁移学习方法 迁移学习的常见方 ......
NLP

NLP | Softmax详解

Softmax是一种数学函数,通常**用于将一组任意实数转换为表示概率分布的实数**。其本质上是一种归一化函数,==可以将一组任意的实数值转化为在[0, 1]之间的概率值,因为softmax将它们转换为0到1之间的值,所以它们可以被解释为概率==。**如果其中一个输入很小或为负,softmax将其变 ......
Softmax NLP

NLP | Transformers回顾 :从BERT到GPT4

人工智能已成为近年来最受关注的话题之一,由于神经网络的发展,曾经被认为纯粹是科幻小说中的服务现在正在成为现实。从对话代理到媒体内容生成,人工智能正在改变我们与技术互动的方式。特别是机器学习 (ML) 模型在自然语言处理 (NLP) 领域取得了重大进展。一个关键的突破是引入了“自注意力”和用于序列处理 ......
Transformers BERT GPT4 NLP GPT

NLP | 数据集独立同分布的理解

在自然语言处理(NLP)中,**独立同分布是指一个数据集中的样本是从同一个总体分布中独立采样而来的**。这意味着数据集中的**每个样本都具有相同的概率分布**,并且这些样本之间是相互独立的,即**一个样本的出现不会影响其他样本的出现**。 例如,如果我们收集了一组用于训练文本分类器的新闻文章,并且这 ......
数据 NLP

NLP | FLOPs是什么

### 什么是计算密集型任务 计算密集型任务指的是需要进行大量计算的任务,通常需要进行大量的数学运算、逻辑运算、数据处理、模拟等操作。这些任务通常需要更多的计算资源,比如更快的处理器、更多的内存、更快的存储设备等。 以下是一些常见的计算密集型任务: 1. 科学计算:如数值模拟、天体物理学、量子化学等 ......
FLOPs NLP

自然语言处理 Paddle NLP - 预训练模型产业实践课-理论

![image](https://img2023.cnblogs.com/blog/80824/202306/80824-20230619145906411-1082196956.png) 模型压缩:理论基础 模型压缩基本方法分为三类: - 量化 - 裁剪 - 蒸馏 ![image](https:/ ......
自然语言 模型 理论 自然 语言

NLP | epoch、train_steps和batch_size的关系

在深度学习中,通常使用 `epoch`、`train_steps` 和 `batch_size` 三个参数来控制模型的训练过程。它们之间的关系如下: - `epoch` 表示模型训练过程中的迭代次数,**即遍历整个训练数据集的次数**。一个 epoch 完成之后,相当于模型已经看到了整个训练集的数据 ......
train_steps batch_size epoch batch train