NLP

NLP的模型

原来NLP也有模型，用pytorch、tensorflow等训练出来的摘要模型、分类模型等等 https://huggingface.co/models ......

模型 NLP更新时间 2023-10-11

NLP是什么

NLP代表自然语言处理（Natural Language Processing），是人工智能（AI）的一个子领域，专注于计算机与人类语言之间的交互。NLP的目标是使计算机能够以有意义和有用的方式理解、解释和生成人类语言。该领域涵盖了广泛的任务和应用，包括：文本分类文本分类是自然语言处理（NLP） ......

NLP更新时间 2023-10-08

8 Innovative BERT Knowledge Distillation Papers That Have Changed The Landscape of NLP

8 Innovative BERT Knowledge Distillation Papers That Have Changed The Landscape of NLP Contemporary state-of-the-art NLP models are difficult to be ut ......

Distillation Innovative Knowledge Landscape Changed更新时间 2023-10-08

nlp基础-深度学习的博客及其提炼

Norm 浅谈Transformer的初始化、参数化与标准化 RMSNorm：去掉了LayerNorm的均值，只保留了方差 Pre-norm和Post-norm的对比：为什么Pre-norm效果更差数学解释 Pre-norm模型没有Post-norm '深'，所以理论上限更低 Pre-norm的残 ......

深度基础博客 nlp更新时间 2023-09-28

NLP经典论文，自我回顾笔记

(持续更新，目前找工作中) 1. Sequence to Sequence Learning with Neural Networks（2014 Google Research） However, the first few words in the source language are now ......

笔记经典论文 NLP更新时间 2023-09-26

nlp八股-中文分词

分词基于字典的分词，基于标注的分词基于字典的分词基于字典博客列出所有分词可能，算出每种分词概率马尔可夫假设：每个词的出现只跟前一个词的出现有关 n-gram：每个词的出现跟前n-1个词有关构建有向无环图，viterbi算法求最优路径效率更高 jieba分词原理加载字典, 生成tri ......

八股 nlp更新时间 2023-09-22

nlp八股-深入思考的一些博客

八股博客 nlp更新时间 2023-09-18

围绕 transformers 构建现代 NLP 开发环境

本文将从“样本处理”，“模型开发”，“实验管理”，“工具链及可视化“ 几个角度介绍基于 tranformers 库做的重新设计，并简单聊聊个人对“软件2.0”的看法。 ......

transformers 环境 NLP更新时间 2023-09-18

关于自然语言处理（NLP）

结巴分词 https://github.com/fxsjy/jieba keywords = jieba.analyse.textrank( TEXT_CONTENT, topK=20, withWeight=True, allowPOS=('ns','n','vn','v') ) ......

自然语言自然语言 NLP更新时间 2023-09-16

NLP中关键概念词干提取（Stemming），词形还原（Lemmatization），命名实体识别简介

词干提取（Stemming）和词形还原（Lemmatization）是自然语言处理中常用的文本预处理技术，用于将单词转化为它们的原始形式，以减少词汇的变形形式，从而简化文本分析和比较。 1. 词干提取（Stemming）：词干提取是一种基于规则的文本处理方法，通过删除单词的后缀来提取词干（stem） ......

词干词形 Lemmatization 实体 Stemming更新时间 2023-09-06

自然语言的处理 nlp

分词得到语言首先使用分词机器进行分词首先使用正则表达式过滤标点空格，一般使用NLTK进行首次分词 n-gram 相邻的词组成短语，更有意义。停用词的过滤 a an the of之类大小写转换词干还原house houses houseing 还原成house ,nltk.stem.por ......

自然语言自然语言 nlp更新时间 2023-09-05

NLP 概念

序列标注，给定一个序列，找出序列中每个元素对应的标签。中文分词、词性标注、命名实体识别都可以转化为序列标注问题。词法分析：中文分词、词性标注、命名实体识别中文分词：将文本分隔为有意义的词语词性标注：确定每个词语的类别和浅层的歧义消除命名实体识别：识别出较长的专有名词（人名、地名、机构名） ......

概念 NLP更新时间 2023-09-05

NLP 序列标注

转载：https://blog.csdn.net/kevinjin2011/article/details/113939817 序列标注（Sequence labeling）是NLP问题中的基本问题。在序列标注中，我们想对一个序列的每一个元素标注一个标签。一般来说，一个序列指的是一个句子，而一个元素 ......

序列 NLP更新时间 2023-09-04

nlp基础知识

自然语言处理（Natural Language Processing，NLP）涉及处理人类语言以及与之相关的任务。以下是NLP的一些基础知识领域：文本预处理：分词（Tokenization）：将文本拆分为单词或子词的过程。停用词去除（Stopword Removal）：去除常见但不携带重要信息 ......

基础知识基础知识 nlp更新时间 2023-08-30

NLP原理系列1-说清楚transformer原理

NLP原理系列1-说清楚transformer原理来用思维导图和截图描述。思维导图的本质是变化(解决问题)-> 更好的，或者复杂问题拆分为小问题以及拆分的思路。参考链接：李宏毅 transformer原理。一 tansformer的推理及训练过程 1 tf 训练过程红框部分是训练得 ......

原理 transformer NLP更新时间 2023-08-30

文本标注技术方案（NLP标注工具）

# **Doccano** > doccano 是一个面向人类的开源文本注释工具。它为文本分类、序列标记和序列到序列任务提供注释功能。您可以创建用于情感分析、命名实体识别、文本摘要等的标记数据。只需创建一个项目，上传数据，然后开始注释。您可以在数小时内构建数据集。支持[命名实体识别](https: ......

文本方案工具技术 NLP更新时间 2023-08-29

nlp 特殊标记符

BERT模型中的特殊标记（Special Tokens）。它们的含义如下： [PAD]：在batch中对齐序列长度时，用 [PAD]进行填充以使所有序列长度相同。可以通过将其添加到较短的序列末尾来实现对齐。[CLS]：在输入序列的开头添加 [CLS] 标记，以表示该序列的分类结果。[SEP]：用于分 ......

标记 nlp更新时间 2023-08-28

带你上手基于Pytorch和Transformers的中文NLP训练框架

基于pytorch、transformers做中文领域的nlp开箱即用的训练框架，提供全套的训练、微调模型（包括大模型、文本转向量、文本生成、多模态等模型）的解决方案。 ......

Transformers 框架 Pytorch NLP更新时间 2023-08-28

基本经典的NLP书籍

以下是几本经典的自然语言处理（NLP）书籍： 1. "Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recog ......

书籍经典 NLP更新时间 2023-08-27

超级AI助手：全新提升！中文NLP训练框架，快速上手，海量训练数据

# “超级AI助手：全新提升！中文NLP训练框架，快速上手，海量训练数据，ChatGLM-v2、中文Bloom、Dolly_v2_3b助您实现更智能的应用！” # 1.简介 1. `目标`：基于`pytorch`、`transformers`做中文领域的nlp开箱即用的训练框架，提供全套的训练、微调 ......

海量框架助手全新数据更新时间 2023-08-25

全套解决方案：中文NLP训练框架，支持大模型训练和文本生成，快速上手，海量训练数据！

# 全套解决方案：基于pytorch、transformers的中文NLP训练框架，支持大模型训练和文本生成，快速上手，海量训练数据！ # 1.简介 1. `目标`：基于`pytorch`、`transformers`做中文领域的nlp开箱即用的训练框架，提供全套的训练、微调模型（包括大模型、文本转 ......

和文海量全套框架模型更新时间 2023-08-25

统计数据源(NLP/AI/ML): Indeed.com(全球超过60个市场28种语言的招聘站:可视化统计数据https://www.hiringlab.org/data/)

Indeed.com: 全球招聘站可视化统计数据: (全球超过60个市场28种语言的招聘站:可视化统计数据https://www.hiringlab.org/data/) Indeed has websites in over 60 markets and 28 languages. The ful ......

数据数据源统计数据 hiringlab 语言更新时间 2023-08-22

llm 多模态通用大模型（nlp/cv）知识讲解

模型算法(最难，模型结构与训练方法) 数据（最耗时，数据与模型效果之间的关系）算力（GPU显卡+模型量化）模型参数量、训练数据量：模型参数量决定整个模型的理论效果训练数据量决定整个模型的实际效果多模态：用于表示某种信息的模式（图片、文字、语音、视频）通过各种预训练模型将信息的不同模式 ......

模态模型知识 llm nlp更新时间 2023-08-20

nlp入门（五）隐马尔科夫模型

源码请到：自然语言处理练习: 学习自然语言处理时候写的一些代码 (gitee.com) 一、马尔科夫模型概念 1.1 马尔科夫模型：具有马尔可夫性质并以随机过程为基础的模型 1.2 马尔科夫性质：过去状态只能影响现在状态，影响不了将来的状态 1.3 马尔科夫过程：随机过程满足马尔科夫性质，状态转移矩 ......

模型 nlp更新时间 2023-08-15

NLP语义相似度尝试

要实现这么一个需求，预设一个评分标准，然后根据用户的行为或者一段描述进行打分，很自然的想到了这几年很火的NLP，调研了一番做个记录。 1.方案选择 python上有很多很成熟的库来实现，本次选用SentenceTransformers。 2.环境搭建安装python:太新的版本可能造成各种库不兼容 ......

语义 NLP更新时间 2023-08-15

NLP文本匹配任务Text Matching [无监督训练]：SimCSE、ESimCSE、DiffCSE 项目实践

# NLP文本匹配任务Text Matching [无监督训练]：SimCSE、ESimCSE、DiffCSE 项目实践文本匹配多用于计算两个文本之间的相似度，该示例会基于 ESimCSE 实现一个无监督的文本匹配模型的训练流程。文本匹配多用于计算两段「自然文本」之间的「相似度」。例如，在搜索引 ......

Matching 文本任务 ESimCSE DiffCSE更新时间 2023-08-14

NLP文本匹配任务Text Matching 有监督训练：PointWise（单塔）、DSSM（双塔）、Sentence BERT（双塔）项目实践

NLP文本匹配任务Text Matching 有监督训练：PointWise（单塔）、DSSM（双塔）、Sentence BERT（双塔）项目实践 ......

单塔 PointWise Matching Sentence 文本更新时间 2023-08-14

GPT之路(一) AI基础之自然语言处理NLP工作原理

这篇随笔主要是介绍AI基础知识，自然语言处理NLP 1.自然语言处理NLP工作原理自然语言处理(Natural Language Processing,NLP)是指计算机与人类自然语言进行交互的技术领域，它涉及到语音识别、文本分析、机器翻译、情感分析、自然语言生成等多个方面。NLP是人工智能的一个 ......

自然语言原理自然语言基础更新时间 2023-08-12

7个顶级开源数据集来训练自然语言处理（NLP）和文本模型

随着围绕NLP的大量兴奋和研究，将这些技术应用于现实世界场景的机会越来越多。熟悉NLP并非易事，这些开源数据集可以帮助您提高技能。 ......

自然语言模型顶级文本自然更新时间 2023-08-11

nlp入门（四）新闻分类实验

源码请到：自然语言处理练习: 学习自然语言处理时候写的一些代码 (gitee.com) 数据来源：搜狗新闻语料库由于链接失效，现在使用百度网盘分享链接：https://pan.baidu.com/s/1RTx2k7V3Ujgg9-Rv8I8IRA?pwd=ujn3 提取码：ujn3 停用词来 ......

新闻 nlp更新时间 2023-08-10

共131篇 :2/5页 首页上一页12345下一页尾页