NLP

NLP的模型

原来NLP也有模型,用pytorch、tensorflow等训练出来的 摘要模型、分类模型等等 https://huggingface.co/models ......
模型 NLP

NLP是什么

NLP代表自然语言处理(Natural Language Processing),是人工智能(AI)的一个子领域,专注于计算机与人类语言之间的交互。NLP的目标是使计算机能够以有意义和有用的方式理解、解释和生成人类语言。该领域涵盖了广泛的任务和应用,包括: 文本分类 文本分类是自然语言处理(NLP) ......
NLP

8 Innovative BERT Knowledge Distillation Papers That Have Changed The Landscape of NLP

8 Innovative BERT Knowledge Distillation Papers That Have Changed The Landscape of NLP Contemporary state-of-the-art NLP models are difficult to be ut ......

nlp基础-深度学习的博客及其提炼

Norm 浅谈Transformer的初始化、参数化与标准化 RMSNorm:去掉了LayerNorm的均值,只保留了方差 Pre-norm和Post-norm的对比: 为什么Pre-norm效果更差数学解释 Pre-norm模型没有Post-norm '深',所以理论上限更低 Pre-norm的残 ......
深度 基础 博客 nlp

NLP经典论文,自我回顾笔记

(持续更新,目前找工作中) 1. Sequence to Sequence Learning with Neural Networks(2014 Google Research) However, the first few words in the source language are now ......
笔记 经典 论文 NLP

nlp八股-中文分词

分词 基于字典的分词,基于标注的分词 基于字典的分词 基于字典 博客 列出所有分词可能,算出每种分词概率 马尔可夫假设:每个词的出现只跟前一个词的出现有关 n-gram:每个词的出现跟前n-1个词有关 构建有向无环图,viterbi算法求最优路径 效率更高 jieba分词原理 加载字典, 生成tri ......
八股 nlp

nlp八股-深入思考的一些博客

Norm 浅谈Transformer的初始化、参数化与标准化 RMSNorm:去掉了LayerNorm的均值,只保留了方差 Pre-norm和Post-norm的对比: 为什么Pre-norm效果更差数学解释 Pre-norm模型没有Post-norm '深',所以理论上限更低 Pre-norm的残 ......
八股 博客 nlp

围绕 transformers 构建现代 NLP 开发环境

本文将从“样本处理”,“模型开发”,“实验管理”,“工具链及可视化“ 几个角度介绍基于 tranformers 库做的重新设计,并简单聊聊个人对“软件2.0”的看法。 ......
transformers 环境 NLP

关于自然语言处理(NLP)

结巴分词 https://github.com/fxsjy/jieba keywords = jieba.analyse.textrank( TEXT_CONTENT, topK=20, withWeight=True, allowPOS=('ns','n','vn','v') ) ......
自然语言 自然 语言 NLP

NLP中关键概念 词干提取(Stemming),词形还原(Lemmatization),命名实体识别简介

词干提取(Stemming)和词形还原(Lemmatization)是自然语言处理中常用的文本预处理技术,用于将单词转化为它们的原始形式,以减少词汇的变形形式,从而简化文本分析和比较。 1. 词干提取(Stemming):词干提取是一种基于规则的文本处理方法,通过删除单词的后缀来提取词干(stem) ......
词干 词形 Lemmatization 实体 Stemming

自然语言的处理 nlp

分词 得到语言首先使用分词机器进行分词 首先使用正则表达式过滤标点 空格,一般使用NLTK进行首次分词 n-gram 相邻的词组成短语,更有意义。 停用词的过滤 a an the of之类 大小写转换 词干还原house houses houseing 还原成house ,nltk.stem.por ......
自然语言 自然 语言 nlp

NLP 概念

序列标注,给定一个序列,找出序列中每个元素对应的标签。 中文分词、词性标注、命名实体识别都可以转化为序列标注问题。 词法分析:中文分词、词性标注、命名实体识别 中文分词:将文本分隔为有意义的词语 词性标注:确定每个词语的类别和浅层的歧义消除 命名实体识别:识别出较长的专有名词(人名、地名、机构名) ......
概念 NLP

NLP 序列标注

转载:https://blog.csdn.net/kevinjin2011/article/details/113939817 序列标注(Sequence labeling)是NLP问题中的基本问题。在序列标注中,我们想对一个序列的每一个元素标注一个标签。一般来说,一个序列指的是一个句子,而一个元素 ......
序列 NLP

nlp基础知识

自然语言处理(Natural Language Processing,NLP)涉及处理人类语言以及与之相关的任务。以下是NLP的一些基础知识领域: 文本预处理: 分词(Tokenization):将文本拆分为单词或子词的过程。 停用词去除(Stopword Removal):去除常见但不携带重要信息 ......
基础知识 基础 知识 nlp

NLP原理系列1-说清楚transformer原理

NLP原理系列1-说清楚transformer原理 来用思维导图和截图描述。 思维导图的本质是 变化(解决问题)-> 更好的, 或者复杂问题拆分为小问题 以及拆分的思路。 参考链接:李宏毅 transformer原理。 一 tansformer的推理及训练过程 1 tf 训练过程 红框部分是 训练得 ......
原理 transformer NLP

文本标注技术方案(NLP标注工具)

# **Doccano** > doccano 是一个面向人类的开源文本注释工具。它为文本分类、序列标记和序列到序列任务提供注释功能。您可以创建用于情感分析、命名实体识别、文本摘要等的标记数据。只需创建一个项目,上传数据,然后开始注释。您可以在数小时内构建数据集。 支持[命名实体识别](https: ......
文本 方案 工具 技术 NLP

nlp 特殊标记符

BERT模型中的特殊标记(Special Tokens)。它们的含义如下: [PAD]:在batch中对齐序列长度时,用 [PAD]进行填充以使所有序列长度相同。可以通过将其添加到较短的序列末尾来实现对齐。[CLS]:在输入序列的开头添加 [CLS] 标记,以表示该序列的分类结果。[SEP]:用于分 ......
标记 nlp

带你上手基于Pytorch和Transformers的中文NLP训练框架

基于pytorch、transformers做中文领域的nlp开箱即用的训练框架,提供全套的训练、微调模型(包括大模型、文本转向量、文本生成、多模态等模型)的解决方案。 ......
Transformers 框架 Pytorch NLP

基本经典的NLP书籍

以下是几本经典的自然语言处理(NLP)书籍: 1. "Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recog ......
书籍 经典 NLP

超级AI助手:全新提升!中文NLP训练框架,快速上手,海量训练数据

# “超级AI助手:全新提升!中文NLP训练框架,快速上手,海量训练数据,ChatGLM-v2、中文Bloom、Dolly_v2_3b助您实现更智能的应用!” # 1.简介 1. `目标`:基于`pytorch`、`transformers`做中文领域的nlp开箱即用的训练框架,提供全套的训练、微调 ......
海量 框架 助手 全新 数据

全套解决方案:中文NLP训练框架,支持大模型训练和文本生成,快速上手,海量训练数据!

# 全套解决方案:基于pytorch、transformers的中文NLP训练框架,支持大模型训练和文本生成,快速上手,海量训练数据! # 1.简介 1. `目标`:基于`pytorch`、`transformers`做中文领域的nlp开箱即用的训练框架,提供全套的训练、微调模型(包括大模型、文本转 ......
和文 海量 全套 框架 模型

统计数据源(NLP/AI/ML): Indeed.com(全球超过60个市场28种语言的招聘站:可视化统计数据https://www.hiringlab.org/data/)

Indeed.com: 全球招聘站可视化统计数据: (全球超过60个市场28种语言的招聘站:可视化统计数据https://www.hiringlab.org/data/) Indeed has websites in over 60 markets and 28 languages. The ful ......

llm 多模态通用大模型(nlp/cv)知识讲解

模型算法(最难,模型结构与训练方法) 数据(最耗时,数据与模型效果之间的关系) 算力(GPU显卡+模型量化) 模型参数量、训练数据量: 模型参数量决定 整个模型的理论效果 训练数据量决定 整个模型的实际效果 多模态:用于表示某种信息的模式(图片、文字、语音、视频) 通过各种预训练模型将信息的不同模式 ......
模态 模型 知识 llm nlp

nlp入门(五)隐马尔科夫模型

源码请到:自然语言处理练习: 学习自然语言处理时候写的一些代码 (gitee.com) 一、马尔科夫模型概念 1.1 马尔科夫模型:具有马尔可夫性质并以随机过程为基础的模型 1.2 马尔科夫性质:过去状态只能影响现在状态,影响不了将来的状态 1.3 马尔科夫过程:随机过程满足马尔科夫性质,状态转移矩 ......
模型 nlp

NLP语义相似度尝试

要实现这么一个需求,预设一个评分标准,然后根据用户的行为或者一段描述进行打分,很自然的想到了这几年很火的NLP,调研了一番做个记录。 1.方案选择 python上有很多很成熟的库来实现,本次选用SentenceTransformers。 2.环境搭建 安装python:太新的版本可能造成各种库不兼容 ......
语义 NLP

NLP文本匹配任务Text Matching [无监督训练]:SimCSE、ESimCSE、DiffCSE 项目实践

# NLP文本匹配任务Text Matching [无监督训练]:SimCSE、ESimCSE、DiffCSE 项目实践 文本匹配多用于计算两个文本之间的相似度,该示例会基于 ESimCSE 实现一个无监督的文本匹配模型的训练流程。文本匹配多用于计算两段「自然文本」之间的「相似度」。 例如,在搜索引 ......
Matching 文本 任务 ESimCSE DiffCSE

NLP文本匹配任务Text Matching 有监督训练:PointWise(单塔)、DSSM(双塔)、Sentence BERT(双塔)项目实践

NLP文本匹配任务Text Matching 有监督训练:PointWise(单塔)、DSSM(双塔)、Sentence BERT(双塔)项目实践 ......
单塔 PointWise Matching Sentence 文本

GPT之路(一) AI基础之自然语言处理NLP工作原理

这篇随笔主要是介绍AI基础知识,自然语言处理NLP 1.自然语言处理NLP工作原理 自然语言处理(Natural Language Processing,NLP)是指计算机与人类自然语言进行交互的技术领域,它涉及到语音识别、文本分析、机器翻译、情感分析、自然语言生成等多个方面。NLP是人工智能的一个 ......
自然语言 原理 自然 语言 基础

7个顶级开源数据集来训练自然语言处理(NLP)和文本模型

随着围绕NLP的大量兴奋和研究,将这些技术应用于现实世界场景的机会越来越多。熟悉NLP并非易事,这些开源数据集可以帮助您提高技能。 ......
自然语言 模型 顶级 文本 自然

nlp入门(四)新闻分类实验

源码请到:自然语言处理练习: 学习自然语言处理时候写的一些代码 (gitee.com) 数据来源: 搜狗新闻语料库 由于链接失效,现在使用百度网盘分享 链接:https://pan.baidu.com/s/1RTx2k7V3Ujgg9-Rv8I8IRA?pwd=ujn3 提取码:ujn3 停用词 来 ......
新闻 nlp