NLP
NLP是什么
NLP代表自然语言处理(Natural Language Processing),是人工智能(AI)的一个子领域,专注于计算机与人类语言之间的交互。NLP的目标是使计算机能够以有意义和有用的方式理解、解释和生成人类语言。该领域涵盖了广泛的任务和应用,包括: 文本分类 文本分类是自然语言处理(NLP) ......
8 Innovative BERT Knowledge Distillation Papers That Have Changed The Landscape of NLP
8 Innovative BERT Knowledge Distillation Papers That Have Changed The Landscape of NLP Contemporary state-of-the-art NLP models are difficult to be ut ......
nlp基础-深度学习的博客及其提炼
Norm 浅谈Transformer的初始化、参数化与标准化 RMSNorm:去掉了LayerNorm的均值,只保留了方差 Pre-norm和Post-norm的对比: 为什么Pre-norm效果更差数学解释 Pre-norm模型没有Post-norm '深',所以理论上限更低 Pre-norm的残 ......
NLP经典论文,自我回顾笔记
(持续更新,目前找工作中) 1. Sequence to Sequence Learning with Neural Networks(2014 Google Research) However, the first few words in the source language are now ......
nlp八股-中文分词
分词 基于字典的分词,基于标注的分词 基于字典的分词 基于字典 博客 列出所有分词可能,算出每种分词概率 马尔可夫假设:每个词的出现只跟前一个词的出现有关 n-gram:每个词的出现跟前n-1个词有关 构建有向无环图,viterbi算法求最优路径 效率更高 jieba分词原理 加载字典, 生成tri ......
nlp八股-深入思考的一些博客
Norm 浅谈Transformer的初始化、参数化与标准化 RMSNorm:去掉了LayerNorm的均值,只保留了方差 Pre-norm和Post-norm的对比: 为什么Pre-norm效果更差数学解释 Pre-norm模型没有Post-norm '深',所以理论上限更低 Pre-norm的残 ......
围绕 transformers 构建现代 NLP 开发环境
本文将从“样本处理”,“模型开发”,“实验管理”,“工具链及可视化“ 几个角度介绍基于 tranformers 库做的重新设计,并简单聊聊个人对“软件2.0”的看法。 ......
关于自然语言处理(NLP)
结巴分词 https://github.com/fxsjy/jieba keywords = jieba.analyse.textrank( TEXT_CONTENT, topK=20, withWeight=True, allowPOS=('ns','n','vn','v') ) ......
NLP中关键概念 词干提取(Stemming),词形还原(Lemmatization),命名实体识别简介
词干提取(Stemming)和词形还原(Lemmatization)是自然语言处理中常用的文本预处理技术,用于将单词转化为它们的原始形式,以减少词汇的变形形式,从而简化文本分析和比较。 1. 词干提取(Stemming):词干提取是一种基于规则的文本处理方法,通过删除单词的后缀来提取词干(stem) ......
自然语言的处理 nlp
分词 得到语言首先使用分词机器进行分词 首先使用正则表达式过滤标点 空格,一般使用NLTK进行首次分词 n-gram 相邻的词组成短语,更有意义。 停用词的过滤 a an the of之类 大小写转换 词干还原house houses houseing 还原成house ,nltk.stem.por ......
NLP 概念
序列标注,给定一个序列,找出序列中每个元素对应的标签。 中文分词、词性标注、命名实体识别都可以转化为序列标注问题。 词法分析:中文分词、词性标注、命名实体识别 中文分词:将文本分隔为有意义的词语 词性标注:确定每个词语的类别和浅层的歧义消除 命名实体识别:识别出较长的专有名词(人名、地名、机构名) ......
NLP 序列标注
转载:https://blog.csdn.net/kevinjin2011/article/details/113939817 序列标注(Sequence labeling)是NLP问题中的基本问题。在序列标注中,我们想对一个序列的每一个元素标注一个标签。一般来说,一个序列指的是一个句子,而一个元素 ......
nlp基础知识
自然语言处理(Natural Language Processing,NLP)涉及处理人类语言以及与之相关的任务。以下是NLP的一些基础知识领域: 文本预处理: 分词(Tokenization):将文本拆分为单词或子词的过程。 停用词去除(Stopword Removal):去除常见但不携带重要信息 ......
NLP原理系列1-说清楚transformer原理
NLP原理系列1-说清楚transformer原理 来用思维导图和截图描述。 思维导图的本质是 变化(解决问题)-> 更好的, 或者复杂问题拆分为小问题 以及拆分的思路。 参考链接:李宏毅 transformer原理。 一 tansformer的推理及训练过程 1 tf 训练过程 红框部分是 训练得 ......
文本标注技术方案(NLP标注工具)
# **Doccano** > doccano 是一个面向人类的开源文本注释工具。它为文本分类、序列标记和序列到序列任务提供注释功能。您可以创建用于情感分析、命名实体识别、文本摘要等的标记数据。只需创建一个项目,上传数据,然后开始注释。您可以在数小时内构建数据集。 支持[命名实体识别](https: ......
nlp 特殊标记符
BERT模型中的特殊标记(Special Tokens)。它们的含义如下: [PAD]:在batch中对齐序列长度时,用 [PAD]进行填充以使所有序列长度相同。可以通过将其添加到较短的序列末尾来实现对齐。[CLS]:在输入序列的开头添加 [CLS] 标记,以表示该序列的分类结果。[SEP]:用于分 ......
带你上手基于Pytorch和Transformers的中文NLP训练框架
基于pytorch、transformers做中文领域的nlp开箱即用的训练框架,提供全套的训练、微调模型(包括大模型、文本转向量、文本生成、多模态等模型)的解决方案。 ......
基本经典的NLP书籍
以下是几本经典的自然语言处理(NLP)书籍: 1. "Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recog ......
超级AI助手:全新提升!中文NLP训练框架,快速上手,海量训练数据
# “超级AI助手:全新提升!中文NLP训练框架,快速上手,海量训练数据,ChatGLM-v2、中文Bloom、Dolly_v2_3b助您实现更智能的应用!” # 1.简介 1. `目标`:基于`pytorch`、`transformers`做中文领域的nlp开箱即用的训练框架,提供全套的训练、微调 ......
全套解决方案:中文NLP训练框架,支持大模型训练和文本生成,快速上手,海量训练数据!
# 全套解决方案:基于pytorch、transformers的中文NLP训练框架,支持大模型训练和文本生成,快速上手,海量训练数据! # 1.简介 1. `目标`:基于`pytorch`、`transformers`做中文领域的nlp开箱即用的训练框架,提供全套的训练、微调模型(包括大模型、文本转 ......
统计数据源(NLP/AI/ML): Indeed.com(全球超过60个市场28种语言的招聘站:可视化统计数据https://www.hiringlab.org/data/)
Indeed.com: 全球招聘站可视化统计数据: (全球超过60个市场28种语言的招聘站:可视化统计数据https://www.hiringlab.org/data/) Indeed has websites in over 60 markets and 28 languages. The ful ......
llm 多模态通用大模型(nlp/cv)知识讲解
模型算法(最难,模型结构与训练方法) 数据(最耗时,数据与模型效果之间的关系) 算力(GPU显卡+模型量化) 模型参数量、训练数据量: 模型参数量决定 整个模型的理论效果 训练数据量决定 整个模型的实际效果 多模态:用于表示某种信息的模式(图片、文字、语音、视频) 通过各种预训练模型将信息的不同模式 ......
nlp入门(五)隐马尔科夫模型
源码请到:自然语言处理练习: 学习自然语言处理时候写的一些代码 (gitee.com) 一、马尔科夫模型概念 1.1 马尔科夫模型:具有马尔可夫性质并以随机过程为基础的模型 1.2 马尔科夫性质:过去状态只能影响现在状态,影响不了将来的状态 1.3 马尔科夫过程:随机过程满足马尔科夫性质,状态转移矩 ......
NLP语义相似度尝试
要实现这么一个需求,预设一个评分标准,然后根据用户的行为或者一段描述进行打分,很自然的想到了这几年很火的NLP,调研了一番做个记录。 1.方案选择 python上有很多很成熟的库来实现,本次选用SentenceTransformers。 2.环境搭建 安装python:太新的版本可能造成各种库不兼容 ......
NLP文本匹配任务Text Matching [无监督训练]:SimCSE、ESimCSE、DiffCSE 项目实践
# NLP文本匹配任务Text Matching [无监督训练]:SimCSE、ESimCSE、DiffCSE 项目实践 文本匹配多用于计算两个文本之间的相似度,该示例会基于 ESimCSE 实现一个无监督的文本匹配模型的训练流程。文本匹配多用于计算两段「自然文本」之间的「相似度」。 例如,在搜索引 ......
NLP文本匹配任务Text Matching 有监督训练:PointWise(单塔)、DSSM(双塔)、Sentence BERT(双塔)项目实践
NLP文本匹配任务Text Matching 有监督训练:PointWise(单塔)、DSSM(双塔)、Sentence BERT(双塔)项目实践 ......
GPT之路(一) AI基础之自然语言处理NLP工作原理
这篇随笔主要是介绍AI基础知识,自然语言处理NLP 1.自然语言处理NLP工作原理 自然语言处理(Natural Language Processing,NLP)是指计算机与人类自然语言进行交互的技术领域,它涉及到语音识别、文本分析、机器翻译、情感分析、自然语言生成等多个方面。NLP是人工智能的一个 ......
7个顶级开源数据集来训练自然语言处理(NLP)和文本模型
随着围绕NLP的大量兴奋和研究,将这些技术应用于现实世界场景的机会越来越多。熟悉NLP并非易事,这些开源数据集可以帮助您提高技能。 ......
nlp入门(四)新闻分类实验
源码请到:自然语言处理练习: 学习自然语言处理时候写的一些代码 (gitee.com) 数据来源: 搜狗新闻语料库 由于链接失效,现在使用百度网盘分享 链接:https://pan.baidu.com/s/1RTx2k7V3Ujgg9-Rv8I8IRA?pwd=ujn3 提取码:ujn3 停用词 来 ......