语料

cleaning of llm corpus 大模型语料清洗

cleaning of llm corpus 大模型语料清洗 数据是人工智能领域发展的基础要素之一。随着大规模预训练模型及相关技术不断取得突破,在相应研究中使用高效数据处理工具提升数据质量变得越来越重要。llm_corpus_quality集成了包含清洗、敏感词过滤、广告词过滤、语料质量自动评估等功 ......
语料 cleaning 模型 corpus llm

HanLP — HMM隐马尔可夫模型 -- 语料库

BMES => B:词语开始、M:词语中间、E:词语结束、S:单独成词 并非所有中文任务都需要分词 语料库 每行是一篇“文章” 每篇文章用空格分开 语料库的准确性,严重影响分词结果 理论上,语料库越大越好 每个字都有一个标识(隐藏状态),可以根据语料库得到所有标识 中文分词就是为了得到状态 麻 辣 ......
语料库 语料 模型 HanLP HMM

将向量提取器用于平行语料对齐的一个小示例

from sentence_transformers import SentenceTransformer import numpy as np from os import path model_path = ( '/data/m3e-base' if path.isdir('/data/m3e- ......
语料 向量 示例

将语料文本写入数据库20231104

import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public ......
语料 20231104 文本 数据库 数据

语料库 第十一章 Section4

□ code [kJUd] n. 密码 □ maximum ['m&ksImJm] adj. 最大的,最多的 □ coconut ['kJUkJnVt] n. 椰子 □ mould [mJUld] n. 模具 □ elastic [I'lA:stIk] adj. 有弹性的 □ vertical [' ......
语料库 语料 Section4 Section

用 Spark's MinHashLSH进行文本语料去重

(1)MinHashLSH进行文本去重的算法原理 MinHash (最小哈希) 是一种用于估计两个集合的 Jaccard 相似度的方法,而 MinHashLSH (局部敏感哈希) 则是一种使用 MinHash 来近似查找相似项的技术。 MinHash 算法基于以下观察:如果我们随机排列所有可能的元素 ......
语料 MinHashLSH 文本 Spark 39

人生观察语料学习笔记133

# 标题 **記憶喪失の人を騙し続けたら?** 如果一直欺骗一个失去记忆的人会怎么样呢? ``` きおく(記憶) 【名】 记忆 そうしつ(喪失) 【名】 丧失 ひと(人) 【名】 人 だます(騙す) 【他动词・五段/一类】 欺骗 つづく(続く) 【自动词・五段/一类】 继续 つづける(続ける) 【他 ......
语料 笔记 人生 133

业务场景(用户交互) + Corpus语料库/数据库建立 + Attention 与 Self-Attention:世界常识库|全局信息|语法信息|句法信息|Context上下文信息

一、场景(用户交互): 1. 用户发起新会话Session,初始化交互系统,等待 用户输入 或 传入任务文档; 2. 用户实时输入,触发实时交互,设当前输入句子为S: 当前输入句子 S 长度未定,并且可能是动态字符流式输入: 因此可以用 Sliding Window滑动窗口, 提取 当前输入单词Wo ......
信息 Attention 语料库 语料 句法

人生观察语料学习笔记135

見えるモノが 一人だけ 違う としたら? 只有一个人看到不一样的幽灵? ``` みえる(見える) 【自动词・一段/二类】 看的见 モノ(もの) 【名词】 妖精,幽灵,鬼魂,妖怪 ひとり(一人) 【名词】 一人 ~だけ 【助词】 仅仅,只有 ちがう(違う) 【自动・一类】 不同 ~としたら 【助词】 ......
语料 笔记 人生 135

背单词方法论【雅思听力语料库】

用纸板挡住小程序单词表,听写,正确直接下一个,错了写三遍。边念发音,边默写 chatGpt查询相近的词,构词法,词根,怎么记。 百度翻译app查询怎么记。 fanyi.com查询发音区别。 重点错词记录到卡片上,卡片正面是英文,背面是生词 有道词典,桌面版 chatgpt fanyi.com 百度翻 ......

COIG:开源四类中文指令语料库

CHINESE OPEN INSTRUCTION GENERALIST: A PRELIMINARY RELEASE 论文:https://arxiv.org/pdf/2304.07987v1.pdf 数据地址:https://huggingface.co/datasets/BAAI/COIG Pa ......
语料库 语料 指令 COIG

R语言SVM支持向量机、文本挖掘新闻语料情感情绪分类和词云可视化

全文链接:http://tecdat.cn/?p=32032 原文出处:拓端数据部落公众号 支持向量机(SVM)是一种机器学习方法,基于结构风险最小化原则,即通过少量样本数据,得到尽可能多的样本数据。支持向量机对线性问题进行处理,能解决非线性分类问题。本文介绍了R语言中的 SVM工具箱及其支持向量机 ......
语料 向量 文本 情绪 语言
共12篇  :1/1页 首页上一页1下一页尾页