语料
cleaning of llm corpus 大模型语料清洗
cleaning of llm corpus 大模型语料清洗 数据是人工智能领域发展的基础要素之一。随着大规模预训练模型及相关技术不断取得突破,在相应研究中使用高效数据处理工具提升数据质量变得越来越重要。llm_corpus_quality集成了包含清洗、敏感词过滤、广告词过滤、语料质量自动评估等功 ......
HanLP — HMM隐马尔可夫模型 -- 语料库
BMES => B:词语开始、M:词语中间、E:词语结束、S:单独成词 并非所有中文任务都需要分词 语料库 每行是一篇“文章” 每篇文章用空格分开 语料库的准确性,严重影响分词结果 理论上,语料库越大越好 每个字都有一个标识(隐藏状态),可以根据语料库得到所有标识 中文分词就是为了得到状态 麻 辣 ......
将向量提取器用于平行语料对齐的一个小示例
from sentence_transformers import SentenceTransformer import numpy as np from os import path model_path = ( '/data/m3e-base' if path.isdir('/data/m3e- ......
将语料文本写入数据库20231104
import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public ......
语料库 第十一章 Section4
□ code [kJUd] n. 密码 □ maximum ['m&ksImJm] adj. 最大的,最多的 □ coconut ['kJUkJnVt] n. 椰子 □ mould [mJUld] n. 模具 □ elastic [I'lA:stIk] adj. 有弹性的 □ vertical [' ......
用 Spark's MinHashLSH进行文本语料去重
(1)MinHashLSH进行文本去重的算法原理 MinHash (最小哈希) 是一种用于估计两个集合的 Jaccard 相似度的方法,而 MinHashLSH (局部敏感哈希) 则是一种使用 MinHash 来近似查找相似项的技术。 MinHash 算法基于以下观察:如果我们随机排列所有可能的元素 ......
人生观察语料学习笔记133
# 标题 **記憶喪失の人を騙し続けたら?** 如果一直欺骗一个失去记忆的人会怎么样呢? ``` きおく(記憶) 【名】 记忆 そうしつ(喪失) 【名】 丧失 ひと(人) 【名】 人 だます(騙す) 【他动词・五段/一类】 欺骗 つづく(続く) 【自动词・五段/一类】 继续 つづける(続ける) 【他 ......
业务场景(用户交互) + Corpus语料库/数据库建立 + Attention 与 Self-Attention:世界常识库|全局信息|语法信息|句法信息|Context上下文信息
一、场景(用户交互): 1. 用户发起新会话Session,初始化交互系统,等待 用户输入 或 传入任务文档; 2. 用户实时输入,触发实时交互,设当前输入句子为S: 当前输入句子 S 长度未定,并且可能是动态字符流式输入: 因此可以用 Sliding Window滑动窗口, 提取 当前输入单词Wo ......
人生观察语料学习笔记135
見えるモノが 一人だけ 違う としたら? 只有一个人看到不一样的幽灵? ``` みえる(見える) 【自动词・一段/二类】 看的见 モノ(もの) 【名词】 妖精,幽灵,鬼魂,妖怪 ひとり(一人) 【名词】 一人 ~だけ 【助词】 仅仅,只有 ちがう(違う) 【自动・一类】 不同 ~としたら 【助词】 ......
背单词方法论【雅思听力语料库】
用纸板挡住小程序单词表,听写,正确直接下一个,错了写三遍。边念发音,边默写 chatGpt查询相近的词,构词法,词根,怎么记。 百度翻译app查询怎么记。 fanyi.com查询发音区别。 重点错词记录到卡片上,卡片正面是英文,背面是生词 有道词典,桌面版 chatgpt fanyi.com 百度翻 ......
COIG:开源四类中文指令语料库
CHINESE OPEN INSTRUCTION GENERALIST: A PRELIMINARY RELEASE 论文:https://arxiv.org/pdf/2304.07987v1.pdf 数据地址:https://huggingface.co/datasets/BAAI/COIG Pa ......