Paper

Proj. CMI Paper Reading: R-U-SURE? Uncertainty-Aware Code Suggestions By Maximizing Utility Across Random User Intents

## Abstract Task: building uncertainty-aware suggestions based on a decision-theoretic model of goal-conditional utility,推理LLM用户的未观测到的意图 方法:a decision ......

Proj. CMI Paper Reading: Distributed System Fuzzing

## Abstract 背景:当前分布式系统分析一般都是黑盒工具,难以探索程序状态 工具:MALLORY 任务:greybox fuzzing testing distributed system 方法:timeline-driven testing, timeline abstraction 步骤 ......
Distributed Fuzzing Reading System Paper

Paper Reading: Self-paced Ensemble for Highly Imbalanced Massive Data Classification

目前很多方法都不能很好地处理高度不平衡、大规模和有噪声的分类任务,主要原因是它们忽视了不平衡学习所隐含的困难。本文引入“分类硬度”的概念来刻画不平衡问题的困难所在,该概念表示为特定分类器正确分类样本的难度。基于这个概念,本文提出了一种新的学习框架——自定步速集成(self-pace Ensemble... ......

Paper Reading: Ensemble of Classifiers based on Multiobjective Genetic Sampling for Imbalanced Data

大多数处理不平衡学习的技术都是针对二分类问题提出的,这些方法并不一定适用于不平衡的多分类任务。针对这些问题,本文提出了一种新的自适应方法——基于多目标遗传抽样的分类器集成(E-MOSAIC)。E-MOSAIC 将训练数据集中提取的样本编码为个体进行进化,通过多目标优化过程搜索能够在所有类别中产生具有... ......

Paper Reading: A three-way decision ensemble method for imbalanced data oversampling

针对 SMOTE 的缺点,本文提出了一种基于建设性覆盖算法(CCA)的三向决策抽样方法(CTD)。CTD 首先使用 CCA 构造不平衡数据的覆盖,然后选择少数样本的覆盖并根据覆盖的密度划分为三个区域。最后根据覆盖分布规律得到相应的阈值 α 和 β,选择关键样本进行SMOTE过采样。考虑到 CCA 随... ......

Paper Reading: Model-Based Synthetic Sampling for Imbalanced Data

针对不平衡数据问题,本文提出了一种基于模型的综合抽样(MBS)方法,从一个新的角度对少数类实例进行过采样。MBS 是一种过采样算法,目标是生成能够捕捉少数类训练样本特征之间关系的合成样本,同时保持数据样本的可变性。首先利用回归模型捕获少数类样本的特征趋势,接着通过对可用特征值进行采样生成临时数据样本... ......

Proj. CAR Paper Reading: CodeBPE: Investigating Subtokenization Options for Large Language Model Pretraining on Source Code

## Abstract 本文:探索LLM在source code上pretrain时的subtokenization效果。 subtokenization: split long tokens into smaller subtokens, in order to ensure the relati ......

Proj. CAR Paper Reading: C3PO: A Lightweight Copying Mechanism for Translating Pseudocode to Code

## Abstract 本文: 方法:直接从伪代码中利用多数tokens,以此节约计算代价 步骤: 1. Copy: 使用二分类来决定哪些pseudocode tokens to be masked,以便直接使用 2. Generate: 使用Seq2Seq来生成masked PL code 3. ......

Proj. CAR Paper Reading: Augmenting Decompiler Output with Learned Variable Names and Types

## Abstract 背景: 1. decompilers难以恢复注释、variable names, custom variable types 本文: 工具:DIRTY((DecompIled variable ReTYper) 方法: postprocesses decompiled fil ......

paper检测

1、paperpass 网站:https://www.paperpass.com/ 首次送1w字免费查重. 2、paperok 网站:https://www.paperok.com/ 可免费试用。 3、paperyy 网站:https://www.paperyy.cn/ 每天中午I1-12之间免费, ......
paper

Paper Reading: Gradient Boosted Neural Decision Forest

[toc] Paper Reading 是从个人角度进行的一些总结分享,受到个人关注点的侧重和实力所限,可能有理解不到位的地方。具体的细节还需要以原文的内容为准,博客中的图表若未另外说明则均来自原文。 | 论文概况 | 详细 | | | | | 标题 | 《Gradient Boosted Neur ......
Gradient Decision Boosted Reading Forest

「解题报告」[ARC114E] Paper Cutting 2

Kaguya 随机点了一道题,结果还挺 educational,写一下。 不过好像挺套路的。 首先第一件事,发现从现有的线段里选一个隔开这个东西太丑了。我们考虑转化一下题意。我们仍然在原矩形上划线,但是划完线后并不割开,而是一直在原矩形上操作。可以发现,这个操作是和原来的操作是等价的,因为我们可以看 ......
Cutting 报告 Paper 114E ARC

Paper Reading: Adaptive Neural Trees

本文设计了自适应神经树(ANT)将 NN 和 DT 的优点结合起来,ANT 将树结构中的路由决策和根到叶的计算路径表示为 NN,从而实现了分层表示学习。ANT 以树形拓扑作为一个强结构先验,通过该结构令特征以分层方式共享和分离。同时提出了一种基于反向传播的训练算法,基于一系列决策来生长 ANT 的结... ......
Adaptive Reading Neural Paper Trees

Game on Paper 题解

[题目传送门](https://www.luogu.com.cn/problem/CF203B) 一道模拟题。 如果每涂一个格子就判断整个矩阵,那时间复杂度显然会炸。 我们每涂一个格子,影响的应该只是以这个格子为中心的 $3 \times 3$ 矩阵,判断以这些点为中心的话会不会涂出 $3 \tim ......
题解 Paper Game on

Paper Reading: forgeNet a graph deep neural network model using tree-based ensemble classifiers for feature graph construction

[toc] Paper Reading 是从个人角度进行的一些总结分享,受到个人关注点的侧重和实力所限,可能有理解不到位的地方。具体的细节还需要以原文的内容为准,博客中的图表若未另外说明则均来自原文。 | 论文概况 | 详细 | | | | | 标题 | 《forgeNet: a graph dee ......

Questions Whlie Reading A Research Paper

1. Give me a brief summary of the background and context of the research. ``` Give me a brief summary of the background and context of the research. ` ......
Questions Research Reading Paper Whlie

CF653F Paper task

题意:给定一个仅包含左右括号的字符串,求其中合法的括号子串种数。 一眼看上去没思路,先从简单的问题看起。 如何判断一个括号序列是合法的? 将左括号变成 $1$ ,右括号变成 $-1$ ,然后得到前缀和数组 $pre$。如果 $pre$ 中没有负数说明括号序列合法。 怎么求合法的括号子串个数? 考虑枚 ......
Paper 653F task 653 CF

Proj. CHW Paper Reading: Characterizing Cryptocurrency Exchange Scams

1. intro Blockchain community防范scam attack措施 包含malicious domains的开源数据库,例如CryptoScamDB和EtherScanDB 多半是使用crowd-sourcing based approach搜集,例如受害者报告 本文探究 th ......

[paper reading]|IC-FPS: Instance-Centroid Faster Point Sampling Module for 3D Point-base

摘要: 本文说首次实现了大规模点云场景中基于点的模型的实时检测(<30ms); 首先指出FPS采样策略进行下采样是耗时的,尤其当点云增加的时候,计算量和推理时间快速增加; 本文提出IC-FPS;包含两个模块:local feature diffusion based background point ......

Paper Reading: PS-Tree A piecewise symbolic regression tree

综合 CART 和 GP 方法的优点,本文提出了一种新的回归方法——分段符号回归树(PS-Tree)。基本思想是通过CART将特征空间划分为若干个子区域,然后使用 GP 和岭回归为每个子区域构建一个简单的回归模型。在模型训练算法方面,使用分类树动态学习每个分区的最合适的数据分配方案,并进化出一组 G... ......

Paper Reading: Interpretable Rule Discovery Through Bilevel Optimization of Split-Rules of Nonlinear Decision Trees

对于可解释的分类器本文限制为用简单的数学术语表示,使用非线性决策树(NLDT)将分类器表示为简单数学规则的集合。树的每个非叶结节点表示一个非线性数学规则,将给定条件节点中的数据集划分为两个不重叠的子集。通过限制每个条件节点上的分裂规则结构和决策树深度,保证了分类器的可解释性。在给定条件节点上的非线性... ......

Paper Reading: XRRF — An eXplainable Reasonably Randomised Forest algorithm for classification and regression problems

本文提出了一种 XRRF 算法,它通过执行本文提出的 SGFL 和 RRF 算法来得到可解释性、准确性和可解释性之间的权衡。随后引入了基于决策路径特征提取的方法,根据具体的应用解释模型的输出。其中 SGFL 能确定有助于模型准确性的特征,同时保持特征关系的可靠性。RRF 算法则通过利用所提出的改进随... ......