ICML 2023 | 神经网络大还是小?Transformer模型规模对训练目标的影响

前言 本文研究了 Transformer 类模型结构(configration)设计(即模型深度和宽度)与训练目标之间的关系。结论是:token 级的训练目标(如 masked token prediction)相对更适合扩展更深层的模型,而 sequence 级的训练目标(如语句分类)则相对不适合 ......


import matplotlib.pyplot as plt import math import torch from torch import nn from torch.nn import functional as f from d2l import torch as d2l batch_ ......
| 图存储部分 | | | | | | | | paddle/fluid/framework/fleet/heter_ps | graph_gpu_wrapper.h | GPU图主入口 | | | graph_gpu_ps_table.h | GPU图的主要存储结构,neighbor采样等都在这里 ......
[论文阅读] Learning Semi-supervised Gaussian Mixture Model

# Learning Semi-supervised Gaussian Mixture Models for Generalized Category Discovery ## Abstract 在本文中,我们解决了广义类别发现(generalized category discovery, GCD ......


项目方案:将Python深度神经网络转换成C++项目概述本项目旨在将使用Python编写的深度神经网络模型转换为C代码,以便在C环境中部署和运行。通过将模型从Python转换为C++,可以提高模型的性能和效率,并扩展模型在不同平台和设备上的应用。 技术方案1. 选择转换工具我们可以使用以下两种常见的 ......
Learn Git in 30 days——第 12 天:认识 Git 物件的相对名称

写的非常好的一个Git系列文章,强烈推荐 原文链接:https://github.com/doggy8088/Learn-Git-in-30-days/tree/master/zh-cn 在认识了 Git 物件的「绝对名称」与「参照名称」后,最后我们来介绍 Git 版控过程中也很常用到的「相对名称」 ......
Proj CDeepFuzz Paper Reading: Differential Testing of Cross Deep Learning Framework APIs: Revealing Inconsistencies and Vulnerabilities

## Abstract 背景:目前对cross-framework conversion中的inconsistencies和security bugs的研究少有 本文:TensorScope Task: test cross-frame APIs in Machine Learning Librar ......

Learn Git in 30 days——第 11 天:认识 Git 物件的一般参照与符号参照

写的非常好的一个Git系列文章,强烈推荐 原文链接:https://github.com/doggy8088/Learn-Git-in-30-days/tree/master/zh-cn 在认识了 Git 物件的「绝对名称」后,接下来就要介绍 Git 版控过程中最常用到的「参照名称」。 认识物件的参 ......
Proj CDeepFuzz Paper Reading: DeepGauge: multi-granularity testing criteria for deep learning systems

## Abstract 本文: DeepGauge Task: provide multi-granularity testing criteria for DL systems Method: multi-granularity testing criteria for DL systems: 1 ......

[论文阅读] Prototypical contrastive learning of unsupervis

# Prototypical contrastive learning of unsupervised representations ## abstract 这篇论文介绍了原型对比学习(PCL),一种将对比学习与聚类相结合的无监督表示学习方法。PCL不仅为实例区分任务学习低层特征,更重要的是==* ......

Proj CDeepFuzz Paper Reading: Combinatorial Testing for Deep Learning Systems

## Abstract 本文:DeepCT Task: Testing DL Models with Combinatorial Testing Method: 1. 将输出值的空间离散化为区间,以便覆盖每个区间,对不同层内的神经元交互进⾏采样,并减少必须执⾏的测试输⼊的数量。 2. a set o ......

机器学习 -> Machine Learning (III)

> 来做一些入门题吧. 以下大多是 kaggle 环境. **Q1 Titanic** https://www.kaggle.com/competitions/titanic import ``` # This Python 3 environment comes with many helpful ......
Meta-Learning, A Survey

## 一、概述 通常在机器学习里,我们需要用大量的数据来训练一个模型;当场景发生改变时,模型就需要重新训练。这显然提升了成本,而人类学习方式与此不同,一个小孩子在学习动物的过程中,学习了很多动物的名称,当某次给他看一些没有见过的动物时,他总能很快的将新动物和别的动物区分开。Meta learning ......
aarch64/arm_v8 环境下编译Arcade-Learning-Environment —— ale-py

conda install g++=12 cmake ../ -DCMAKE_BUILD_TYPE=Release -DPYTHON_INCLUDE_DIR=/home/share/xxx/home/software/anaconda3/include -DPYTHON_LIBRARY=/home/ ......


VGGNet和GoogLeNet等网络都表明有足够的深度是模型表现良好的前提,但是在网络深度增加到一定程度时,更深的网络意味着更高的训练误差。误差升高的原因是网络越深,梯度弥散[还有梯度爆炸的可能性]的现象就越明显,所以在后向传播的时候,无法有效的把梯度更新到前面的网络层,靠前的网络层参数无法更新, ......
一.多层前馈神经网络 首先说下多层前馈神经网络,BP算法,BP神经网络之间的关系。多层前馈[multilayer feed-forward]神经网络由一个输入层、一个或多个隐藏层和一个输出层组成,后向传播(BP)算法在多层前馈神经网络上面进行学习,采用BP算法的(多层)前馈神经网络被称为BP神经网络 ......
论文解读(SPGJL)《Soft Prompt Guided Joint Learning for Cross-Domain Sentiment Analysis》

Note:[ wechat:Y466551 | 可加勿骚扰,付费咨询 ] 论文信息 论文标题:Soft Prompt Guided Joint Learning for Cross-Domain Sentiment Analysis论文作者:Jingli Shi、Weihua Li、Quan Bai ......

Q-learning and RL implementation

Aim: Train a model to properly play vintage video games... Deep Q-learning Algo~ Very short Brief of Notations: {A,pi(Policy),Q(quality of action-at a ......
Learn Git in 30 days——第 10 天:认识 Git 物件的绝对名称

写的非常好的一个Git系列文章,强烈推荐 原文链接:https://github.com/doggy8088/Learn-Git-in-30-days/tree/master/zh-cn 在 Git 版本控制的过程,每一个版本就代表一个 commit 物件。又因为版控过程中经常会建立分支,最终产出的 ......
Proj CDeepFuzz Paper Reading: ACETest: Automated Constraint Extraction for Testing Deep Learning Operators

## Abstract Github: https://github.com/shijy16/ACETest 背景: 1. DL operators 用来计算多维tensors,很重要 本文:ACETest Task: automatically extract input validation c ......


虽然我是个学Java的,但是今天看到人工智能的图像识别系统,不得不让我感到震惊与好奇,我学编程有两大爱好,一就是搞出个自己的大的系统,二就是研究AI,但是两者不能并肩,不然学的东西太多了。但是作为了解我推荐下下面的关于图像分析类的论文阅读:[论文阅读]When Does Label Smoothin ......
import numpy as npimport h5pyimport matplotlib.pyplot as plt from testCases import *from dnn_utils import * %matplotlib inlineplt.rcParams['figure.fig ......
[论文阅读] Momentum contrast for unsupervised visual representation learning

# Momentum contrast for unsupervised visual representation learning ## Introduction 我们提出了动量对比(MoCo)作为一种构建具有对比损失的无监督学习的大型一致字典的方法(图1)。 我们将字典维护为数据样本队列:当前 ......


import numpy as npimport matplotlib.pyplot as plt import sklearn import sklearn.datasetsimport sklearn.linear_model from planar_utils import plot_deci ......
Learn Git in 30 days——第 09 天:比对文件与版本差异

写的非常好的一个Git系列文章,强烈推荐 原文链接:https://github.com/doggy8088/Learn-Git-in-30-days/tree/master/zh-cn 使用任何版本控制软件的过程中,经常会需要查看历史记录与比对版本之间的差异。而在使用 Git 的时候要如何进行比对 ......
论文解读(WDGRL)《Wasserstein Distance Guided Representation Learning for Domain Adaptation》

Note:[ wechat:Y466551 | 可加勿骚扰,付费咨询 ] 论文信息 论文标题:Wasserstein Distance Guided Representation Learning for Domain Adaptation论文作者:Jian Shen、Yanru Qu、Weinan ......

【五期邹昱夫】CCF-A(TIFS'23)SAFELearning: Secure Aggregation in Federated Learning with Backdoor Detectability

> "Zhang, Zhuosheng, et al. "SAFELearning: Secure Aggregation in Federated Learning with Backdoor Detectability." IEEE Transactions on Information For ......


> 本文深入探讨了前馈神经网络(FNN)的核心原理、结构、训练方法和先进变体。通过Python和PyTorch的实战演示,揭示了FNN的多样化应用。 > 作者TechLead,拥有10+年互联网服务架构、AI产品研发经验、团队管理经验,同济本复旦硕,复旦机器人智能实验室成员,阿里云认证的资深架构师, ......

Learning Auxiliary Monocular Contexts Helps Monocular 3D Object Detection (2)

Feature backbone采用DLA,输入维度为3×H×W的RGB图,得到维度D×h×w的特征图F,然后将特征图送入几个轻量级regression heads,2D bouding boxes的中心特征图用下面的模块得到: 其中AN是Attentive Normalization.用公式表示: ......

【五期邹昱夫】CCF-A(SP'23)3DFed: Adaptive and Extensible Framework for Covert Backdoor Attack in Federated Learning

> "Li, Haoyang, et al. "3DFed: Adaptive and Extensible Framework for Covert Backdoor Attack in Federated Learning." 2023 IEEE Symposium on Security an ......