k8s gpu k8 8s

记录一次K8s pod被杀的排查过程

问题描述 今天下午运维反馈说我们这一个pod一天重启了8次,需要排查下原因。一看Kiban日志,jvm没有抛出过任何错误,服务就直接重启了。显然是进程被直接杀了,初步判断是pod达到内存上限被K8s oomkill了。 因为我们xmx和xsx设置的都是3G,而pod的内存上限设置的是6G,所以出现这 ......
过程 K8s pod K8 8s

为什么在使用onnxruntime-gpu下却没有成功调用GPU?

20240105,记。 最近在使用GPU对onnx模型进行加速过程中(仅针对N卡,毕竟也没有别的显卡了。。),遇到了点问题:就是明明在安装了合适版本的显卡驱动和CUDA后,onnx还是不能够成功调用GPU,并且还出现了先导入torch,再导入onnxruntime就可以成功调用的奇怪现象。 测试机器 ......
onnxruntime-gpu onnxruntime gpu GPU

AI_GPU-硬件-驱动-cuda

硬件 GeForce 系列 是英伟达主打的消费级GPU产品线 Quadro 系列 是英伟达专业级GPU产品线,针对商业和专业应用领域进行了优化 NVIDIA Quadro P1000显卡 Jetson 系列 是面向边缘计算和人工智能应用的嵌入式开发平台,具备强大的计算和推理能力: Jetson Or ......
硬件 AI_GPU cuda GPU AI

Ubuntu 22.04 部署 ceph quincy 集群和 K8S 1.24.1对接

环境 IP 主机名 172.16.16.77 test1 172.16.16.78 test2 172.16.16.79 test3 ceph版本:quincy 主机系统:ubuntu 22.04 安装集成软件 3台机器上都要执行 vi /etc/hosts # 最后添加 172.16.16.77 ......
集群 Ubuntu quincy 22.04 ceph

k8s从Pod容器中copy文件至本地

[root@k8s-master ~]# kubectl get po NAME READY STATUS RESTARTS AGE data-java-9bbf8c957-jp5dl 0/1 CrashLoopBackOff 9745 (4m28s ago) 34d data-java-bc8f6 ......
容器 文件 copy k8s Pod

k8s~动态生成pvc和pv

有时,我们不想手动建立pv和pvc,这时,我们可以通过strongClass存储类来帮我们实现,动态建立pvc,并动态为它分配pv存储空间,我们以nfs为例,说一下动态分配在nfs存储截至上建立pv的方式。 本文导读 StorageClass和PVC及PV 集群权限与绑定rbac.yaml 建立动态 ......
动态 k8s pvc k8 8s

k8s的云原生应用部署-mysql和wordpress

在已经建立有k8s集群的前提下,使用deploy,部署一个单独pod的单点mysql,部署一个4pod的wordpress应用。 应用的数据库使用mysql,mysql和应用都做集群外服务暴露。 通过该应用部署的练习,了解中等难度应用程序如何做云原生状态下的部署,并掌握以下k8s资源-APIServ... ......
wordpress mysql k8s k8 8s

CCS2023--从0到1打造k8s威胁检测可信纵深体系

本议题公开发布于CCS-2023成都网络安全大会 云安全论坛。 ......
纵深 可信 体系 2023 CCS

STM8S001一直进外部中断

https://blog.csdn.net/qq_39280679/article/details/101753082?spm=1001.2101.3001.6650.1&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EC ......
S001 STM8 STM 001 8S

k8s+kubeedge+sedna安装全套流程+避坑指南+解决办法

https://blog.csdn.net/MacWx/article/details/130200209?utm_medium=distribute.pc_relevant.none-task-blog-2~default~baidujs_baidulandingword~default-8-13 ......
全套 kubeedge 流程 办法 指南

转载:大模型所需 GPU 内存笔记

转载文章:大模型所需 GPU 内存笔记 引言 在运行大型模型时,不仅需要考虑计算能力,还需要关注所用内存和 GPU 的适配情况。这不仅影响 GPU 推理大型模型的能力,还决定了在训练集群中总可用的 GPU 内存,从而影响能够训练的模型规模。 大模型推理的内存计算只需考虑模型权重即可。 大模型训练的内 ......
模型 内存 笔记 GPU

从应用开发角度认识 K8S

https://developer.aliyun.com/article/778441 云原生应用 我们正经历从单体应用转向分布式微服务架构应用的技术趋势。分布式微服务架构作为越来越多的软件开发设计模式,以领域设计模型来指导业务需求的抽象与封装。对业务的实体抽象还是边界划分,会以微服务架构作为落地点 ......
应用开发 角度 K8S K8 8S

k8s operator开发2 code-gen

mkdir -p $GOPATH/src/inais/inference kubebuilder init --domain inais --repo inference kubebuilder create api --group inference --version v1alpha1 --ki ......
code-gen operator code k8s gen

云原生周刊:2024 扩展 K8s 集群指南 | 2024.1.2

开源项目推荐 Jib Jib 无需 Docker 守护进程,也无需深入掌握 Docker 最佳实践,即可为您的 Java 应用程序构建优化的 Docker 和 OCI 映像。它可作为 Maven 和 Gradle 的插件以及 Java 库使用。 Docketeer Docketeer 提供了一个简单 ......
2024 集群 周刊 指南 K8s

k8s优化

1. 1、内核参数调化 fs.file-max=1000000 # max-file 表示系统级别的能够打开的文件句柄的数量, 一般如果遇到文件句柄达到上限时,会碰到 # "Too many open files"或者Socket/File: Can’t open so many files等错误。 ......
k8s k8 8s

一文带你深入理解K8s-Pod的意义和原理

本文分享自华为云社区《深入理解K8s-Pod的意义和原理》,作者:breakDawn。 在Kubernetes概念中,有以下五种概念: 容器container:镜像管理的最小单位 生产任务Pod:容器组,资源调度最小单位 节点Node:对应集群中的单台机器,是硬件单元的最小单位 集群Cluster: ......
原理 意义 K8s-Pod Pod K8

从资源管理角度认识 K8S

https://developer.aliyun.com/article/778848 简介: 笔者认为应用开发者为了适应云原生趋势,需要掌握必要的K8S基础知识点,详细介绍在《从应用开发角度认识K8S》: https://developer.aliyun.com/article/778441。 作 ......
资源管理 角度 资源 K8S K8

k8s Work Node Notready

k8s work node status NotReady 问题背景: Work Node 节点执行 join后,状态NotReady. kubectl get node NAME STATUS ROLES AGE VERSION k8s-master2 Ready control-plane 2d ......
Notready Work Node k8s k8

K8s攻击案例:Dashboard未授权访问

Dashboard 在配置不当情况下有可能会产生未授权访问的情况,从而有可能进一步造成接管集群。 (1)攻击场景 在deployment中开启enable-skip-login,那么就可以在登录界面点击跳过登录进dashboard。 将默认的Kubernetes-dashboard绑定cluster ......
Dashboard 案例 K8s K8 8s

K8s攻击案例:kube-proxy不安全配置

通过使用kube-proxy暴露未授权访问的服务或组件,可能会形成外部攻击入口点,从而导致集群被入侵。 (1)攻击场景 使用kubectl proxy命令设置API server接收所有主机的请求。 kubectl --insecure-skip-tls-verify proxy --accept- ......
kube-proxy 案例 proxy kube K8s

K8s攻击案例:kubelet未授权访问

kubelet会在集群中每个节点运行,对容器进行生命周期的管理,如果kubelet配置不当,攻击者可创建恶意Pod尝试逃逸到宿主机。 (1)攻击场景 anonymous默认为false,修改为true,并将mode从Webhook修改为AlwaysAllow。 vi /var/lib/kubelet ......
案例 kubelet K8s K8 8s

K8s攻击案例:etcd 未授权访问

etcd 用于存储K8s集群中的所有配置数据和状态信息,如果管理员配置不当,导致etcd未授权访问的情况,那么攻击者就可以从etcd中获取secrets&token等关键信息,进而通过kubectl创建恶意pod从而接管集群。 (1)攻击场景 将client-cert-auth=true 改为fal ......
案例 etcd K8s K8 8s

K8s攻击案例: API Server未授权访问

API Server 是集群的管理入口,任何资源请求或调用都是通过kube-apiserver提供的接口进行。默认情况下,API Server提供两个端口服务,8080和6443,配置不当将出现未授权访问。 8080端口,默认不启动,无需认证和授权检查,一旦暴露将导致未授权访问。 6443端口,默认 ......
案例 Server K8s API K8

构建 dotnet&vue 应用镜像->推送到 Nexus 仓库->部署为 k8s 服务实践

前面分享了 k8s 的部署安装,本篇来点实操,将会把一个 .net core + vue 的项目(zhontai),打包构建成 docker 镜像,推送到 nexus 镜像仓库,并部署到 k8s 中 ......
仓库 镜像 dotnet Nexus gt

Kubernetes(k8s)的基础概念

https://blog.csdn.net/sukapulai/article/details/125706698?spm=1001.2101.3001.6650.1&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlo ......
Kubernetes 概念 基础 k8s 8s

day25 如何做个“有价值”的日志分析平台-多种日志收集方案-基于K8S架构的EFK日志平台部署管理 (9.1-9.3)

9.1、如何做个“有价值”的日志分析平台 基于Kubernetes这种架构的日志收集方案是一个复杂而全面的过程。需要考虑不同应用类型的日志规范,日志输出方式,应用场景,日志平台选择,架构优缺点,日志监控和性能优化等其他特殊的场景。在下面的详细分析中,将逐层讨论这些方面。 一、日志规范 在K8S 架构 ......
日志 平台 架构 多种 价值

国产深度学习框架吸引用户的一种免费手段——免费GPU时长

国产的深度学习框架基本成为了一个头部公司的标配了,不论是阿里、百度还是华为都推出了自己的深度学习框架,这几家公司为了吸引用户也都采取了免费使用GPU的活动,但是与阿里、百度的不同,华为是与固定的高校的实验室合作,为合作的大学实验室提供免费算力,并且这个算力的使用时限目前应该是没有限制的;而与华为不同 ......
时长 框架 深度 手段 国产

【云原生 | Kubernetes 系列】—K8S部署RocketMQ集群(双主双从+同步模式)

【云原生 | Kubernetes 系列】—K8S部署RocketMQ集群(双主双从+同步模式) 版权 本文为云录原创文章,转载无需和我联系,但请注明来自云录 https://www.yunzhuan.site rocketMQ高可用有很多种方式,比如:单机部署,多主集群,双主双从同步部署,双主双从 ......
集群 Kubernetes RocketMQ 模式 K8S

GPU服务器常见问题汇总

Q1、从启动盘安装时黑屏/屏幕卡住? Q2、1T固态硬盘Ubuntu系统磁盘分区策略: Q3、安装Ubuntu需要选择更新吗? Q4、安装Ubuntu后重启无法开机? Q5、首次开机的配置代码? Q6、CUDA及cuDNN安装指南: A6、安装步骤如下: Q7、Anaconda安装教程: A7、安装... ......
常见问题 常见 服务器 问题 GPU

在k8s中快速搭建基于Prometheus监控系统

公众号「架构成长指南」,专注于生产实践、云原生、分布式系统、大数据技术分享 前言 K8s本身不包含内置的监控工具,所以市场上有不少这样监控工具来填补这一空白,但是没有一个监控工具有prometheus全家桶使用率高,因为它由 CNCF维护,已经成为了监控 k8s 集群的事实上的行业标准,下面介绍一下 ......
监控系统 Prometheus 系统 k8s k8
共4000篇  :3/134页 首页上一页3下一页尾页