Comments (9)
有返回为NA的值 ,这个是符合预期的。 nvidia-smi --format=csv 看看输出(根据你的配置 选择是否添加 --query-gpu 参数)
from categraf.
今天查看所有监控项都恢复了,没有人做任何变更在昨天18:30左右所有同时恢复。
执行nvidia-smi --format=csv之后提示命令不对
from categraf.
为什么恢复 你要自己排查下了,是不是再18:30 ,nvidia-smi 有输出了。
from categraf.
如果在那个时间恢复的话不会这么巧所有机器都会同时有输出吧,显卡没有统一管控
from categraf.
显卡没有统一管控
之前空跑,然后批量计算任务? categraf的插件就是调用了nvidia-smi命令,然后从命令提取 数值 ,上报成指标。没有符合条件的数值,categraf也很无奈呀,要是debug模式显示的数值都正常,但是上报有问题,那可以怀疑categraf了。
from categraf.
但是nvidia-smi命令在事故期间一直也都是有输出的,数值也都有,就是一直上报不上去没有向时序数据库输送数据
from categraf.
看第一张截图,都是NA ,转换不了 ,所以不上报。如果有能转换得了的,--debug 会把指标和值都输出。目前你给的信息支持不了你的结论,这个agent是开源的,每次release都有changelog,实在不放心,你可以再对比下。
from categraf.
那现在总结下来,判断是nvidia-smi命令出了问题导致那段时间agent拿不到GPU的一些值?
from categraf.
对,看你截图.
--debug 会吧采集到的指标打印出来,并上报给server
--test 模式,会把采集的指标打印出来,不上报
后续遇到类似问题,可以多找几台机器验证,然后按照模板提交issue,开启即时查询的自动补全,输入nvdia 截图
from categraf.
Related Issues (20)
- 采集OS指标的含义哪里由说明吗 HOT 1
- 添加snmp插件添加不存在的ip采集(ping不通,或ping通采集失败),将导致整个agents目标采集失败从而无数据 HOT 18
- metrics_agent.go:240: E! input: local.dcgm not supported HOT 4
- metrics_agent.go:240: E! input: local.dcgm not supported HOT 3
- categraf v0.3.66 自定义配置文件hostname字段值,启动categraf后主机内存跑满,降级到在用的v0.3.43正常 HOT 8
- Categraf v0.3.62有没有限制自身资源的方法?避免因为Categraf占用资源过高,影响了其他服务 HOT 2
- 修改 hostname 引发 categraf 内存泄露 HOT 3
- http拉取配置时如何动态传入当前机器ip HOT 1
- 能否提供参数在恢复告警时,获取恢复时的告警数值 HOT 1
- 如何采集字符串类型的数据 HOT 8
- 请问下如何监测springboot应用指标(我看到夜莺上面有springboot仪表台) HOT 3
- ping采集模块可以修改target显示么 HOT 2
- dcgm 是不是还不支持 ./categraf --test --inputs dcgm HOT 6
- input.aliyun agent._hostname标签主机名有“.”的情况被忽略了,不显示"." HOT 7
- 对于docker里运行的服务能和supervisord实现一样的监控效果吗? HOT 3
- 使用categraf监控rockmq无法生效 HOT 1
- 关于categraf插件中的涉及的一些密码安全性 HOT 1
- input.procstat 配置多个,查询出的只有最后一个有结果,前几条都没有 HOT 2
- Please consider adding etcd support HOT 1
- input.promethus插件能替换指标前缀吗? HOT 1
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from categraf.