本文总结了Cilium项目在保障CI/CD(持续集成/持续部署)流水线安全方面的实践经验与教训。内容涵盖如何保护供应链安全、防范恶意提交、管理凭证与访问权限等关键议题,为开源社区提供了务实可行的安全加固指南。
#kubernetes
30 条相关内容
Burn 是一个开源实验项目,专注于探索使用 FOCUS(FinOps Open Cost and Usage Specification)和 CUR(Cost and Usage Reports)标准来进行 Kubernetes 账单对账。该项目旨在实现云成本与容器工作负载的成本归因与对账,帮助团队更精确地理解和优化 K8s 环境中的费用分配。
Nvidia Dynamo Snapshot 是一项专为 Kubernetes 环境设计的技术,旨在显著加速推理工作负载的启动过程。通过利用快照机制,该方案能够减少模型加载和初始化时间,从而提升整体部署效率和服务响应速度,适用于需要快速弹性伸缩的 AI 推理场景。
nxs-universal-chart 是一个开源 Helm Chart,用于将应用部署到 Kubernetes/OpenShift。你只需在单个 values.yaml 文件中定义配置,Chart 会自动渲染其余内容,无需为每个微服务维护大量 YAML 文件。新版本新增了 11 个 OCI 子图表、MCP 服务器(用于 values.yaml 生成和 Helm Chart 验证)、支持投射卷和 ServiceAccount imagePullSecrets,并改进了模板渲染的健壮性与效率。
Nvidia Dynamo 快照是一项针对 Kubernetes 环境的新技术,可大幅加速 AI 推理工作负载的启动时间。通过预先捕获和存储推理容器的内存状态,该方案能够在启动时快速恢复,避免模型加载和初始化带来的延迟,从而提升整体部署效率和资源利用率。
本文探讨了 AI Agent 在安全与合规方面存在的"问责缺口"问题。尽管传统的网络策略、API 网关和基于角色的访问控制(RBAC)在管理常规工作负载时行之有效,但它们不足以应对 AI Agent 的动态行为、自主决策和复杂调用链。文章指出,企业需要新的可观察性、审计和策略执行机制,才能确保 AI Agent 的可问责性,弥补现有安全架构的不足。
helm-tree 是一款 Helm 插件,用于以树状结构展示 Helm Release 的资源配置清单。它能够帮助开发者更直观地查看和管理 Kubernetes 资源,提升运维效率。适用于需要快速了解 Release 资源依赖关系的场景。
本文对欧盟地区主要的托管Kubernetes服务进行全面对比分析,涵盖AWS EKS、Azure AKS、Google GKE以及多家欧洲本土云服务商的Kubernetes方案。文章从定价模型、节点管理、集群自动化、合规性支持等维度进行详细比较,帮助企业在欧盟数据主权和GDPR合规要求下选择最适合的Kubernetes托管方案。
本文作者以亲身实践为基础,分享了在真实生产环境中使用Kubernetes时遇到的挑战与教训。文章涵盖了集群部署、资源管理、监控告警及故障排查等关键主题,旨在帮助开发者避免常见的陷阱,更高效地驾驭Kubernetes。
本文探讨在后 LLM 时代,YAML 及其他用于工作流/流程配置的声明式 DSL 是否还有存在的必要。作者以 Kubernetes 为例指出,大量 YAML 配置原本是为了人类可读性而设计,但在大语言模型出现后,或许直接用自然语言描述部署需求(如“暴露这个服务,10个Pod,仅允许内部路由”),再由 LLM 生成几行 Python 代码(Pulumi、AWS CDK 等)来替代动辄上百行的多个 YAML 文件,会是更高效的方式。
Burn 是一款开源的 Kubernetes 成本管理命令行工具,能够根据实际竞价实例价格(Spot Price)按类型拉取并展示各实例的费用数据,帮助用户更精确地掌握云原生环境的资源开支。通过接入实时竞价市场信息,Burn 弥补了传统成本估算工具依赖固定定价的不足,为 K8s 运维和 FinOps 团队提供更贴合实际账单的可见性。
IronCore 是一个专注于云原生基础设施管理的开源项目,旨在提供高效、可扩展的解决方案,帮助企业在云环境中更好地管理和编排基础设施资源,提升运维效率与系统可靠性。
This site offers interactive animated walkthroughs that explain Kubernetes internals in a visual and engaging way. It helps users understand complex concepts like pods, services, and cluster operations through step-by-step animations and interactive elements, making learning Kubernetes more accessible.
本文深入探讨了 Kubernetes 的核心内部机制,涵盖控制平面组件(如 API Server、Scheduler、Controller Manager)以及工作节点组件(如 Kubelet、Kube Proxy)的工作原理。文章通过详细的原理解析与架构图,帮助读者理解 Pod 调度、服务发现、网络通信等关键流程,是学习 Kubernetes 底层设计的优质参考资料。
本文介绍了如何结合 Slurm 和 Kubernetes 来高效管理大规模 GPU 工作负载。通过将 Slurm 作为 Kubernetes 上的工作负载调度器,用户可以利用 Kubernetes 的弹性编排能力,同时保留 Slurm 在 HPC 作业调度中的成熟特性。文章详细阐述了架构设计、部署步骤以及最佳实践,帮助团队在混合环境中最大化 GPU 资源利用率。
本文以坦诚且带有主观色彩的方式,对比了两种流行的 Kubernetes 上 PostgreSQL 运维方案:CloudNativePG 和 Crunchy PGO。作者从架构设计、运维体验、社区活跃度等角度分析了各自的优劣势,旨在帮助读者根据实际需求做出更明智的选择。
LLMKube 是一个Kubernetes算子,旨在帮助用户跨Nvidia GPU和Mac设备集群高效部署和管理本地大型语言模型。通过将LLM资源抽象为Kubernetes原生对象,它简化了异构硬件环境下的模型编排与调度,让开发者能够像管理普通微服务一样管理本地AI推理任务。
本文作者以亲身实践视角,深入探讨了在生产环境中使用Kubernetes所遇到的各类挑战与痛点,包括配置管理、网络调试、资源调度、故障排查等实际操作中的棘手问题,并分享了在"愤怒"(即面对现实困难)中学习到的经验教训和实用解决方案。
Kure 是一个开源的 Kubernetes Pod 故障监控工具,集成了大语言模型(LLM)辅助诊断功能。它能够自动检测 Pod 运行异常,并通过 LLM 分析日志与事件,帮助运维人员快速定位故障根因,提升 Kubernetes 集群的故障排查效率。
本文以实战视角,探讨了 Kubernetes 在复杂生产环境中的部署与管理挑战。作者分享了在“愤怒”状态下——即面对棘手故障和运维压力时——如何合理配置集群、优化资源调度,并避免常见陷阱。文章旨在帮助工程师在高压场景下更冷静、更高效地驾驭 Kubernetes。
GoKubeDownscaler 是一款 Kubernetes 成本优化工具,可在非工作时间自动缩减集群资源,帮助企业节省高达70%的云支出。通过灵活配置时间策略和命名空间规则,它能在开发、测试等非生产环境中实现智能化资源管理,而无需手动干预。该项目在 Hacker News 上展示了其开源实现。
本文介绍了mirrord AI如何解决Kubernetes环境中代理开发时的“繁琐盲点”问题。通过自动化环境配置和流量管理,开发者无需手动处理复杂的Kubernetes设置,从而更专注于核心业务逻辑的开发。该方案显著降低了在云原生环境中进行代理式开发的认知负担和操作复杂度。
我是 Zach,Platform Engineering Labs 的联合创始人兼 CTO。我们正在构建 Formae,一个开源的基础设施即代码(IaC)系统,它能与真实基础设施保持同步,无需依赖手动维护的状态和漂移检测。最新版本新增了对 Kubernetes、Helm 和 Terraform .tfvars 文件的支持。Formae 可以自动发现现有的 K8s 工作负载,并支持利用已有的 Helm Chart。同时,新推出的公共插件中心现已托管官方插件,未来也欢迎社区贡献。欢迎来自平台工程、DevOps 或 SRE 领域的从业者提供反馈。
Agyn 是一个开源的 Kubernetes 运行时,专为 AI 智能体(AI Agent)设计。它利用 Kubernetes 的编排能力来管理、部署和扩展 AI 智能体,为开发者提供一种高效、可扩展的方式来运行和协调基于容器化的智能体工作负载。
KubeAstra 是一个开源的 Kubernetes 集群管理工具,旨在超越传统的 kubectl describe pod 等基础命令,提供更全面、直观的集群可视化与诊断能力。该项目帮助运维与开发人员快速洞察 Pod、节点、服务等资源的状态,减少排障时间,提升集群管理效率。
External Secrets Operator 是一个 Kubernetes 运算符,用于将外部密钥管理系统(如 AWS Secrets Manager、Google Secret Manager、Azure Key Vault 等)中的密钥自动同步到 Kubernetes 集群中的 Secret 资源中。它实现了声明式配置,让用户可以安全地管理敏感信息,而无需将明文凭据存储于版本控制系统或直接暴露在集群清单中。
Crossview 4.4.0 版本现已发布,用户可通过 GitHub 上的 crossplane-contrib/crossview 项目获取。该版本可能包含新功能、性能改进或问题修复,建议用户升级体验。
本文深入分析了Kubernetes环境中一种名为CopyFail的容器逃逸攻击技术,展示了攻击者如何利用kubectl cp命令的漏洞,从Pod内部突破容器隔离,将恶意文件复制到宿主机文件系统,最终实现宿主机权限控制。文章详细阐述了攻击原理、复现步骤以及相应的防御措施。
本文探讨了在最小化操作系统(如Talos Linux)中,Kubernetes节点如何继承其本不应当面对的“复制故障”(Copy Fail)问题。文章分析了问题根源,指出尽管操作系统本身极为精简,但节点仍可能因配置、依赖或集群环境而引入不必要的复杂性和故障。通过实际案例,作者展示了如何识别与解决此类问题,帮助用户在轻量级基础设施中保持节点健康。
Kubernetes 默认的 CoreDNS 配置会允许集群内任意 Pod 解析内网域名,甚至可能泄露服务信息。本文深入分析了这一默认配置的安全风险,并提供了加固建议,帮助用户避免潜在的攻击面。