清程极智科技有限公司是专业的人工智能系统服务商,始终以 “提供多快好省的AI系统解决方案” 为核心目标,致力于通过高效、易用的智能算力系统软件,提升算力使用效率、降低大模型落地成本,为国产算力赋能,助力人工智能产业发展。公司核心团队源自清华大学计算机系,凭借在算力系统优化领域十余年的经验积累及产品力创新力,已和多个智算超算中心、AI 芯片厂商及 AI 应用方达成深度商业合作。
清程极智在支持国产智能算力的系统软件方面具备多项核心能力,掌握并行系统、计算框架、通信库、算子库、AI 编译器、编程语言、调度系统、存储系统、内存管理、容错系统等 10 个关键基础软件的核心技术,其中过半数具备完整的自主研发能力,解决方案满足大模型部署的全栈技术要求。其智能算力系统软件为大模型提供端到端的训练和推理性能优化服务,已帮助数款大模型实现了在多款国产芯片上的快速预训练和高性能推理优化,更是国内少数具备万卡集群训练优化经验的团队,通过软硬协同优化践行 “多快好省” 的算力服务承诺。
其中,「八卦炉—大模型并行训练系统」,构建了覆盖 “编译 - 算子 - 并行 - 量化 - 调度” 的全栈智能软件栈,通过四大核心层实现国产算力效能最大化,成为 “多快好省” 中 “多” 与 “快” 的核心支撑:在编译层,自主研发 ElmNet、PET、Intelligen 等 AI 编译器优化代码执行性能;在算子层,打造 SmartMoE、FastMoE 等并行加速工具提升计算效率;在并行层,通过多维度负载均衡技术突破集群扩展瓶颈;在量化层,提出MixQ、Romeo和QFactory等混合精度量化工具,在调度层,实现硬件资源与训练任务的动态适配,八卦炉多次在国内大模型实践中展现强大实力。针对裸金属集群、K8s集群到多云环境部署训练平台的需要,清程极智开发了支持基于高可用容器、GPU虚拟化的算力资源编排层、支持自动伸缩、自研工作流的分布式计算层,支持推理、训练、微调、模型量化、对齐服务发布的Bagualu智能计算软件栈,集成了上述八卦炉组件完成端到端模型服务计算。
面对国内推理算力需求暴涨、推理成本高居不下、且国产大模型与芯片在推理环节长期依赖国外推理引擎的行业痛点,清程极智联合清华大学团队向市场推出并开源「生产级大模型推理引擎—赤兔」,以技术突破诠释 “好” 与 “省” 的核心价值,被誉为 “国产算力部署大模型的必备神器”。赤兔打破了以往大模型部署时与国外高端芯片绑定现状,其中,赤兔采用了软浮点数转换,可在昇腾、沐曦、海光、摩尔、英伟达等国内外主流设备上实现 FP8/FP4 量化推理。使用 FP8 量化推理时,可减少 50% 算力门槛;用 FP4 量化推理时,算力门槛更是可以减少 75%,极大降低了 DeepSeek 等模型的部署成本。无论是企业机构的大规模私有化部署,还是个人开发者的轻量化应用开发,均可借助赤兔实现降本增效:既显著提升大模型运行效率,又大幅降低推理硬件投入与运维成本,同时优化终端用户的交互响应体验。目前,赤兔已实现多硬件形态兼容,可稳定支持 DeepSeek、GLM、Qwen、Kimi 等不同类型,0.6B 到 1T 不同参数量的大语言及多模态大模型,并通过与多家服务器厂商、云厂商深度合作,推出涵盖桌面工作站、一体机服务器、服务器集群在内的多样化推理软硬件一体化解决方案,满足不同场景下的灵活部署需求。
针对开发者面临的模型和服务商选择难、API 碎片化、调用成本高的痛点,清程极智推出「一站式大模型服务评测与 API 调用平台—AI Ping」,从应用层强化 “多快好省” 的服务体验,堪称大模型 API 服务的 “点评网站” 与 “智能路由器”。其核心优势精准呼应四大维度:一是 “多” ,全量模型聚合,通过统一 OpenAI 兼容格式接口接入 30 + 主流供应商的 500 + 细分模型,开发者一次集成即可实现全网调用;二是 “快” ,智能路由引擎以毫秒级速度监控并匹配最优服务商;三是 “好” ,联合清华团队与中国软件评测中心构建客观评测体系,7×24 小时生成可验证的选型参考;四是 “省” ,动态匹配成本最优方案,平均节省 50% 以上调用费用。AI Ping 已成为开发者高效开发的得力工具。
清程极智致力于通过系统软件创新,完善国产芯片的软件生态,消除底层算力差异,持续向人工智能行业贡献算力充沛、功能完备、性能极致的人工智能系统解决方案,以 “多快好省” 的核心优势助力人工智能基础设施建设,促进人工智能行业的全面发展。