美团大模型机器学习岗内推

news/2025/2/27 5:27:37

1.面向GPU和高性能网络设计分布式训练架构,通过样本IO优化、计算图编译与执行、多维度并行优化等手段,支持千亿及万亿以上参数模型在上万张GPU集群高效稳定训练

2.通过量化、剪枝、蒸馏等模型压缩方法,在保证精度要求的情况下,实现不同参数规模的模型推理性能优化,构建高性能推理服务

3.通过手工优化方法,对特化模型子结构和硬件设备上实现SOTA性能,面向多种硬件架构实现高性能算子。

熟悉TensorFlow/PyTorch等深度框架代码的优先;

熟悉TVM/MLIR等编译优化技术的优先;

熟悉GPU、NPU硬件架构,熟练使用CUDA,NCCL,RDMA编程的优先;

有分布式系统、高性能计算实际项目经验的优先;

【网申通道】campus.meituan.com 

内推码:AGLPFN4


http://www.niftyadmin.cn/n/5869510.html

相关文章

【paddle】详解 padde.autograd.backward

目录 backward二次函数案例paddle 代码pytorch 代码 backward paddle.autograd.backward(tensors, grad_tensorsNone, retain_graphFalse)[源代码] 参数 tensors (list[Tensor]) – 将要计算梯度的 Tensors 列表。Tensors 中不能包含有相同的 Tensor。grad_tensors (None|list…

8. 【.NET 8 实战--孢子记账--从单体到微服务--转向微服务】--微服务基础工具与技术--Ocelot 网关--负载均衡

负载均衡在Ocelot中作为API网关的核心功能,通过智能调度流量保障微服务架构的高效与稳定。Ocelot内置多种算法动态分配请求,例如轮询策略按顺序分发流量,最小连接数策略优先选择负载较低的实例,而基于Cookie的会话粘滞策略则能维持…

组件动态注册、布局引擎、Schema驱动渲染的可视化搭建系统架构设计之参考方案

组件动态注册、布局引擎、Schema驱动渲染的可视化搭建系统架构设计之参考方案 可视化搭建系统架构设计:如何实现组件动态注册、布局引擎、Schema驱动渲染? 以下为完整的系统架构设计方案,分为核心模块设计、关键技术实现、工程化保障三部分,覆盖动态注册、布局引擎、Sche…

对话式AI引擎:DeepSeek技术引领多模态交互新篇章

摘要 DeepSeek技术公司推出了一项创新服务——“对话式AI引擎”,仅需两行代码即可激活任意大型AI模型的语音对话功能。这项技术使得文本型AI模型迅速转变为具备实时语音对话能力的多模态交互模型,解决了大型AI模型在语音交互方面的不足,为AI行…

Nginx面试宝典【刷题系列】

文章目录 1、nginx是如何实现高并发的?2、Nginx如何处理HTTP请求?3、使用“反向代理服务器”的优点是什么?4、列举Nginx服务器的最佳用途。5、Nginx服务器上的Master和Worker进程分别是什么?6、什么是C10K问题?7、请陈述stub_status和sub_filter指令的…

从同步到异步:Vue 3 的异步更新策略与 `tick` 机制

1. 引言:Vue 3 的异步更新,我们真的了解吗? 在日常开发中,我们都知道 Vue 3 是异步更新的。大多数时候,我们只是简单地使用 ref、reactive、computed 等 API,享受着 Vue 的响应式系统带来的便利。然而&…

【实战 ES】实战 Elasticsearch:快速上手与深度实践-1.1.2典型应用场景:日志分析、实时搜索、推荐系统

👉 点击关注不迷路 👉 点击关注不迷路 👉 点击关注不迷路 文章大纲 为什么选择Elasticsearch?——典型应用场景深度解析1. 引言2. 日志分析:海量数据的实时洞察2.1 行业痛点2.2 ES解决方案关键技术实现: 2.…

Linux中的UDP编程接口基本使用

UDP编程接口基本使用 本篇介绍 在前面网络基础部分已经介绍了网络的基本工作模式,有了这些理论基础之后,下面先从UDP编程开始从操作部分深入网络 在本篇中,主要考虑下面的内容: 创建并封装服务端:了解创建服务端的…