Pre-Training预训练Llama-3.1 405B超大杯,需要多少算力资源?
10分钟搞清楚为什么Transformer中使用LayerNorm而不是BatchNorm
看懂FlashAttention需要的数学储备是?高考数学最后一道大题
为什么会发展出Multi-Query-Attention和Group-Query-Attention
大模型output-token为什么比input-token贵
如何评判大模型的输出速度?首Token延迟和其余Token延迟有什么不同?
大模型的latency(延迟)和throughput(吞吐量)有什么区别
vLLM使用PagedAttention轻松、快速且廉价地提供LLM服务(中文版翻译)
DevOps,AIOps,MLOps,LLMOps,这些Ops都是什么?
Transformer架构的GPU并行和之前的NLP算法有什么不同?
万字长文Prompt-Engineering-解锁大模型的力量
GraphRAG:解锁大模型对叙述性私人数据的检索能力(中文翻译)
大模型应用涌现出的新工作机会-红队测试Red-teaming
大模型性能评测之大海捞针(Needle In A Haystack)
韩国“N 号房”事件因Deep Fake再现,探究背后的技术和应对方法
用Exploit and Explore解决不知道吃什么的选择困难症