LLMForEverybody

目录

序-AGI之路

⬆ 一键返回目录

大家都在谈的Scaling_Law是什么

智能涌现和AGI的起源

什么是perplexity

Pre-Training预训练Llama-3.1 405B超大杯,需要多少算力资源?

第一章-大模型之Pre-Training

⬆ 一键返回目录

架构

10分钟搞清楚为什么Transformer中使用LayerNorm而不是BatchNorm

混合专家模型MoE详解节选

最简单的方式理解Mamba(中文翻译)

10分钟了解什么是多模态大模型

Optimizer

全网最全的神经网络优化器optimizer总结

神经网络的优化器(一)综述

神经网络的优化器(二)SGD

神经网络的优化器(三)Momentum

神经网络的优化器(四)ASGD

神经网络的优化器(五)Rprop

神经网络的优化器(六)AdaGrad

神经网络的优化器(七)AdaDeleta

神经网络的优化器(八)RMSprop

神经网络的优化器(九)Adam

神经网络的优化器(十)Nadam

神经网络的优化器(十一)AdamW

神经网络的优化器(十二)RAdam

激活函数

为什么大型语言模型都在使用SwiGLU作为激活函数?

Attention机制

看懂FlashAttention需要的数学储备是?高考数学最后一道大题

FlashAttentionv2相比于v1有哪些更新?

为什么会发展出Multi-Query-Attention和Group-Query-Attention

位置编码

什么是大模型的位置编码Position-Encoding

复变函数在大模型位置编码中的应用

最美的数学公式-欧拉公式

从欧拉公式的美到旋转位置编码RoPE

Tokenizer

搞懂大模型的分词器(一)

搞懂大模型的分词器(二)

搞懂大模型的分词器(三)

搞懂大模型的分词器(四)

搞懂大模型的分词器(五)

搞懂大模型的分词器(六)

并行策略

大模型并行策略[中文翻译]

大模型分布式训练并行技术(一)概述

大模型分布式训练并行技术(二)数据并行

大模型分布式训练并行技术(三)流水线并行

大模型分布式训练并行技术(四)张量并行

大模型分布式训练并行技术(五)混合并行

第二章-大模型之部署与推理

⬆ 一键返回目录

10分钟私有化部署大模型到本地

大模型output-token为什么比input-token贵

如何评判大模型的输出速度?首Token延迟和其余Token延迟有什么不同?

大模型的latency(延迟)和throughput(吞吐量)有什么区别

vLLM使用PagedAttention轻松、快速且廉价地提供LLM服务(中文版翻译)

DevOps,AIOps,MLOps,LLMOps,这些Ops都是什么?

第三章-大模型微调

⬆ 一键返回目录

10分钟教你套壳(不是)Llama-3,小白也能上手

大模型的参数高效微调(PEFT),LoRA微调以及其它

第四章-大模型量化

⬆ 一键返回目录

10分钟理解大模型的量化

第五章-显卡与大模型并行

⬆ 一键返回目录

AGI时代人人都可以看懂的显卡知识

Transformer架构的GPU并行和之前的NLP算法有什么不同?

第六章-Prompt-Engineering

⬆ 一键返回目录

过去式就能越狱大模型?一文了解大模型安全攻防战

万字长文Prompt-Engineering-解锁大模型的力量

COT思维链,TOT思维树,GOT思维图,这些都是什么

第七章-Agent

⬆ 一键返回目录

开发大模型or使用大模型

Agent设计范式与常见框架

langchain向左coze向右

RAG

向量数据库拥抱大模型

搭配Knowledge-Graph的RAG架构

GraphRAG:解锁大模型对叙述性私人数据的检索能力(中文翻译)

干货: 落地企业级RAG的实践指南

第八章-大模型企业落地

⬆ 一键返回目录

CRUD-ETL工程师的末日从NL2SQL到ChatBI

大模型落地难点之幻觉

大模型落地难点之输出的不确定性

大模型落地难点之结构化输出

大模型应用涌现出的新工作机会-红队测试Red-teaming

大模型复读机问题

第九章-大模型评估指标

大模型有哪些评估指标?

大模型性能评测之大海捞针(Needle In A Haystack)

评估指标/大模型性能评测之数星星

第十章-热点

⬆ 一键返回目录

Llama 3.1 405B 为什么这么大?

9.11大于9.9?大模型怎么又翻车了?

韩国“N 号房”事件因Deep Fake再现,探究背后的技术和应对方法

我是怎么通过2022下半年软考高级:系统架构设计师考试的

用Exploit and Explore解决不知道吃什么的选择困难症

Star History

Star History Chart