0% found this document useful (0 votes)

125 views43 pages

Introduction to Language Models

The document introduces language models including BERT, GPT, and T5 which use techniques like masked language modeling, causal language modeling, and text-to-text transfer. It discusses how transformer models use attention and self-attention. The document compares BERT and GPT and explains how pretraining, fine-tuning, prompting, and reinforcement learning from human feedback are used. It raises questions about the advantages and disadvantages of different training methods, the role of systems research in scaling language models, security considerations, and improving energy efficiency.

Uploaded by

Ali Elouafiq

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

125 views43 pages

Introduction to Language Models

Uploaded by

Ali Elouafiq

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 43

Introduction to

Language Models
Eve Fleisig & Kayo Yin
CS 294-162
August 28, 2023
Language Modeling

Image credit: jalammar.github.io/illustrated-word2vec/

Masked Language Modeling
BERT

Image credit: jalammar.github.io/illustrated-bert/

Causal Language Modeling
GPT

Image credit: jalammar.github.io/illustrated-gpt2/

BERT vs. GPT

● Bidirectional encoder models (BERT) do better than generative models at

non-generation tasks, for comparable training data/model complexity.

● Generative models (GPT) have training efficiency and scalability advantages

that may make them ultimately more accurate. They can also solve
downstream tasks in a zero-shot setting.
Transformer

Image credit: jalammar.github.io/illustrated-transformer/

Transformer

Image credit: jalammar.github.io/illustrated-transformer/

Transformer

Image credit: jalammar.github.io/illustrated-transformer/ v

Attention
Self-Attention
Self-Attention

Image credit: jalammar.github.io/illustrated-gpt2/

Self-Attention

Image credit: jalammar.github.io/illustrated-gpt2/

Self-Attention
Self-Attention
Self-Attention
Self-Attention
Multi-headed Attention
Multi-headed Attention
Transformer

Image credit: jalammar.github.io/illustrated-transformer/

Transformer Input
Transformer Encoder

Image credit: jalammar.github.io/illustrated-transformer/

Adding the Decoder

Image credit: jalammar.github.io/illustrated-transformer/

BERT

Image credit: jalammar.github.io/illustrated-bert/

BERT
GPT
GPT
T5

Text-to-Text Transfer Transformer

Pretraining & Fine-tuning
Pretraining & Fine-tuning
Pretraining & Fine-tuning

Unsupervised objective

Supervised objective
Prefixes & Prompting
Few- & Zero-Shot Learning
Few- & Zero-Shot Learning
Few- & Zero-Shot Learning
Few- & Zero-Shot Learning

Generalization to new tasks without fine-tuning enabled by:

Scaling
Data Compute
Scaling Data
Common Crawl dataset: introduced with T5; still in use
GPT-3 Training Data:
Scaling Data & Compute

Kaplan et al., 2020;

Hoffmann et al., 2022
Reinforcement Learning from Human Feedback
Reinforcement Learning from Human Feedback
Reinforcement Learning from Human Feedback
Discussion
● What are the advantages and disadvantages of different training or tuning methods
that have been tried (task-specific training, pretrain/fine-tune, prompting, RLHF)?
● What is the role of systems research in scaling up LLMs? How could advances in
systems research change scaling “laws”?
● What security considerations do we need to consider when deploying LLMs into the
real world?
● How can we improve the energy efficiency and carbon footprint of LLMs?

Deep Learning: Large Language Models
No ratings yet
Deep Learning: Large Language Models
58 pages
Summary - Foundations On LLMs
No ratings yet
Summary - Foundations On LLMs
6 pages
Jason Weston Reasoning Alignment Berkeley Talk
No ratings yet
Jason Weston Reasoning Alignment Berkeley Talk
106 pages
2023 LLMBC Whats Next
No ratings yet
2023 LLMBC Whats Next
95 pages
This 200-Page LLM Guide Will Save You Months - Here's The Gold in 5 Minutes
No ratings yet
This 200-Page LLM Guide Will Save You Months - Here's The Gold in 5 Minutes
22 pages
Foundations of Large Language Models: Tong Xiao and Jingbo Zhu
No ratings yet
Foundations of Large Language Models: Tong Xiao and Jingbo Zhu
277 pages
Introduction To LLMS: Transformers Types of Llms Configuration Settings
100% (2)
Introduction To LLMS: Transformers Types of Llms Configuration Settings
7 pages
W 1 Largelanguagemodelsandchatgptin 3 Weeks 11748368383984
No ratings yet
W 1 Largelanguagemodelsandchatgptin 3 Weeks 11748368383984
134 pages
LLM Learning
No ratings yet
LLM Learning
56 pages
Lecture 15 - Foundation Models - CLIP and GPT
No ratings yet
Lecture 15 - Foundation Models - CLIP and GPT
45 pages
Lab: L - S A C B: Arge Cale Lignment For HAT OTS
No ratings yet
Lab: L - S A C B: Arge Cale Lignment For HAT OTS
10 pages
Week 11 Chats
No ratings yet
Week 11 Chats
5 pages
Training The Application of LLM
No ratings yet
Training The Application of LLM
68 pages
521H0502-521H0498-521h0333 NLP Report
No ratings yet
521H0502-521H0498-521h0333 NLP Report
27 pages
Generative Ai Terminology
75% (4)
Generative Ai Terminology
26 pages
LLM Tutorial for CSC413 Students
100% (1)
LLM Tutorial for CSC413 Students
40 pages
19 20-gpt-3 Prompts
No ratings yet
19 20-gpt-3 Prompts
68 pages
Lecture Notes
No ratings yet
Lecture Notes
86 pages
Fine Tuning Techniques For Large Language Models LLMs
100% (4)
Fine Tuning Techniques For Large Language Models LLMs
15 pages
Huggingface Co Blog Warm Starting Encoder Decoder Data Preprocessing
No ratings yet
Huggingface Co Blog Warm Starting Encoder Decoder Data Preprocessing
20 pages
Foundations of LLM
100% (1)
Foundations of LLM
231 pages
Foundations of Large Language Models 1738142777
No ratings yet
Foundations of Large Language Models 1738142777
101 pages
14 LookingForward
No ratings yet
14 LookingForward
48 pages
LLM - Introduction 2024
No ratings yet
LLM - Introduction 2024
77 pages
LLM Basics
No ratings yet
LLM Basics
35 pages
Language Models Can Exploit Cross-Task In-Context Learning For Data-Scarce Novel Tasks
No ratings yet
Language Models Can Exploit Cross-Task In-Context Learning For Data-Scarce Novel Tasks
20 pages
Transformer Basics
No ratings yet
Transformer Basics
17 pages
Recent Advances in Language Modeling (2022-2025)
No ratings yet
Recent Advances in Language Modeling (2022-2025)
5 pages
LLM Cheat Sheetpdf
No ratings yet
LLM Cheat Sheetpdf
7 pages
LLM Basics for Researchers
No ratings yet
LLM Basics for Researchers
54 pages
Building LLMs - Stanford
No ratings yet
Building LLMs - Stanford
78 pages
Large Language Model
0% (1)
Large Language Model
38 pages
Synthetic Data LLM RL
No ratings yet
Synthetic Data LLM RL
33 pages
465-Lecture 1 (Deep Learning)
No ratings yet
465-Lecture 1 (Deep Learning)
47 pages
Jason Wei Stanford cs330 Talk
No ratings yet
Jason Wei Stanford cs330 Talk
44 pages
LLM Prompting & In-Context Learning
No ratings yet
LLM Prompting & In-Context Learning
18 pages
Synthetic Data RL: Task Definition Is All You Need: Yiduo Guo Zhen Guo Chuanwei Huang Zi-Ang Wang
No ratings yet
Synthetic Data RL: Task Definition Is All You Need: Yiduo Guo Zhen Guo Chuanwei Huang Zi-Ang Wang
34 pages
Toc 9780138199302
No ratings yet
Toc 9780138199302
8 pages
All About Encoder-Decoder Models
No ratings yet
All About Encoder-Decoder Models
50 pages
Intro LLM v1
No ratings yet
Intro LLM v1
72 pages
SSRN 4504303
No ratings yet
SSRN 4504303
8 pages
Advanced Prompt Engineering
No ratings yet
Advanced Prompt Engineering
27 pages
Thinking Machines: A Survey of LLM Based Reasoning Strategies
No ratings yet
Thinking Machines: A Survey of LLM Based Reasoning Strategies
15 pages
ML 22
No ratings yet
ML 22
29 pages
Jacob Devlin BERT
No ratings yet
Jacob Devlin BERT
43 pages
Roisinluo Reasoning in LLMs
No ratings yet
Roisinluo Reasoning in LLMs
72 pages
Inverse Reinforcement Learning Meets Large Language Model Post-Training: Basics, Advances, and Opportunities
No ratings yet
Inverse Reinforcement Learning Meets Large Language Model Post-Training: Basics, Advances, and Opportunities
31 pages
Lec7 - Large Models
No ratings yet
Lec7 - Large Models
33 pages
Synthetic Data Generation in Low-Resource Settings Via Fine-Tuning of Large Language Models
No ratings yet
Synthetic Data Generation in Low-Resource Settings Via Fine-Tuning of Large Language Models
12 pages
Introduction To Large Language Models-2025072419561496
No ratings yet
Introduction To Large Language Models-2025072419561496
16 pages
IAI Sp2025 Session 14 - Introduction To LLMs (Continued)
No ratings yet
IAI Sp2025 Session 14 - Introduction To LLMs (Continued)
34 pages
Prompting in Large Language Models
No ratings yet
Prompting in Large Language Models
66 pages
Slides
No ratings yet
Slides
137 pages
Quick Start Guide To Large Language Models Second Edition Sinan Ozdemir Online PDF
100% (3)
Quick Start Guide To Large Language Models Second Edition Sinan Ozdemir Online PDF
115 pages
To Create A LLM
No ratings yet
To Create A LLM
53 pages
E4. LLM Instruction Tuning
No ratings yet
E4. LLM Instruction Tuning
45 pages
A Comprehensive Review of Low Rank Adaptation in Large Language Models For Efficient Parameter Tuning
No ratings yet
A Comprehensive Review of Low Rank Adaptation in Large Language Models For Efficient Parameter Tuning
11 pages
The Impact of Artificial Intelligence On Modern Education
No ratings yet
The Impact of Artificial Intelligence On Modern Education
2 pages
REPORT Legal Document Summarization Tool
No ratings yet
REPORT Legal Document Summarization Tool
20 pages
DWDM Assignments Fall 24 25
No ratings yet
DWDM Assignments Fall 24 25
4 pages
Introduction To Gen Ai
No ratings yet
Introduction To Gen Ai
13 pages
Aditya Chaurasia Mba 2nd Sem Project Report.2
No ratings yet
Aditya Chaurasia Mba 2nd Sem Project Report.2
46 pages
Ai Potential
No ratings yet
Ai Potential
33 pages
Company Profile RACER 2020v1.1
No ratings yet
Company Profile RACER 2020v1.1
32 pages
Hidden Markov Model HMM
No ratings yet
Hidden Markov Model HMM
11 pages
AI for Efficient Medical Imaging
No ratings yet
AI for Efficient Medical Imaging
6 pages
Software Engineering BSC - Innovation Hub Programme Flyer
No ratings yet
Software Engineering BSC - Innovation Hub Programme Flyer
5 pages
Unit-2 - Advanced Concepts of Modeling in AI - Final (Answer Key)
No ratings yet
Unit-2 - Advanced Concepts of Modeling in AI - Final (Answer Key)
10 pages
2040 Career Guidance Mindscape 40 Leela Gurukulam
No ratings yet
2040 Career Guidance Mindscape 40 Leela Gurukulam
13 pages
Registration For American Tiger LLC Internship Cum PPO Recruitment Drive For 2024 Batch
No ratings yet
Registration For American Tiger LLC Internship Cum PPO Recruitment Drive For 2024 Batch
6 pages
Python Data Science Handbook
No ratings yet
Python Data Science Handbook
2 pages
Evidencia 2 Metodologia de La Investigacion
No ratings yet
Evidencia 2 Metodologia de La Investigacion
22 pages
AI's Business Impact
No ratings yet
AI's Business Impact
13 pages
Answer 2023-24
No ratings yet
Answer 2023-24
19 pages
Big Data Analytics - Unit 3
No ratings yet
Big Data Analytics - Unit 3
55 pages
A Case Study On Prompt Engineering For Job Type Classification
No ratings yet
A Case Study On Prompt Engineering For Job Type Classification
16 pages
Artificial Intelligence Techniques For Enhancing T
No ratings yet
Artificial Intelligence Techniques For Enhancing T
10 pages
Name: Sherjeel Imtiaz ENROLLMENT: 01-235191-031 Section: Bs-It 5A Submitted To: Sir Ali Irfan
No ratings yet
Name: Sherjeel Imtiaz ENROLLMENT: 01-235191-031 Section: Bs-It 5A Submitted To: Sir Ali Irfan
4 pages
Diploma in AI and ML Brochure
No ratings yet
Diploma in AI and ML Brochure
14 pages
Midjourney Beginner's Guide - by ChristieC.
100% (2)
Midjourney Beginner's Guide - by ChristieC.
13 pages
Acca - SBL - Final Mock Dec 24 Qs
No ratings yet
Acca - SBL - Final Mock Dec 24 Qs
8 pages
OBIKE Final Year Project
No ratings yet
OBIKE Final Year Project
49 pages
Introductio 1
No ratings yet
Introductio 1
26 pages
Machine Learning
No ratings yet
Machine Learning
133 pages
1 s2.0 S2666764921000485 Main
No ratings yet
1 s2.0 S2666764921000485 Main
11 pages
NTU Scholarship Essay
No ratings yet
NTU Scholarship Essay
3 pages
Midjourney Prompts - Surreal Dreamy Art
No ratings yet
Midjourney Prompts - Surreal Dreamy Art
9 pages

Introduction to Language Models

Uploaded by

Introduction to Language Models

Uploaded by

Introduction to

Image credit: jalammar.github.io/illustrated-word2vec/

Image credit: jalammar.github.io/illustrated-bert/

Image credit: jalammar.github.io/illustrated-gpt2/

● Bidirectional encoder models (BERT) do better than generative models at

● Generative models (GPT) have training efficiency and scalability advantages

Image credit: jalammar.github.io/illustrated-transformer/

Image credit: jalammar.github.io/illustrated-transformer/

Image credit: jalammar.github.io/illustrated-transformer/ v

Image credit: jalammar.github.io/illustrated-gpt2/

Image credit: jalammar.github.io/illustrated-gpt2/

Image credit: jalammar.github.io/illustrated-transformer/

Image credit: jalammar.github.io/illustrated-transformer/

Image credit: jalammar.github.io/illustrated-transformer/

Image credit: jalammar.github.io/illustrated-bert/

Text-to-Text Transfer Transformer

Generalization to new tasks without fine-tuning enabled by:

Kaplan et al., 2020;

You might also like