3 Recitation StochasticGradientDescent

Stochastic gradient descent (SGD) is an optimization algorithm for minimizing loss functions. [SGD] approximates the gradient of the expected loss function using samples, and takes steps proportional to the negative of this estimated gradient. This allows SGD to optimize problems with very large datasets more efficiently than traditional gradient descent. SGD converges to the optimal solution by iteratively updating the weights using a single random sample or mini-batch at each step. The learning rate must be set appropriately for convergence. Backtracking line search can be used to adaptively select the learning rate at each step.

Uploaded by

M Rameez Ur Rehman

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

69 views10 pages

3 Recitation StochasticGradientDescent

Uploaded by

M Rameez Ur Rehman

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 10

Stochastic Gradient Descent

10701 Recitations 3

Mu Li

Computer Science Department

Cargenie Mellon University

February 5, 2013
The problem

I A typical machine learning problem has a penalty/regularizer

+ loss form
n
1X
min F (w ) = g (w ) + f (w ; yi , xi ),
w n
i=1

xi , w Rp , yi R, both g and f are convex

I Today we only consider differentiable f , and let g = 0 for
simplicity
I For example, let f (w ; yi , xi ) = log p(yi |xi , w ), we are trying
to maximize the log likelihood, which is
n
1X
max log p(yi |xi , w )
w n
i=1
Gradient Descent

I choose initial w (0) , repeat Two dimensional

example:
w (t+1) = w (t) t F (w (t) )

until stop
I t is the learning rate, and
1X
F (w (t) ) = w f (w (t) ; yi , xi )
n
i

I How to stop? kw (t+1) w (t) k or

kF (w (t) )k
Learning rate matters

too small t , after 100

t = t, it is too big
iterations
Backtracking line search

Adaptively choose the learning rate

I choose a parameter 0 < < 1
I start with = 1, repeat t = 0, 1, . . .
I while

L(w (t) L(w (t) )) > L(w (t) ) kL(w (t) )k2
2
update =
I w (t+1) = w (t) L(w (t) )
Backtracking line search

A typical choice = 0.8, converged after 13 iterations:

Stochastic Gradient Descent

We name n1 i f (w ; yi , xi ) the empirical loss, the thing we

P
I
hope to minimize is the expected loss

f (w ) = Eyi ,xi f (w ; yi , xi )

I Suppose we receive an infinite stream of samples (yt , xt ) from

the distribution, one way to optimize the objective is

w (t+1) = w (t) t w f (w (t) ; yt , xt )

I On practice, we simulate the stream by randomly pick up

(yt , xt ) from the samples we have
Comparing the average gradient of GD n1 i w f (w (t) ; yi , xi )
P
I
More about SGD

I the objective does not always decrease for each step

I comparing to GD, SGD needs more steps, but each step is
cheaper
I mini-batch, say pick up 100 samples and do average, may
accelerate the convergence
Relation to Perceptron

I Recall Perceptron: initialize w , repeat

(
yi xi if yi hw , xi i < 0
w =w+
0 otherwise

I Fix learning rate = 1, let f (w ; y , x) = max(0, yi hw , xi i),

then (
yi xi if yi hw , xi i < 0
w f (w ; y , x) =
0 otherwise
we derive Perceptron from SGD
Question?

ECS171: Machine Learning: Lecture 4: Optimization (LFD 3.3, SGD)
No ratings yet
ECS171: Machine Learning: Lecture 4: Optimization (LFD 3.3, SGD)
45 pages
SGD 2
No ratings yet
SGD 2
18 pages
Lecture 5
No ratings yet
Lecture 5
4 pages
Assignment No 3
No ratings yet
Assignment No 3
7 pages
Assignment 4
No ratings yet
Assignment 4
8 pages
Lecture05 Descent
No ratings yet
Lecture05 Descent
31 pages
1 One Dimension: Gradient Descent
No ratings yet
1 One Dimension: Gradient Descent
5 pages
Stochastic Gradient Descent Basics
No ratings yet
Stochastic Gradient Descent Basics
22 pages
WINSEM2024-25 CSE4006 ETH AP2024254000693 2025-01-08 Reference-Material-I
No ratings yet
WINSEM2024-25 CSE4006 ETH AP2024254000693 2025-01-08 Reference-Material-I
40 pages
Lecture 2 Linear Regression, Machine Learning Course Andrew NG
No ratings yet
Lecture 2 Linear Regression, Machine Learning Course Andrew NG
14 pages
2.stochastic Gradient Descent (SGD)
No ratings yet
2.stochastic Gradient Descent (SGD)
11 pages
ML - Stochastic Gradient Descent (SGD) - GeeksforGeeks
No ratings yet
ML - Stochastic Gradient Descent (SGD) - GeeksforGeeks
9 pages
SGD Explained for Data Scientists
No ratings yet
SGD Explained for Data Scientists
23 pages
Topic5 Stoch Grad D Oct202023
No ratings yet
Topic5 Stoch Grad D Oct202023
29 pages
1710993830340
No ratings yet
1710993830340
9 pages
2,5 Stochastic Gradient Descent
No ratings yet
2,5 Stochastic Gradient Descent
11 pages
Linear Regression For Machine Learning Course
No ratings yet
Linear Regression For Machine Learning Course
41 pages
Stochastic Gradient Descent Tuning
No ratings yet
Stochastic Gradient Descent Tuning
8 pages
Convex Module B
No ratings yet
Convex Module B
29 pages
Lecture02a Optimization Annotated PDF
No ratings yet
Lecture02a Optimization Annotated PDF
23 pages
Mlfa Autumn 23 Optimization
No ratings yet
Mlfa Autumn 23 Optimization
37 pages
Is Stochastic Gradient Descent Effective? A PDE Perspective On Machine Learning Processes
No ratings yet
Is Stochastic Gradient Descent Effective? A PDE Perspective On Machine Learning Processes
50 pages
Optimization
No ratings yet
Optimization
6 pages
17 Convexoptim5
No ratings yet
17 Convexoptim5
63 pages
Lec 5 Scaling and Opt
No ratings yet
Lec 5 Scaling and Opt
68 pages
Gradient Descent - PR
No ratings yet
Gradient Descent - PR
31 pages
Paper 2
No ratings yet
Paper 2
27 pages
Optimization Gradient Descent
No ratings yet
Optimization Gradient Descent
13 pages
Gradient Descent & Stochastic Optimization
No ratings yet
Gradient Descent & Stochastic Optimization
4 pages
5 Why Does SGD Prefer Flat Minim
No ratings yet
5 Why Does SGD Prefer Flat Minim
15 pages
Chapter04 Training Models
No ratings yet
Chapter04 Training Models
33 pages
Gradient Descent New
No ratings yet
Gradient Descent New
42 pages
An Overview of Gradient Descent Optimization Algorithms PDF
No ratings yet
An Overview of Gradient Descent Optimization Algorithms PDF
12 pages
Gradient Descent Based Learners
No ratings yet
Gradient Descent Based Learners
11 pages
Linear Regression
No ratings yet
Linear Regression
6 pages
Implement 03-1
No ratings yet
Implement 03-1
24 pages
Optimization23 22
No ratings yet
Optimization23 22
32 pages
5 Gradients
No ratings yet
5 Gradients
26 pages
UNIT3
No ratings yet
UNIT3
37 pages
04 Batch SGD Mini Batch Gradient Descent Algorithms
No ratings yet
04 Batch SGD Mini Batch Gradient Descent Algorithms
3 pages
02 Lecturenote GD
No ratings yet
02 Lecturenote GD
10 pages
Gradient-Based Optimizers
No ratings yet
Gradient-Based Optimizers
54 pages
Machine Learning: Gradient Descent Methods
No ratings yet
Machine Learning: Gradient Descent Methods
11 pages
Stochastic Gradient Descent Algorithm
No ratings yet
Stochastic Gradient Descent Algorithm
6 pages
Handout Delta Rule
No ratings yet
Handout Delta Rule
10 pages
AIMLB PGP 2025 Session 5
No ratings yet
AIMLB PGP 2025 Session 5
67 pages
ANN Explanation Request Updated
No ratings yet
ANN Explanation Request Updated
44 pages
Lecture 03
No ratings yet
Lecture 03
32 pages
Linear - Regression - SGD
No ratings yet
Linear - Regression - SGD
71 pages
Advanced Stochastic Methods
No ratings yet
Advanced Stochastic Methods
4 pages
14 Introduction To Training A Network
No ratings yet
14 Introduction To Training A Network
39 pages
Tut04 - One Algorithm To Optimize Them All
No ratings yet
Tut04 - One Algorithm To Optimize Them All
19 pages
Berkeley-Tutorial Optimization For Machine Learning-Part1
No ratings yet
Berkeley-Tutorial Optimization For Machine Learning-Part1
37 pages
4 - Gradient Descent and Stochastic GD
No ratings yet
4 - Gradient Descent and Stochastic GD
37 pages
Ece18898g Neural Networks
No ratings yet
Ece18898g Neural Networks
47 pages
Stochastic Gradient Descent - Math and Python Code
No ratings yet
Stochastic Gradient Descent - Math and Python Code
28 pages
Gradient Descent Algorithm in Machine Learning: Dr. P. K. Chaurasia
No ratings yet
Gradient Descent Algorithm in Machine Learning: Dr. P. K. Chaurasia
24 pages
Backpropagation LectureNotesPublic
No ratings yet
Backpropagation LectureNotesPublic
13 pages
Gradient Descent
No ratings yet
Gradient Descent
5 pages
20 Multiscale Vessel Enhancement
No ratings yet
20 Multiscale Vessel Enhancement
13 pages
06561535
No ratings yet
06561535
6 pages
Tensor Voting for Feature Detection
No ratings yet
Tensor Voting for Feature Detection
10 pages
Robot Trajectory Optimization Using Approximate Inference
No ratings yet
Robot Trajectory Optimization Using Approximate Inference
8 pages
xx08 SIreview PDF
No ratings yet
xx08 SIreview PDF
22 pages
Bayesian Optimization in ML
No ratings yet
Bayesian Optimization in ML
29 pages
Modeling and Simulation of A Moving Robot Arm Mounted On Wheelchair
No ratings yet
Modeling and Simulation of A Moving Robot Arm Mounted On Wheelchair
5 pages
19 Detection of Electrophysiology Cathers
No ratings yet
19 Detection of Electrophysiology Cathers
8 pages
Convex Optimization in Image Processing: Ernie Esser
No ratings yet
Convex Optimization in Image Processing: Ernie Esser
9 pages
2Pqlgluhfwlrqdo9Lvlrqedvhg3Rvh&Rqwuroehwzhhq7Zr5Rerwv:, 1 - LD DQJ/L &+ (1+DL/RQJ
No ratings yet
2Pqlgluhfwlrqdo9Lvlrqedvhg3Rvh&Rqwuroehwzhhq7Zr5Rerwv:, 1 - LD DQJ/L &+ (1+DL/RQJ
6 pages
WWW Hackingdream Net 2015 05 Hack Wifi Wpa Wpa2 Wps in Windo
0% (1)
WWW Hackingdream Net 2015 05 Hack Wifi Wpa Wpa2 Wps in Windo
71 pages
Phy Sops
No ratings yet
Phy Sops
171 pages
ورقة عمل الازمنة جديد
No ratings yet
ورقة عمل الازمنة جديد
7 pages
What Is Curriculum
No ratings yet
What Is Curriculum
3 pages
Who Is Shri Baglamukhi Devi Where Are Her Real Temples - Quora
No ratings yet
Who Is Shri Baglamukhi Devi Where Are Her Real Temples - Quora
1 page
Constitution of Pakistan, 1973 (Notes)
No ratings yet
Constitution of Pakistan, 1973 (Notes)
62 pages
Design 32 T1 3 2024 Rpms Tool Based 1
No ratings yet
Design 32 T1 3 2024 Rpms Tool Based 1
52 pages
Fury of Seduction - Coreene Callahan PDF
67% (6)
Fury of Seduction - Coreene Callahan PDF
917 pages
Greek Mythology Family Tree
No ratings yet
Greek Mythology Family Tree
2 pages
EBITDA Calculation Template: Strictly Confidential
No ratings yet
EBITDA Calculation Template: Strictly Confidential
4 pages
Michelle Henry's Professional Resume
No ratings yet
Michelle Henry's Professional Resume
2 pages
Tahun 5 Sesi 2022/2023: Ujian Akhir Sesi Akademik
No ratings yet
Tahun 5 Sesi 2022/2023: Ujian Akhir Sesi Akademik
16 pages
Occupational Health Hazard
No ratings yet
Occupational Health Hazard
95 pages
Party List
No ratings yet
Party List
35 pages
Solving The Traveling Salesman Problem With The Alldifferent Constraint in MS Excel
No ratings yet
Solving The Traveling Salesman Problem With The Alldifferent Constraint in MS Excel
5 pages
The Tiger King's Fate: A Tale of Revenge
No ratings yet
The Tiger King's Fate: A Tale of Revenge
1 page
Monkey Song Script
No ratings yet
Monkey Song Script
5 pages
Aprn Presentation
No ratings yet
Aprn Presentation
12 pages
Kumon Publishing Catalog
No ratings yet
Kumon Publishing Catalog
10 pages
A Conceptual Framework For Critical Success Factors of Lean Six Sigma
No ratings yet
A Conceptual Framework For Critical Success Factors of Lean Six Sigma
25 pages
Management of Psychotic Symptoms
0% (1)
Management of Psychotic Symptoms
25 pages
Lesson Plan For Grade 7: Tense
No ratings yet
Lesson Plan For Grade 7: Tense
4 pages
Outdoor Activities
No ratings yet
Outdoor Activities
1 page
FINAL - Corporate Brochure - MACEE Fulbright Malaysia - (For Print) PDF
No ratings yet
FINAL - Corporate Brochure - MACEE Fulbright Malaysia - (For Print) PDF
40 pages
Paper 1
No ratings yet
Paper 1
18 pages
B.ed Sylabus
No ratings yet
B.ed Sylabus
2 pages
English Script Final
No ratings yet
English Script Final
7 pages
Allied Heroquest Questbook Might and Magic
100% (2)
Allied Heroquest Questbook Might and Magic
18 pages
Honneth's New Critical Theory of Recognition: Jeffrey C. Alexander Maria Pia Lara
No ratings yet
Honneth's New Critical Theory of Recognition: Jeffrey C. Alexander Maria Pia Lara
11 pages
The Crying Stone
No ratings yet
The Crying Stone
2 pages
100 HPH Juice Recipes Nov13
100% (6)
100 HPH Juice Recipes Nov13
124 pages
Training Elite Child Athletes - Promoting Welfare and Wellbeing
No ratings yet
Training Elite Child Athletes - Promoting Welfare and Wellbeing
8 pages