Update.
[pytorch.git] / tiny_vae.py
1 #!/usr/bin/env python
2
3 # @XREMOTE_HOST: elk.fleuret.org
4 # @XREMOTE_EXEC: python
5 # @XREMOTE_PRE: source ${HOME}/misc/venv/pytorch/bin/activate
6 # @XREMOTE_PRE: ln -sf ${HOME}/data/pytorch ./data
7 # @XREMOTE_GET: *.png
8
9 # Any copyright is dedicated to the Public Domain.
10 # https://creativecommons.org/publicdomain/zero/1.0/
11
12 # Written by Francois Fleuret <francois@fleuret.org>
13
14 import sys, os, argparse, time, math, itertools
15
16 import torch, torchvision
17
18 from torch import optim, nn
19 from torch.nn import functional as F
20
21 ######################################################################
22
23 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
24
25 ######################################################################
26
27 parser = argparse.ArgumentParser(description="Tiny LeNet-like auto-encoder.")
28
29 parser.add_argument("--nb_epochs", type=int, default=100)
30
31 parser.add_argument("--batch_size", type=int, default=100)
32
33 parser.add_argument("--data_dir", type=str, default="./data/")
34
35 parser.add_argument("--log_filename", type=str, default="train.log")
36
37 parser.add_argument("--latent_dim", type=int, default=32)
38
39 parser.add_argument("--nb_channels", type=int, default=128)
40
41 parser.add_argument("--no_dkl", action="store_true")
42
43 args = parser.parse_args()
44
45 log_file = open(args.log_filename, "w")
46
47 ######################################################################
48
49
50 def log_string(s):
51     t = time.strftime("%Y-%m-%d_%H:%M:%S - ", time.localtime())
52
53     if log_file is not None:
54         log_file.write(t + s + "\n")
55         log_file.flush()
56
57     print(t + s)
58     sys.stdout.flush()
59
60
61 ######################################################################
62
63
64 def sample_gaussian(mu, log_var):
65     std = log_var.mul(0.5).exp()
66     return torch.randn(mu.size(), device=mu.device) * std + mu
67
68
69 def log_p_gaussian(x, mu, log_var):
70     var = log_var.exp()
71     return (
72         (-0.5 * ((x - mu).pow(2) / var) - 0.5 * log_var - 0.5 * math.log(2 * math.pi))
73         .flatten(1)
74         .sum(1)
75     )
76
77
78 def dkl_gaussians(mean_a, log_var_a, mean_b, log_var_b):
79     mean_a, log_var_a = mean_a.flatten(1), log_var_a.flatten(1)
80     mean_b, log_var_b = mean_b.flatten(1), log_var_b.flatten(1)
81     var_a = log_var_a.exp()
82     var_b = log_var_b.exp()
83     return 0.5 * (
84         log_var_b - log_var_a - 1 + (mean_a - mean_b).pow(2) / var_b + var_a / var_b
85     ).sum(1)
86
87
88 ######################################################################
89
90
91 class LatentGivenImageNet(nn.Module):
92     def __init__(self, nb_channels, latent_dim):
93         super().__init__()
94
95         self.model = nn.Sequential(
96             nn.Conv2d(1, nb_channels, kernel_size=1),  # to 28x28
97             nn.ReLU(inplace=True),
98             nn.Conv2d(nb_channels, nb_channels, kernel_size=5),  # to 24x24
99             nn.ReLU(inplace=True),
100             nn.Conv2d(nb_channels, nb_channels, kernel_size=5),  # to 20x20
101             nn.ReLU(inplace=True),
102             nn.Conv2d(nb_channels, nb_channels, kernel_size=4, stride=2),  # to 9x9
103             nn.ReLU(inplace=True),
104             nn.Conv2d(nb_channels, nb_channels, kernel_size=3, stride=2),  # to 4x4
105             nn.ReLU(inplace=True),
106             nn.Conv2d(nb_channels, 2 * latent_dim, kernel_size=4),
107         )
108
109     def forward(self, x):
110         output = self.model(x).view(x.size(0), 2, -1)
111         mu, log_var = output[:, 0], output[:, 1]
112         return mu, log_var
113
114
115 class ImageGivenLatentNet(nn.Module):
116     def __init__(self, nb_channels, latent_dim):
117         super().__init__()
118
119         self.model = nn.Sequential(
120             nn.ConvTranspose2d(latent_dim, nb_channels, kernel_size=4),
121             nn.ReLU(inplace=True),
122             nn.ConvTranspose2d(
123                 nb_channels, nb_channels, kernel_size=3, stride=2
124             ),  # from 4x4
125             nn.ReLU(inplace=True),
126             nn.ConvTranspose2d(
127                 nb_channels, nb_channels, kernel_size=4, stride=2
128             ),  # from 9x9
129             nn.ReLU(inplace=True),
130             nn.ConvTranspose2d(nb_channels, nb_channels, kernel_size=5),  # from 20x20
131             nn.ReLU(inplace=True),
132             nn.ConvTranspose2d(nb_channels, 2, kernel_size=5),  # from 24x24
133         )
134
135     def forward(self, z):
136         output = self.model(z.view(z.size(0), -1, 1, 1))
137         mu, log_var = output[:, 0:1], output[:, 1:2]
138         return mu, log_var
139
140
141 ######################################################################
142
143 data_dir = os.path.join(args.data_dir, "mnist")
144
145 train_set = torchvision.datasets.MNIST(data_dir, train=True, download=True)
146 train_input = train_set.data.view(-1, 1, 28, 28).float()
147
148 test_set = torchvision.datasets.MNIST(data_dir, train=False, download=True)
149 test_input = test_set.data.view(-1, 1, 28, 28).float()
150
151 ######################################################################
152
153 model_q_Z_given_x = LatentGivenImageNet(
154     nb_channels=args.nb_channels, latent_dim=args.latent_dim
155 )
156
157 model_p_X_given_z = ImageGivenLatentNet(
158     nb_channels=args.nb_channels, latent_dim=args.latent_dim
159 )
160
161 optimizer = optim.Adam(
162     itertools.chain(model_p_X_given_z.parameters(), model_q_Z_given_x.parameters()),
163     lr=4e-4,
164 )
165
166 model_p_X_given_z.to(device)
167 model_q_Z_given_x.to(device)
168
169 ######################################################################
170
171 train_input, test_input = train_input.to(device), test_input.to(device)
172
173 train_mu, train_std = train_input.mean(), train_input.std()
174 train_input.sub_(train_mu).div_(train_std)
175 test_input.sub_(train_mu).div_(train_std)
176
177 ######################################################################
178
179 mean_p_Z = train_input.new_zeros(1, args.latent_dim)
180 log_var_p_Z = mean_p_Z
181
182 for epoch in range(args.nb_epochs):
183     acc_loss = 0
184
185     for x in train_input.split(args.batch_size):
186         mean_q_Z_given_x, log_var_q_Z_given_x = model_q_Z_given_x(x)
187         z = sample_gaussian(mean_q_Z_given_x, log_var_q_Z_given_x)
188         mean_p_X_given_z, log_var_p_X_given_z = model_p_X_given_z(z)
189
190         if args.no_dkl:
191             log_q_z_given_x = log_p_gaussian(z, mean_q_Z_given_x, log_var_q_Z_given_x)
192             log_p_x_z = log_p_gaussian(
193                 x, mean_p_X_given_z, log_var_p_X_given_z
194             ) + log_p_gaussian(z, mean_p_Z, log_var_p_Z)
195             loss = -(log_p_x_z - log_q_z_given_x).mean()
196         else:
197             log_p_x_given_z = log_p_gaussian(x, mean_p_X_given_z, log_var_p_X_given_z)
198             dkl_q_Z_given_x_from_p_Z = dkl_gaussians(
199                 mean_q_Z_given_x, log_var_q_Z_given_x, mean_p_Z, log_var_p_Z
200             )
201             loss = (-log_p_x_given_z + dkl_q_Z_given_x_from_p_Z).mean()
202
203         optimizer.zero_grad()
204         loss.backward()
205         optimizer.step()
206
207         acc_loss += loss.item() * x.size(0)
208
209     log_string(f"acc_loss {epoch} {acc_loss/train_input.size(0)}")
210
211 ######################################################################
212
213
214 def save_image(x, filename):
215     x = x * train_std + train_mu
216     x = x.clamp(min=0, max=255) / 255
217     torchvision.utils.save_image(1 - x, filename, nrow=16, pad_value=0.8)
218
219
220 # Save a bunch of test images
221
222 x = test_input[:256]
223 save_image(x, "input.png")
224
225 # Save the same images after encoding / decoding
226
227 mean_q_Z_given_x, log_var_q_Z_given_x = model_q_Z_given_x(x)
228 z = sample_gaussian(mean_q_Z_given_x, log_var_q_Z_given_x)
229 mean_p_X_given_z, log_var_p_X_given_z = model_p_X_given_z(z)
230 x = sample_gaussian(mean_p_X_given_z, log_var_p_X_given_z)
231 save_image(x, "output.png")
232
233 # Generate a bunch of images
234
235 z = sample_gaussian(mean_p_Z.expand(x.size(0), -1), log_var_p_Z.expand(x.size(0), -1))
236 mean_p_X_given_z, log_var_p_X_given_z = model_p_X_given_z(z)
237 x = sample_gaussian(mean_p_X_given_z, log_var_p_X_given_z)
238 save_image(x, "synth.png")
239
240 ######################################################################