Implementing load and save models and early stopping

2019-10-04 17:25:03 -04:00 · 2019-10-04 17:25:03 -04:00 · ba880b8230
parent d9f41172dc
commit ba880b8230
1 changed files with 35 additions and 1 deletions
--- a/model/pytorch/dcrnn_supervisor.py
+++ b/model/pytorch/dcrnn_supervisor.py
@ -67,6 +67,24 @@ class DCRNNSupervisor:
            os.makedirs(log_dir)
        return log_dir

+    def save_model(self, epoch):
+        if not os.path.exists(self._log_dir + 'models/'):
+            os.makedirs(self._log_dir + 'models/')
+
+        config = dict(self._kwargs)
+        config['model_state_dict'] = self.dcrnn_model.state_dict()
+        config['epoch'] = epoch
+        torch.save(config, self._log_dir + 'models/epo%d.tar' % epoch)
+        self._logger.info("Loaded model at {}".format(epoch))
+        return self._log_dir + 'models/epo%d.tar' % epoch
+
+    def load_model(self, epoch):
+        assert os.path.exists(
+            self._log_dir + 'models/epo%d.tar' % epoch), 'Weights at epoch %d not found' % epoch
+        checkpoint = torch.load(self._log_dir + 'models/epo%d.tar' % epoch, map_location='cpu')
+        self.dcrnn_model.load_state_dict(checkpoint['model_state_dict'])
+        self._logger.info("Loaded model at {}".format(epoch))
+
    def train(self, **kwargs):
        kwargs.update(self._train_kwargs)
        return self._train(**kwargs)
@ -97,12 +115,14 @@ class DCRNNSupervisor:
               min_learning_rate=2e-6, lr_decay_ratio=0.1, log_every=10, save_model=1,
               test_every_n_epochs=10, **kwargs):
        # steps is used in learning rate - will see if need to use it?
+        min_val_loss = float('inf')
+        wait = 0
+        batches_seen = 0
        optimizer = torch.optim.Adam(self.dcrnn_model.parameters(), lr=base_lr)
        criterion = torch.nn.L1Loss()  # mae loss

        self.dcrnn_model = self.dcrnn_model.train()

-        batches_seen = 0
        self._logger.info('Start training ...')
        for epoch_num in range(epochs):
            train_iterator = self._data['train_loader'].get_iterator()
@ -145,6 +165,20 @@ class DCRNNSupervisor:
                                           np.mean(losses), test_loss, (end_time - start_time))
                self._logger.info(message)

+            if val_loss < min_val_loss:
+                wait = 0
+                min_val_loss = val_loss
+                if save_model:
+                    model_file_name = self.save_model(epoch_num)
+                    self._logger.info(
+                        'Val loss decrease from {:.4f} to {:.4f}, saving to {}'.format(min_val_loss, val_loss,
+                                                                                       model_file_name))
+            elif val_loss >= min_val_loss:
+                wait += 1
+                if wait == patience:
+                    self._logger.warning('Early stopping at epoch: %d' % epoch_num)
+                    break
+
    def _get_x_y(self, x, y):
        """
        :param x: shape (batch_size, seq_len, num_sensor, input_dim)