import torch, torch.nn as nn, torch.nn.functional as F
from collections import OrderedDict


class DGCRM(nn.Module):
    def __init__(self, node_num, dim_in, dim_out, cheb_k, embed_dim, num_layers=1):
        super().__init__()
        self.node_num, self.input_dim, self.num_layers = node_num, dim_in, num_layers
        self.cells = nn.ModuleList([
            DDGCRNCell(node_num, dim_in if i == 0 else dim_out, dim_out, cheb_k, embed_dim)
            for i in range(num_layers)
        ])

    def forward(self, x, init_state, node_embeddings):
        assert x.shape[2] == self.node_num and x.shape[3] == self.input_dim
        for i in range(self.num_layers):
            state, inner = init_state[i].to(x.device), []
            for t in range(x.shape[1]):
                state = self.cells[i](x[:, t, :, :], state, [node_embeddings[0][:, t, :, :], node_embeddings[1]])
                inner.append(state)
            init_state[i] = state
            x = torch.stack(inner, dim=1)
        return x, init_state

    def init_hidden(self, bs):
        return torch.stack([cell.init_hidden_state(bs) for cell in self.cells], dim=0)


class EXPB(nn.Module):
    def __init__(self, args):
        super().__init__()
        self.patch_size = args.get('patch_size', 1)
        self.num_node, self.input_dim, self.hidden_dim = args['num_nodes'], args['input_dim'], args['rnn_units']
        self.output_dim, self.horizon, self.num_layers = args['output_dim'], args['horizon'], args['num_layers']
        self.use_day, self.use_week = args['use_day'], args['use_week']
        self.node_embeddings1 = nn.Parameter(torch.randn(self.num_node, args['embed_dim']))
        self.T_i_D_emb = nn.Parameter(torch.empty(288, args['embed_dim']))
        self.D_i_W_emb = nn.Parameter(torch.empty(7, args['embed_dim']))
        self.drop = nn.Dropout(0.1)
        self.encoder = DGCRM(self.num_node, self.input_dim, self.hidden_dim,
                             args['cheb_order'], args['embed_dim'], self.num_layers)
        self.base_conv = nn.Conv2d(1, self.horizon * self.output_dim, (1, self.hidden_dim))
        self.res_conv = nn.Conv2d(1, self.horizon * self.output_dim, (1, self.hidden_dim + 1))

    def forward(self, source):
        # source: (B, T, N, D_total)，第0通道为主观测，第1、2通道为时间编码
        B, T, N, D_total = source.shape
        p = self.patch_size
        num_patches = T // p
        source = source[:, :num_patches * p, :, :].view(B, num_patches, p, N, D_total)
        # 对主观测通道取均值，并转置为 (B, num_patches, N, 1)
        inp = source[..., 0].mean(dim=2, keepdim=True).permute(0, 1, 3, 2)
        # 每个 patch 最后时刻的时间编码
        time_day = source[:, :, -1, :, 1]  # (B, num_patches, N)
        time_week = source[:, :, -1, :, 2]  # (B, num_patches, N)
        patched_source = torch.cat([inp, time_day.unsqueeze(-1), time_week.unsqueeze(-1)], dim=-1)
        node_embed = self.node_embeddings1
        if self.use_day:
            node_embed = node_embed * self.T_i_D_emb[(patched_source[..., 1] * 288).long()]
        if self.use_week:
            node_embed = node_embed * self.D_i_W_emb[patched_source[..., 2].long()]
        node_embeddings = [node_embed, self.node_embeddings1]
        init = self.encoder.init_hidden(B)
        enc_out, _ = self.encoder(inp, init, node_embeddings)
        rep = self.drop(enc_out[:, -1:, :, :])
        base = self.base_conv(rep)
        res_in = torch.cat([rep, inp[:, -1:, :, :]], dim=-1)
        res = self.res_conv(res_in)
        out = base + res
        out = out.squeeze(-1).view(B, self.horizon, self.output_dim, N).permute(0, 1, 3, 2)
        return out


class DDGCRNCell(nn.Module):
    def __init__(self, node_num, dim_in, dim_out, cheb_k, embed_dim):
        super().__init__()
        self.node_num, self.hidden_dim = node_num, dim_out
        self.gate = DGCN(dim_in + dim_out, 2 * dim_out, cheb_k, embed_dim, node_num)
        self.update = DGCN(dim_in + dim_out, dim_out, cheb_k, embed_dim, node_num)
        self.ln = nn.LayerNorm(dim_out)

    def forward(self, x, state, node_embeddings):
        inp = torch.cat((x, state), -1)
        z_r = torch.sigmoid(self.gate(inp, node_embeddings))
        z, r = torch.split(z_r, self.hidden_dim, -1)
        hc = torch.tanh(self.update(torch.cat((x, z * state), -1), node_embeddings))
        out = r * state + (1 - r) * hc
        return self.ln(out)

    def init_hidden_state(self, bs):
        return torch.zeros(bs, self.node_num, self.hidden_dim)


class DGCN(nn.Module):
    def __init__(self, dim_in, dim_out, cheb_k, embed_dim, num_nodes):
        super().__init__()
        self.cheb_k, self.embed_dim = cheb_k, embed_dim
        self.weights_pool = nn.Parameter(torch.FloatTensor(embed_dim, cheb_k, dim_in, dim_out))
        self.weights = nn.Parameter(torch.FloatTensor(cheb_k, dim_in, dim_out))
        self.bias_pool = nn.Parameter(torch.FloatTensor(embed_dim, dim_out))
        self.bias = nn.Parameter(torch.FloatTensor(dim_out))
        self.fc = nn.Sequential(OrderedDict([
            ('fc1', nn.Linear(dim_in, 16)),
            ('sigmoid1', nn.Sigmoid()),
            ('fc2', nn.Linear(16, 2)),
            ('sigmoid2', nn.Sigmoid()),
            ('fc3', nn.Linear(2, embed_dim))
        ]))
        self.register_buffer('eye', torch.eye(num_nodes))

    def forward(self, x, node_embeddings):
        supp1 = self.eye.to(node_embeddings[0].device)
        filt = self.fc(x)
        nodevec = torch.tanh(node_embeddings[0] * filt)
        supp2 = self.get_laplacian(F.relu(torch.matmul(nodevec, nodevec.transpose(2, 1))), supp1)
        x_g = torch.stack([
            torch.einsum("nm,bmc->bnc", supp1, x),
            torch.einsum("bnm,bmc->bnc", supp2, x)
        ], dim=1)
        weights = torch.einsum('nd,dkio->nkio', node_embeddings[1], self.weights_pool)
        bias = torch.matmul(node_embeddings[1], self.bias_pool)
        return torch.einsum('bnki,nkio->bno', x_g.permute(0, 2, 1, 3), weights) + bias

    @staticmethod
    def get_laplacian(graph, I, normalize=True):
        D_inv = torch.diag_embed(torch.sum(graph, -1) ** (-0.5))
        return torch.matmul(torch.matmul(D_inv, graph), D_inv) if normalize else torch.matmul(
            torch.matmul(D_inv, graph + I), D_inv)