图生文：自注意力机制的神经网络如何发现美女角色特征？

自注意力机制的神经网络是一种深度学习模型，它的核心思想是通过自我关注机制来生成输入序列的表示。与传统的神经网络结构不同，自注意力机制的神经网络可以在不同位置同时关注到输入序列中的其他位置，从而更好地捕捉输入序列中的相关信息。

在自注意力机制的神经网络中，每个位置的表示是通过对输入序列的所有位置进行加权求和得到的。权重的计算是基于每个位置与其他位置之间的相似度得到的，相似度的计算可以使用点积、欧氏距离等方式。通过这种方式，每个位置可以同时考虑输入序列中其他位置的信息，并生成对应的表示。

自注意力机制的神经网络在自然语言处理领域得到了广泛的应用。例如，BERT、Transformer等自然语言处理模型都采用了自注意力机制的神经网络结构。在这些模型中，输入序列通常是文本的词向量表示，自注意力机制的神经网络则通过对文本中不同位置之间的相似度进行计算，从而捕捉文本中的语义信息。除了在自然语言处理领域外，自注意力机制的神经网络目前最流行的应用在于图像识别领域。

在图像识别中，可以将图像中的每个位置视为输入序列中的一个位置，并使用自注意力机制的神经网络来生成图像的表示。在语音识别中，可以将语音信号分解成多个时间窗口，并使用自注意力机制的神经网络来生成每个时间窗口的表示。

import torch
import torch.nn as nn
class SelfAttention(nn.Module):
def __init__(self, in_dim, hidden_dim):
super(SelfAttention, self).__init__()
self.query = nn.Linear(in_dim, hidden_dim, bias=False)
self.key = nn.Linear(in_dim, hidden_dim, bias=False)
self.value = nn.Linear(in_dim, hidden_dim, bias=False)
def forward(self, x):
Q = self.query(x) # (batch_size, seq_len, hidden_dim)
K = self.key(x) # (batch_size, seq_len, hidden_dim)
V = self.value(x) # (batch_size, seq_len, hidden_dim)
A = torch.softmax(Q.bmm(K.transpose(1, 2)) / torch.sqrt(torch.tensor(K.size(2)).float()), dim=-1) # (batch_size, seq_len, seq_len)
Z = A.bmm(V) # (batch_size, seq_len, hidden_dim)
return Z
class Model(nn.Module):
def __init__(self, in_dim, hidden_dim):
super(Model, self).__init__()
self.attention = SelfAttention(in_dim, hidden_dim)
self.fc = nn.Linear(hidden_dim, 1)
def forward(self, x):
x = self.attention(x)
x = self.fc(x).squeeze()
return x
# 构造输入
x = torch.randn(2, 5, 3)
# 定义模型
model = Model(in_dim=3, hidden_dim=64)
# 前向传播
y = model(x)
# 输出结果
print(y)

上面的DEMO演示了使用PyTorch实现自注意力机制的神经网络的原理，我们首先定义了一个自注意力机制的模块SelfAttention，它由三个全连接层组成，分别为query、key和value。在模块的前向传播过程中，我们首先将输入x分别通过这三个全连接层，得到对应的查询、键和值，然后通过查询和键计算出注意力矩阵，并使用该注意力矩阵将值加权求和，得到自注意力的输出Z。

然后我们定义了一个包含自注意力模块的完整模型Model，它由一个自注意力模块和一个全连接层组成。在模型的前向传播过程中，我们首先通过自注意力模块处理输入，然后将输出通过全连接层转化为一个标量输出。

最后，我们构造了一个随机输入x，并将其输入模型中，输出得到的标量结果。

最近，AI绘画神器MidJourney发布了最新的图生文功能，该功能使用户可以更轻松地构思和修改Prompt提示词，MidJourney很可能使用了基于上述模型的“自注意力图像分割”（self-attention image segmentation）技术，通过在输入图像中的每个位置之间进行关注，来提取出图像中的关键信息。在最新版本的MidJourney中，使用卷积神经网络（Convolutional Neural Networks，CNNs）来提取图像中的特征，然后使用自注意力机制的神经网络来学习这些特征之间的关系，最终给出图片的提示词。，以达到更好的生成效果。

图生文功能可以让用户上传任意图片，MidJourney会自动分析图片的内容，并生成4个适合的Prompt提示词。用户可以根据这些提示词生成更多的图片，或在这些提示词的基础上添加自己的想法。这使得用户不必费心思考如何编写准确的Prompt提示词，而是可以通过图生文功能更直观地进行创作，从而提高了作品的质量和效果。

以下图片放置到MJ中：

生成以下关键词：

Endless grasslands, rolling hills, vast horizons

无尽的草原、起伏的丘陵、广阔的地平线

我们再用MJ生成新的图片：

展开阅读全文

页面更新：2024-05-04

标签：神经网络注意力机制自然语言序列模块模型图像特征角色提示位置发现美女

1 2 3 4 5

图生文：自注意力机制的神经网络如何发现美女角色特征？

“女明星视频”疯传？最新披露

集体“叛变”？美国科技巨头相继行动，外媒：为时已晚

MySQL数据库与Nacos搭建监控服务

看来马斯克说的可能是真的……

腾讯ROG游戏手机7正式官宣酷冷战神再进化4月13发布

资本活水注入科学之城，“深圳创投日”走进光明活动明日启幕

歌尔股份学霸总裁辞任：知情人士称系个人身体原因 800亿果链巨头去家族化求变

借助互联网信息技术，拓展支教帮扶方式云端有个支教课堂

才不是小米汽车！这中国宾利3秒级破百续航最高1000公里？

3D打印周报：活动关节龙专利被判无效，首批优质供应商名单出炉

没有中间商赚差价！金山这些实惠的“工厂店”你逛过吗？

解读AMD 2023年7000系列移动GPU：又轻薄、又强劲

预算2000左右，3款搭载旗舰芯片的“性能版手机”，用三年无压力

嗨GO黄浦丨全球首款空气净化耳机上市，在这里抢先体验

月销3万，凭什么是比亚迪宋plus dmi？

平煤股份：2022年实现净利润57.25亿元，将派发现金股利

长月烬明：一脸苦相却要演“天下第一美女”，谁的审美出了

免费可商用开源GPT模型问世，50G权重直接下载，性能不输GP

宵宫-一个侮辱了“氪金”玩家的角色！

看了老照片才发现，刘亦菲那句：“全家几口，就我最丑”没骗

MCG暗能量模型对球体坍缩理论下宇宙结构形成的影响分

塞尔达传说之旷野之息全神庙位置（十三）-奥尔汀之塔

预产期2天前，山西孕妇在补铁口服液里发现异物，商家：协商

游乐场消防安全提示

这个东西你就吃吧，怎么没早点发现