是否存在通用的神经网络模型,可以处理图像,语音以及NLP?


对于目前的深度学习模型来说 。尽管深度学习的一个目标是设计能够处理各种任务的算法 。然而截至目前深度学习的应用仍然需要一定程度的特化 。还没有通用的神经网络处理模型 。不过各个模型也在互相借鉴 。彼此融合 。共同提高 。象有些创新能同时改进卷积神经网络和循环神经网络 。比如批标准化与注意力等 。通用的模型还有待未来研究提出 。
图像和视频处理 。计算机视觉 。目前最流行的是cnn 。即卷积神经网络 。及其变形和发展 。cnn适合处理空间数据 。在计算机视觉领域应用广泛 。象陆续出现的AlexNet 。VGGNet 。GoogLeNet 。ResNet等都很有特色 。以上几种模型是图像分类识别使用的 。象图像分割 。目标检测等还有更多针对性模型提出和得到广泛应用 。
【是否存在通用的神经网络模型,可以处理图像,语音以及NLP?】语音处理 。2012 年前 。最先进的语音识别系统是隐马尔可夫模型(HMM) 和高斯混合模型(GMM) 的结合 。目前最流行的是深度学习的RNN循环神经网络 。及其发展长短时记忆网络LSTM 。以及GRU,双向RNN,分层RNN等 。
自然语言处理 。除了传统方法 。目前深度学习用于自然语言处理的模型经历了基于CNN的模型 。基于RNN的模型 。基于Attention机制的模型 。基于Transformer的模型等几个发展阶段 。NLP有很多模型和方法 。不同的任务场景有不同的模型和策略来解决某些问题 。
其他观点:
这种通用好像没太大实际价值 。一个网络处理的数据的范围越大 。它的训练过程越是复杂 。又要图像又要声音 。即使声音可以做成频谱图 。和一般图像也有太大差别 。硬做当然也行 。可以用一个条件网络来做 。先用图片声音识别生成条件
其他观点:
是的attention is all you need 。只是确保有还可以效果的话attention就够了

    推荐阅读