Vision Transformer (ViT) introduced in paper: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (Dosovitskiy et al., 2020). — SourceScore VERITAS embed · SourceScore

SourceScore VERITAS · verified claim100% confidence

Vision Transformer (ViT) introduced in paper: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (Dosovitskiy et al., 2020).

Vision Transformer (ViT)

introduced_in_paper

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (Dosovitskiy et al., 2020)

Primary source · preprint · 2020-10-22

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale — arXiv (Dosovitskiy et al., Google Research)

Last verified 2026-05-16 · 2 sources · d3681b0981e0b700View full claim →