GPT-J

GPT-J

TipusModel de llenguatge per a aprenentatge profund
LlicènciaLlicència Apache, versió 2.0 Modifica el valor a Wikidata
Epònimtransformadors generatius pre-entrenats Modifica el valor a Wikidata
Equip
EditorEleutherAI Modifica el valor a Wikidata

GPT-J és un model de llenguatge d'intel·ligència artificial de codi obert desenvolupat per EleutherAI.[1] Generalment segueix l'arquitectura GPT-2 amb l'única diferència important dels anomenats descodificadors paral·lels: en comptes de col·locar el perceptró multicapa d'avanç després de l'atenció multicapçal emmascarada, es calculen en paral·lel per tal d'aconseguir un rendiment més elevat amb distribució. formació.

GPT-J funciona de manera molt semblant a les versions GPT-3 d'OpenAI de mida similar en diverses tasques de baixada de tir zero i fins i tot pot superar-lo en tasques de generació de codi.[2] La versió més recent, GPT-J-6B és un model d'idioma basat en un conjunt de dades anomenat The Pile. The Pile és un conjunt de dades de modelatge de llenguatge de codi obert de 825 gigabytes que es divideix en 22 conjunts de dades més petits.[3]

GPT-J originalment no funciona com a bot de xat a diferència de ChatGPT, només com a predictor de text.[4] El març de 2023, Databricks va llançar Dolly, un model de seguiment d'instruccions amb llicència d'Apache basat en GPT-J amb un ajustament del conjunt de dades Stanford Alpaca.[5]

Referències

  1. Demo, GPT-3. «GPT-J | Discover AI use cases» (en anglès). gpt3demo.com. https://gpt3demo.com.+[Consulta: 28 febrer 2023].
  2. «GPT-J-6B: An Introduction to the Largest Open Source GPT Model | Forefront» (en anglès). www.forefront.ai. https://www.forefront.ai.+Arxivat de l'original el 2023-03-09. [Consulta: 28 febrer 2023].
  3. «The Pile» (en anglès). pile.eleuther.ai. pile.eleuther.ai. [Consulta: 28 febrer 2023].
  4. Mueller, Vincent. «How you can use GPT-J» (en anglès). Medium. https://towardsdatascience.com,+25-01-2022.+[Consulta: 28 febrer 2023].
  5. Conover, Mike. «Hello Dolly: Democratizing the magic of ChatGPT with open models» (en anglès). https://www.databricks.com,+24-03-2023.+[Consulta: 5 abril 2023].