Veliki jezički modeli

Veliki jezički modeli (енгл. large language model, LLM) je jezički model poznat po svojoj sposobnosti da postigne generisanje jezika opšte namene i druge zadatke obrade prirodnog jezika kao što je klasifikacija. LLM stiču ove sposobnosti učeći statističke odnose iz tekstualnih dokumenata tokom računarski intenzivnog samonadgledanog i polu-nadgledanog procesa obuke.[1] LLM se mogu koristiti za generisanje teksta, oblik generativne VI, uzimanjem ulaznog teksta i uzastopnim predviđanjem sledećeg tokena ili reči.[2]

LLM su veštačke neuronske mreže. Prema podacima iz 2024. godine, najveći i najsposobniji modeli, izgrađeni su sa dekoderskom transformatorskom arhitekturom, dok su neke skorije implementacije zasnovane na drugim arhitekturama, kao što su varijante rekurentne neuronske mreže i Mambe (model prostora stanja).[3][4][5]

Sve do 2020. godine, fino podešavanje je bilo jedini način na koji je model mogao da se prilagodi da bi mogao da izvrši određene zadatke. Međutim, modeli većih dimenzija, kao što je GPT-3, mogu se brzo konstruisati da bi se postigli slični rezultati.[6] Smatra se da oni stiču znanja o sintaksi, semantici i „ontologiji“ svojstvenim korpusima ljudskog jezika, ali i netačnostima i pristrasnostima prisutnim u korpusu.[7]

Neki značajni LLM-ovi su OpenAI GPT serija modela (npr. GPT-3.5 i GPT-4, koji se koriste u ChatGPT-u i Majkrosoftovom Kopilotu), Guglov PaLM i Gemini (od kojih se poslednji trenutno koristi u istoimenom čatbotu), xAI-ov Grok, Metina LLaMA porodica modela otvorenog koda, Antropikovi Klaud modeli i Mistral AI modeli otvorenog koda.

Reference

  1. ^ „Better Language Models and Their Implications”. OpenAI. 2019-02-14. Архивирано из оригинала 2020-12-19. г. Приступљено 2019-08-25. 
  2. ^ Bowman, Samuel R. (2023). „Eight Things to Know about Large Language Models”. arXiv:2304.00612 Слободан приступ [cs.CL]. 
  3. ^ Peng, Bo; et al. (2023). „RWKV: Reinventing RNNS for the Transformer Era”. arXiv:2305.13048 Слободан приступ [cs.CL]. 
  4. ^ Merritt, Rick (2022-03-25). „What Is a Transformer Model?”. NVIDIA Blog (на језику: енглески). Приступљено 2023-07-25. 
  5. ^ Gu, Albert; Dao, Tri (2023-12-01), Mamba: Linear-Time Sequence Modeling with Selective State Spaces, arXiv:2312.00752 Слободан приступ 
  6. ^ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (децембар 2020). Larochelle, H.; Ranzato, M.; Hadsell, R.; Balcan, M.F.; Lin, H., ур. „Language Models are Few-Shot Learners” (PDF). Advances in Neural Information Processing Systems. Curran Associates, Inc. 33: 1877—1901. CS1 одржавање: Формат датума (веза)
  7. ^ Manning, Christopher D. (2022). „Human Language Understanding & Reasoning”. Daedalus. 151 (2): 127—138. S2CID 248377870. doi:10.1162/daed_a_01905 Слободан приступ. 

Literatura

  • Jurafsky, Dan, Martin, James. H. Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition, 3rd Edition draft, 2023.
  • Phuong, Mary; Hutter, Marcus (2022). „Formal Algorithms for Transformers”. arXiv:2207.09238 Слободан приступ [cs.LG]. 
  • Eloundou, Tyna; Manning, Sam; Mishkin, Pamela; Rock, Daniel (2023). „GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models”. arXiv:2303.10130 Слободан приступ [econ.GN]. 
  • Eldan, Ronen; Li, Yuanzhi (2023). „TinyStories: How Small Can Language Models Be and Still Speak Coherent English?”. arXiv:2305.07759 Слободан приступ [cs.CL]. 
  • Frank, Michael C. (27. 6. 2023). „Baby steps in evaluating the capacities of large language models”. Nature Reviews Psychology (на језику: енглески). 2 (8): 451—452. ISSN 2731-0574. S2CID 259713140. doi:10.1038/s44159-023-00211-x. Приступљено 2. 7. 2023. CS1 одржавање: Формат датума (веза)
  • Zhao, Wayne Xin; et al. (2023). „A Survey of Large Language Models”. arXiv:2303.18223 Слободан приступ [cs.CL]. 
  • Kaddour, Jean; et al. (2023). „Challenges and Applications of Large Language Models”. arXiv:2307.10169 Слободан приступ [cs.CL]. 
  • Yin, Shukang; Fu, Chaoyou; Zhao, Sirui; Li, Ke; Sun, Xing; Xu, Tong; Chen, Enhong (2023-06-01). „A Survey on Multimodal Large Language Models”. arXiv:2306.13549 Слободан приступ [cs.CV]. 
  • Open LLMs repository on GitHub.
Normativna kontrola: Državne Уреди на Википодацима
  • Nemačka