大模型扫盲之小白入门手记

news/2024/7/11 3:20:33 标签: gpt-3, 文心一言, 机器学习, 人工智能

本篇内容来自小米集团数据科学部负责人刘汉武老师的数据特训营笔记。不涉及深入的知识,仅在扫盲。

首先一个问题:大模型和大语言模型的区别是什么?
有人说大模型像是连接数据的星辰,能给我们提供前所未有的见解和洞察。现有的大模型很多,随便一搜,就能看到很多,除却最近大火的GPT,还有专注于常识推理、形式逻辑的PaLM、专门服务于企业的Cohere、目前仅能用于研究的LLaMA…在大语言模型和大模型中,大语言模型的大体现在模型规模和数据量上;而由NLP发展起来的语言模型专注于文字语言的处理。可能在未来会有图像的分支(好像已经有了)

文章目录

  • 发展历史
  • 大模型一般用途
  • 使用大模型
    • 使用prompt让下游任务适配大模型
  • 模型部署

发展历史

大语言模型基于transform分支发展起来,整体大概可以分为3个大分支。

  • 蓝色的部分依赖于transform的解码器,以GPT为代表。GPT是闭源的,该分支下还有开源的LLaMA供研究学习
  • 粉色的部分依赖于transform的编码器,以BERT为代表,GPT君临天下之前,BERT横扫江湖
  • 绿色的部分既依赖于编码器,又依赖于解码器。其中最强健的两个模型,一个是谷歌T5,另一个是清华大学的GLM
    在这里插入图片描述

扫盲小知识:BERT和GPT有什么区别

大模型一般用途

大模型发展很快,日常生活中,像我这样的程序员有时候会让他帮忙写代码(bushi),有人用它作为生活管家,有人依赖它对数据进行分析(譬如,生成一些简单的sql语句:我要查询2023年8月某商品的销售量和用户类型)。我们可以简单分为4类:

  1. 使用者(非研发):譬如用AI写某红书,画画,写作业(不行!作业还是要自己写!)
  2. 大模型工具开发者(研发):他们需要了解大模型原理,依靠模型进行分布式训练,同时需要处理数据,进行一些模型的开发。典型的成果包括通过预训练大模型数据能捕捉语义规律,产生更自然的文本和图像内容的Monica
  3. 领域大模型开发者(研发):典型的成果由医疗大模型、交通大模型等等,这类人群利用底层大模型做微调,构建领域的大模型。他们重点关注模型微调的技术,譬如P_Tuning、LoRa、Instruct。需要了解大模型原理
  4. 基座大模型开发者(研发):典型的基座大模型有OpenAI的ChatGpt、Meta的LLaMA、阿里的通义千问、百度文心一言、小米的MiLM。开发基座大模型,需要精通大模型原理,熟练掌握大规模分布式训练、大规模数据处理的技术。

使用大模型

大模型那么香,那么,我们如何使用大模型呢?
我们做一个场景假设,你开了一家餐厅,并迎来了第一批顾客。他们用餐之后,纷纷在小程序上留下了评论。你想要统计一下有多少顾客满意、多少顾客觉得差点儿意思。
传统的方式不外乎自己或者雇个小弟一条一条看。更科技一些,可以雇个程序员给你写一个分类器。但是如果有了大模型,你只需要对大模型进行调教,就能完成情感分类这个任务。

在这里插入图片描述

使用prompt让下游任务适配大模型

从前,针对不同类型的需求,需要训练不同类型的模型。譬如机翻需要训练机翻的模型,情感分析需要训练情感分析的模型。每一次训练需要标注数据、预训练、获取尽可能收益大的特征、调参,才能得到一个对需求有效的模型。而prompt就像一个适配接口,只需要一个大模型,就可以适配不同的任务。

在这里插入图片描述

模型部署

我们知道,模型越大,消耗的算力越多,选模型需要选最合适的。因此我们需要通过部署模型进行对比测试,找到最合适的基座大模型。模型部署分5步:

  1. 搭建开发环境
  2. 到官网下载模型
  3. 下载源码
  4. 安装依赖
  5. 测试模型的基本能力

–没写完,放个凳子。


http://www.niftyadmin.cn/n/5007606.html

相关文章

Mybatis高级

MyBatis是一个Java持久层框架,主要解决了数据访问层的一些问题。在使用MyBatis时,如果需要实现一些高级功能,可以考虑如下几点: 动态SQL:MyBatis支持使用动态SQL语句,可以根据不同的条件生成不同的SQL语句。…

不同写法的性能差异

“ 达到相同目的,可以有多种写法,每种写法有性能、可读性方面的区别,本文旨在探讨不同写法之间的性能差异 len(str) vs str "" 本部分参考自: [问个 Go 问题,字符串 len 0 和 字符串 "" ,有啥区别?](https://segmentf…

【图卷积神经网络】1-入门篇:为什么使用图神经网络

在本节中,将涵盖以下主要内容: 为什么使用图?为什么学习图?为什么使用图神经网络?为什么使用图? 首先需要回答的问题是:为什么对图感兴趣?图论是对图进行数学研究的学科,它已经成为理解复杂系统和关系的基本工具。图是一种将节点(也称为顶点)和连接这些节点的边的集…

视频融合平台EasyCVR综合管理平台加密机授权报错invalid character是什么原因

视频融合平台EasyCVR综合管理平台具备视频融合汇聚能力,作为安防视频监控综合管理平台,它支持多协议接入、多格式视频流分发,可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等,以及支持厂家私有协议与SDK接入,包…

四旋翼飞行器建模(二)

四旋翼飞行器的位置运动学和位置动力学建模方法,以及转速的求解方法。 目录 一、坐标变换:二、位置运动学:三、位置动力学:四、控制量计算刚体的任何方向都可以通过三个基本欧拉角的组合来实现,旋转矩阵由以下等式给出: 一、坐标变换: 惯性坐标系: E G {E_G} E

划片机实现装片、对准、切割、清洗到卸片的自动化操作

划片机是一种用于切割和分离材料的设备,通常用于光学和医疗、IC、QFN、DFN、半导体集成电路、GPP/LED氮化镓等芯片分立器件、LED封装、光通讯器件、声表器件、MEMS等行业。划片机可以实现从装片、对准、切割、清洗到卸片的自动化操作。 以下是划片机实现这些操作的步…

CUDA相关知识科普

显卡 显卡(Video card,Graphics card)全称显示接口卡,又称显示适配器,是计算机最基本配置、最重要的配件之一。就像电脑联网需要网卡,主机里的数据要显示在屏幕上就需要显卡。因此,显卡是电脑进…

不用入耳就有好音质,南卡OE Pro 0压开放式耳机

从15年第一次接触无线耳机到如今大概用过二十多款无线耳机,用过最多的厂牌就是南卡,包括主、被动降噪和骨传导等品系的数个型号,见证了南卡产品从早期成长探索阶段到如今设计、工艺日臻完善且形成品系,对南卡的技术、工艺和设计愈…