文章主题:一手到四手, 信息, 行业大牛, 沟通

666AI工具大全,助力做AI时代先行者!

欢迎关注公众号: 『诗品算法』,禁止一切未经本人@琦琦许可的转载。转载必须注明出处。

前言

最近更换了工作方向,从面向业务的推荐算法转向基于ChatGPT大模型的推荐算法,内心狂喜。ChatGPT是个令人惊叹的模型,它虽然没有开源,但是它相关的很多技术都有论文可借鉴。市面上目前有很多关于ChatGPT的技术博客和原理解读,令人眼花缭乱,有一些确实质量很高,但有一些的深度和准确性仍有待考量。

信息来源

曾经看过一本书,书中将信息分为四个等级,分别从一手到四手。什么意思呢?

以下是关于一手到四手信息的定义,摘录自《跃迁》这本书。

1、一手信息:知识的源头。一手研究论文,行业的学术期刊,行业最新数据报告

;行业大牛的最新沟通和思考,通过谈话获得。

2、二手信息:忠实转述一手信息。二手信息含金量很多,忠实转述,但是有清晰的出处和论据。

名校教科书、维基百科、中立第三方调查报告;讲述底层逻辑的书和文章,各行业领军人物推荐的书单等。

3、三手信息:畅销书。

为传播而简化和极端化观点的陈述,改成公众可以理解的文字,加入大量的案例、故事以及不精确的概念。

4、四手信息:个人经验的情绪表达。根据畅销书和理论,写了很多基于个人体验的鸡汤,加入了太多的个人故事或者情绪因素。大部分公众号属于此类。

我们应该尽量多去获取接近信息源头的一手信息或者二手信息,虽然理解成本和学习成本会升高,但是若从三四手信息中获取了有偏差甚至错误的信息,未来纠错的成本会更高。所以我推荐大家阅读论文原文以及ChatGPT的官方文档(一手信息)。但考虑到论文众多,且阅读成本高,我将在未来的几个月内,在《诗品算法》专栏和公众号中,为大家持续输出关于ChatGPT论文相关技术的论文精读(二手信息),希望减少大家的学习成本。

必读论文

以下是待解读的部分论文或官方报告,对于大家理解ChatGPT的深层结构和底层原理将大有裨益:

1、Transformer——Attention is All You Need

 ChatGPT的鼻祖,值得反复研读

GPT是一种通过生成预训练来改善语言理解的模型。它的工作原理是通过大量的无监督文本数据进行预训练,学习语言的统计特征和规律,从而具备了良好的语言理解能力。在预训练过程中,GPT可以产生各种不同类型的文本,如文章、句子、单词等,从而能够对输入的自然语言文本进行理解和生成。在实际应用中,GPT可以用于自然语言处理领域的多种任务,如机器翻译、语音识别、文本摘要、情感分析等,有效提高了自然语言处理的准确性和效率。

GPT-2: 语言模型作为 unsupervised multitask 学习者。GPT-2 是一种基于深度学习的语言模型,是自然语言处理领域的重要进展之一。作为一种语言模型,它能够通过学习大量无监督文本数据来预测和生成自然语言文本。这种能力使得 GPT-2 在许多应用场景中表现出色,例如文本分类、机器翻译、情感分析、问答系统等。与其他语言模型不同,GPT-2 通过多任务学习的方式来实现其性能。具体而言,GPT-2 学习多个任务的同时,每个任务都是独立的,不需要相互依赖。这种多任务学习的方式提高了 GPT-2 的泛化能力和可扩展性,使得它在处理大规模文本数据时具有更好的表现。GPT-2 的出现标志着自然语言处理技术的重大进步。它的应用不仅限于文本处理领域,也在语音识别、图像识别等领域产生了广泛的影响。未来,随着 GPT-2 等先进模型的不断发展和完善,自然语言处理技术将会在更多领域发挥重要作用。

4、GPT3——Language Models are Few-Shot Learners

5、GPT4——GPT4-Technical Report

在第六部分中,我们将讨论如何使用指令微调(Instruction Tuning)来训练语言模型并遵循人类的反馈。这种方法的目标是提高语言模型的表现力,以便更好地执行特定的任务。通过将人类提供的指令与模型生成的响应相结合,我们可以训练模型更准确地理解并执行复杂的命令。这使得指令微调成为一种非常有用的技术,特别是在那些需要高度精确性和可靠性的领域,如智能客服或工业自动化。总的来说,指令微调是一种强大的工具,可以帮助我们构建更加智能和高效的系统。

Sparrow 是一个专注于提高对话系统中的对话代理对齐的解决方案。它主要通过针对性的人类评判来优化对话代理的排列和对齐。

RLHF(增强型强化学习与人类反馈)是一种融合了人类反馈的强化学习技术。通过这种方法,智能体在与环境互动的过程中不仅获得奖励或惩罚信号,还能接收到来自人类的额外反馈。这种额外的反馈可以帮助智能体更好地理解其行为结果,进而优化自身的行为策略。具体而言,RLHF的核心思想是通过收集并分析智能体在特定情境下的行为数据以及人类提供的反馈信息,来更新智能体的行为策略。这样一来,智能体就能根据这些新的信息调整自己的行为方式,从而在同样的环境中实现更好的性能表现。总的来说,RLHF将人类反馈融入到了强化学习的进程中,使得智能体能够更加智能地适应不断变化的环境。这种方法在许多应用领域都取得了显著的成果,例如自动驾驶、语音识别和机器人控制等。通过对原有技术的改进,RLHF为人工智能的发展开辟了新的可能性,并为各种实际问题提供了有效的解决方案。

TAMER是一种通过人类强化实现与人类互动的智能代理。这种代理能够根据人类的反馈和行为来学习和优化其自身的行为,从而更好地满足人类的需求和期望。通过这种方式,TAMER不仅能够提高工作效率,还能够建立起一种更加人性化、灵活的工作环境。

10、PPO——Proximal Policy Optimization Algorithms

11、In-Context Learning——Why Can GPT Learn In-Context? Language Models Secretly Perform Gradient Descent as Meta-Optimizers

12、Prompt——Pre-train, Prompt, and Predict- A Systematic Survey of Prompting Methods in Natural Language Processing

13、A History from BERT to ChatGPT

14、BERTnesia- Investigating the capture and forgetting of knowledge in BERT

15、GLM- General Language Model Pretraining with Autoregressive Blank Infilling

16、Large Language Models are Zero-Shot Reasoners

17、P-Tuning v2- Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks

18、P-tuning v2——Parameter-Efficient Prompt Tuning Makes Generalized and Calibrated Neural Text Retrievers

19、PET——Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference

20、SELF-INSTRUCT- Aligning Language Model with Self Generated Instructions

跃迁一手到四手信息解析

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号AIGC666aigc999或上边扫码,即可拥有个人AI助手!