九派财经:探秘中国经济的巨变与未来
本科论文

九派财经:探秘中国经济的巨变与未来

这篇文章探讨了近期我国A股市场出现调整的原因及影响。首先,受国内外经济因素和政策的影响,市场出现了担忧情绪;其次,权重股绑架市场,中小市值股票表现疲弱;最后,建议投资者关注政策导向和行业前景,做好风险管理,适时配置。
用ChatGPT打造超能“蓝博士”,蓝凌持续引领智能办公
未分类

用ChatGPT打造超能“蓝博士”,蓝凌持续引领智能办公

近期ChatGPT开放约70个第三方插件,覆盖购物、餐饮、旅行、天气、翻译、分析数据等多种功能,让用户能直接向ChatGPT提出更多需求,构建自己的AI助手…… 越来越多的中国厂商布局大模型的应用,数智化办公专家:蓝凌,行业率先接入ChatGPT能力,推出智能应用“蓝博士”,在MK体验大会全国巡展引发高度关注。 蓝凌MK体验大会,全新“蓝博士”展示5大智能场景 目前,全国各大城市如火如荼进行的2023蓝凌数智化工作平台体验大会,在展示蓝凌行业领先的门户、BPM流程、低代码等6大核心能力的同时,接入ChatGPT能力的智能应用“蓝博士”也成焦点。 据蓝凌专家介绍:“蓝博士”是世界领先的大模型技术与蓝凌22年中大型组织数智办公实践的融合,目前聚焦智能客服、知识百科、代码助手、文案助手、语料助手等5大场景,已在蓝凌内部使用。 程序员可让“蓝博士”写代码、生成HTML、检验代码,“聊聊天”就把工作完成了; 市场部可以让“蓝博士”秒变文案高手,方案软文、产品广告、活动简讯等,听指令快速生成,让其贡献创意点子,也不在话下;智能问答,让你的每一个问题,都被真正听懂,给出想要的答案; 语料库,方便企业上传管理自身各种知识,训练自己的专属大模型,让ChatGPT更懂企业,让“蓝博士”成为企业真正一员,为企业提供贴合专属场景的AI服务。 数智化办公专家,用MK打造智能办公新引擎 成立22年以来,蓝凌一直引领中国数字化化办公发展。源于客户共创的蓝凌MK数智化工作平台,经过数年迭代与应用,已具备最先进、最成熟、最开放的产品特质。行业率先实现云原生微服务架构,提升业务敏捷创新;安信、OPPO等大量头部企业验证了产品的可靠,满足信创适配与安全要求;能力开放,与众生态厂商资源连接共享,新场景应用源源不断。 蓝凌MK智能引擎,不仅支持接入ChatGPT,也支持接入通义千问、文心一言等大模模能力,甚至更多厂商的其它AI能力,目的就是为客户打造最具价值的智能应用。 借助于蓝凌的数智化产品,企业可以实现知识智能入库,智能大模型+合规管理,让风险报告一秒速成;知识图谱+智能问答,知识自动生产与精准应用;整合OCR智能识别、比对技术,实现合同文本校验,快速识别合同被篡改的风险…… ChatGPT等大模型,让AI从生产力赋能者直接成为一种创造生产力工具;蓝凌作为中国数字化办公与知识管理市场领导者,将推动AI生产力在企业更多场景创造价值。 让协同更智能,让组织更智慧,蓝凌数智化工作平台全国体验大会,继深、沪、京之后,南宁、杭州、合肥、重庆、广州、厦门等报名正在进行,诚邀您共探大模型时代数智新办公。 网页搜索“蓝凌官网”或关注微信公众号“蓝凌MK数智化工作平台”,或添加蓝凌顾问微信“landray888”,申请免费报名蓝凌MK体验大会!
国产ChatGPT「套壳」的秘密,现在被找到了
未分类

国产ChatGPT「套壳」的秘密,现在被找到了

衡宇 发自 凹非寺量子位 | 公众号 QbitAI “科大讯飞套壳ChatGPT!”“百度文心一言套皮Stable Diffusion!”“商汤大模型实则抄袭!”…… 外界对国产大模型产生质疑已经不是一次两次了。 业内人士对这个现象的解释是,高质量的中文数据集实在紧缺,训模型时只能让采买的外文标注数据集“当外援”。训练所用的数据集撞车,就会生成相似结果,进而引发乌龙事件。 其余办法中,用现有大模型辅助生成训练数据容易数据清洗不到位,重复利用token会导致过拟合,仅训练稀疏大模型也不是长久之计。 业内渐渐形成共识: 通往AGI的道路,对数据数量和数据质量都将持续提出极高的要求。 时势所需,近2个月来,国内不少团队先后开源了中文数据集,除通用数据集外,针对编程、医疗等垂域也有专门的开源中文数据集发布。 高质量数据集虽有但少 大模型的新突破十分依赖高质量、丰富的数据集。 根据OpenAI 《Scaling Laws for Neural Language Models》提出大模型所遵循的伸缩法则(scaling law)可以看到,独立增加训练数据量,是可以让预训练模型效果变更好的。 这不是OpenAI的一家之言。 DeepMind也在Chinchilla模型论文中指出,之前的大模型多是训练不足的,还提出最优训练公式,已成为业界公认的标准。 △主流大模型,Chinchilla参数最少,但训练最充分 不过,用来训练的主流数据集以英文为主,如Common Crawl、BooksCorpus、WiKipedia、ROOT等,最流行的Common Crawl中文数据只占据4.8%。 中文数据集是什么情况? 公开数据集不是没有——这一点量子位从澜舟科技创始人兼CEO、当今NLP领域成就最高华人之一周明口中得到证实——如命名实体数据集MSRA-NER、Weibo-NER等,以及GitHub上可找到的CMRC2018、CMRC2019、ExpMRC2022等存在,但整体数量和英文数据集相比可谓九牛一毛。 并且,其中部分已经老旧,可能都不知道最新的NLP研究概念(新概念相关研究只以英文形式出现在arXiv上)。 中文高质量数据集虽有但少,使用起来比较麻烦,这就是所有做大模型的团队不得不面对的惨烈现状。此前的清华大学电子系系友论坛上,清华计算机系教授唐杰分享过,千亿模型ChatGLM-130B训练前数据准备时,就曾面临过清洗中文数据后,可用量不到2TB的情况。 解决中文世界缺乏高质量数据集迫在眉睫。 行之有效的解决方法之一,是直接用英文数据集训大模型。 在人类玩家打分的大模型匿名竞技场Chatbot Arena榜单中,GPT-3.5在非英文排行榜位居第二(第一是GPT-4)。要知道,96%的GPT-3.5训练数据都是英文,再刨去其他语种,用来训练的中文数据量少到可以用“千分之n”来计算。 国内top3高校某大模型相关团队在读博士透露,如果采用这种方法,不嫌麻烦的话,甚至可以给模型接一个翻译软件,把所有语言都转换成英语,然后把模型的输出转换为中文,再返回给用户。 然而这样喂养出的大模型始终是英文思维,当遇到成语改写、俗语理解、文章改写这类含有中文语言特色的内容,往往处理不佳,出现翻译错误或潜在文化的偏差。 还有个解决办法就是采集、清洗和标注中文语料,做新的中文高质量数据集,供给给大模型们。 开源数据集众人拾柴 察觉现况后,国内不少大模型团队决定走第二条路,着手利用私有数据库做数据集。 百度有内容生态数据,腾讯有公众号数据,知乎有问答数据,阿里有电商和物流数据。 积累的私有数据不一,就可能在特定场景和领域建立核心优势壁垒,将这些数据严格搜集、整理、筛选、清洗和标注,能保证训出模型的有效性和准确性。 而那些私有数据优势不那么明显大模型团队,开始全网爬数据(可以预见,爬虫数据量会非常大)。...
AIGC产业峰会盛大召开,探讨AI新纪元下的机遇与挑战
未分类

AIGC产业峰会盛大召开,探讨AI新纪元下的机遇与挑战

本文介绍了首届中国AIGC产业峰会的相关信息。该峰会由量子位主办,旨在探讨大模型、生成式AI、ChatGPT等当下热门话题。会议发布了首份中国AIGC产业全景报告和中国AIGC 50,展望了中国AIGC产业的未来。与此同时,百度集团副总裁袁佛玉分享了文心一言的技术、商业和产业变革。另外,北京智源研究院和科大讯飞等公司也分享了他们在AIGC产业中的经验和见解。总之,本次峰会为业界提供了一个交流平台,以便更好地应对AIGC时代带来的机遇和挑战。