ChatGPT爆火,带飞这家上海公司
记者|杨松 编辑|谭璐 “2023年,我觉得是人工智能进入新阶段的一个起点。” 提及当下大热的ChatGPT,达观数据董事长、CEO陈运文兴奋地告诉《21CBR》记者,其写出来的内容,相较之前的计算机写作有了质的飞跃,写作能力已经超过了普通人。 陈运文觉得,ChatGPT与自己的创业项目,有“非常强的相关性。”达观对文本进行智能化处理,与ChatGPT本质上是一致的,都使用到了自然语言处理技术。 人工智能技术主要应用在三个方面,语音识别、图像识别、自然语言处理。前两个领域进展迅速,已经上市的商汤、科大讯飞等公司,业务均集中在图像、语音方面。 2008年从复旦大学博士毕业后,陈运文的工作一直围绕着“人工智能”和“文本”,先后担任盛大文学首席数据官、腾讯文学高级总监、百度核心技术研发工程师等职务。 2015年,陈运文创办了专注于智能文本机器人公司达观数据。创业初期,他组建了一个算法团队,参加全球算法竞赛,两次获得世界冠军。 经过7年技术研发,达观首创了国内第一套文本智能处理IDP处理平台,行业无锚点OCR文字提取系统,以及独家开发RPA(机器人流程自动化)文字元素自适应穿透捕获算法。 产品应用方面,达观的业务已遍布金融、制造、政务等细分领域。 天眼查显示,2022年3月,达观数据完成C轮5.8亿元融资,投资方包括中信证券、招商证券、广发证券、中信建投等券商,累计融资额超过10亿元。 陈运文透露,今年公司的营收有望超过历史上任何一年,预计会完成新一轮融资。 以下为陈运文自述: 加速研发 ChatGPT所运用的技术原型,在2017年就诞生了,我们叫做Transformer模型,既可以用来做文档资料的阅读理解,也可以用来写作。 我印象中人工智能上一次这么热,还是2016年AlphaGo下围棋。6年之后又有一个非常巨大的技术突破,挺鼓舞人心的。 行业内有句话,自然语言理解,是人工智能皇冠上的明珠。我之前估计,人工智能的水平超过人类,需要5-10年,现在时间进程大大加快。2023年人工智能进入一个新的阶段,标志着新时代的开始。 ChatGPT背后的大模型技术,是通过海量文档资料进行深度学习,智能程度已经达到非常高的水平。不仅能直接给出选择题的答案,还可以帮用户写代码、找bug,写各种各样的文档资料。 大家对人工智能的未来前景也越来越乐观,以前觉得人工智能做不了的事情,接下来会一点一点实现,超过人类的相应能力。 达观所从事的研究领域,是文档资料的智能处理,与ChatGPT的工作原理类似。 达观的产品则应用在企业级领域,面向更为垂直的行业。 不过,通用大语言模型与专用模型,有很大差异。如果用户问ChatGPT一些专业性问题,还是会发现它的回答可能东拉西扯,说不到重点或不够深刻。 我曾问过关于自然语言处理领域特别专业的技术知识,它的回复不太好。在垂直领域,还是需要类似达观所提供的专用语言模型。 在自然语言处理领域,OpenAI(ChatGPT背后的公司)的模式已经走通,我们可以跟随,并在垂直领域做得更好,未来会有非常优秀的国产语言大模型。 达观在2021年建立了一个专家工作站,与复旦大学计算机科学技术学院教授黄萱菁合作,她也是国内自然语言处理领域的知名专家。 今年,达观和复旦大学联合实验室的重点任务,在AIGC(AI Generated Content,利用人工智能技术生成内容)领域,争取推出优秀的成果。 ChatGPT的大热,也给我们研发团队更大的压力。以前觉得技术没那么快成熟,而美国同行做出了这么优秀的产品,我们需要加速研发进度。 我自己是研发出身,现在也是管研发更多一些。时不我待,近期研发同事都在加班。我对达观今年的研发期望很大,希望在专用语言模型和知识图谱方面均有所突破。 行业样本 过去几年,我们围绕文档资料处理,研发了很多相关技术和产品。 比如,针对文档扫描环节,我们开发了达观OCR(文字扫描)相关平台;推出模拟重复性操作文档资料的RPA功能模块,不管是纸质还是电子版的文档资料,达观平台都能处理。 针对不同行业,我们在研发产品时,需要行业内大量专有语料数据,对系统进行强化训练。 达观招聘了很多垂直行业的业务专家,也跟行业领先的公司合作,比如,和很多金融行业的头部银行、证券公司合作,将业务专家的专业知识引入语音模型中,让系统拥有专家能力。 金融行业的文书工作很多,比如各种信贷报告、招股书、研报等,需要大量的文档处理工作,且对准确率要求高,AI系统非常有优势。 这个领域的人才成本比较高,期望利用AI系统提高效率,达观产品内嵌到金融公司内部的作业系统中,几乎是员工日常工作的标配工具。比如银行的流水核查,甚至更复杂的财报中数据出现矛盾,通过系统都能鉴别出来。 计算机处理文字资料的效率,大概是普通白领员工的100倍,可以24小时工作,对很多行业来说是非常有价值的。例如进出口企业,海外订单可能是半夜才到,需要系统立即处理,而不是等到第二天员工上班才去处理。 证券领域,前30大券商都是达观的客户。其中4家头部企业在几年前已经使用产品,后来也成为了我们公司的股东。 行业类产品,从研发到成熟到大规模复制普及,整个过程需要一定周期性。达观通常从市场容量高的行业优先切入,目前布局了金融、制造等板块。 在自然语音处理领域,国内外有很多大平台,比如百度、谷歌都有多年积淀。互联网巨头未来可能会推出面向个人用户端的通用语言大模型,而类似达观这类TO B初创公司,则专注于垂直领域的专用大模型,会有一个差异化发展路径。 在文档资料领域,除了审核还有写作环节。智能化写作将是达观重要的技术突破点,完成之后就能形成产品闭环。 万亿市场 在去年的艰难环境中,我们是AI行业增长最快的公司,团队做了很多努力,挺不容易的。 今年整个经济形势及市场信心回暖得非常快,我觉得今年的收入和业务发展,应该超过公司历史上任何一年。...