分享到:
发表于 2024-02-04 08:53:26 楼主 | |
轰轰烈烈的2023年 多模态交互类似于人类的多维感官能力。多模态人工智能可以交叉处理和分析文本、图像、语音多种数据类型。这种融合不同模式的方法使机器能够全面、立体地理解世界。在去年圣诞节,很多贺卡由AI生成。这是从文字生成的图片和视频。从文字生成音乐和歌曲还不成熟。GPT4.0的语音对话相当给力,可以直接用中文和它对话。美中不足的是,总觉得GPT的中文发音是我国台湾人夹杂海外华人的腔调,有点像王力宏。 以医疗领域的需求看,病人拿到血常或肿瘤指标检查报告,想知道异常指标的意义。对自己负责的病人会上网搜索每个指标的含义。入冬以来儿童夹杂肺炎和流感,很多焦虑的家长会搜索检查结果的意义,往往费时费力,找不到准确的解读。 多模态技术的发展,可以让用户拍照上传检查报告,AI识别照片中的指标、搜索知识库、给出每个指标的含义,然后用语音告诉可能的诊断。这种体验太棒了。 在金融领域,如果上传一张K线图,AI就能识别出其形态,则可以极大地提升技术分析投资者的效率。在芯片设计或建筑设计领域,如果能让AI读懂设计图,再设计出新的设计图,那就更厉害。 在非严肃领域,多模态会大大提高数字形象、短视频制作的效率,丰富这些应用的使用场景。
可解释的人工智能的目标在于提高AI决策过程的透明度和可理解性,从而能够更好地理解AI如何作出决策。 当前的AI决策过程往往被视为一个“黑盒”,用户无法了解模型得出结论的内在逻辑。大语言模型最强大且是最神秘的“涌现”能力,亦无法被解释。无法被解释的决策过程,不可能在严肃商业领域获得信任。 AI看完检查报告,可以给出用药建议。如果不知道这个用药建议基于何种知识,也不知道AI做出推理和判断的过程,相信没有人敢用AI开出的药方。生命不能作AI概率游戏的试验品。 现举例说明。我问ChatGPT: “如果换算成特斯拉的行驶里程,7200兆瓦时可以行驶多少公里?” AI会告诉我它的逻辑—— 为了估算7200兆瓦时(MWh)的电能可以让特斯拉汽车行驶多少公里,我们需要知道特斯拉汽车的能源效率。以特斯拉Model 3为例,其能源效率大约为15千瓦时/100公里(即0.15千瓦时/公里)。 我们可以通过以下公式计算行驶里程: 总行驶里程=总电能(千瓦时)/每公里耗电量(千瓦时/公里) 现在我们可以计算7200兆瓦时(即7200000千瓦时)可以让特斯拉汽车行驶多少公里。我将进行计算(此处,AI写Python代码进行计算)。 使用7200兆瓦时的电能,一个特斯拉Model 3理论上可以行驶约4800万公里。 以上,AI展示了一个完整的、可解释的AI推导。用户可以对每一步检查、纠错。 AI在严密的数学推理已经取得某些突破。近期,数学大神陶哲轩成功地用AI工具完成了形式化多项式Freiman-Ruzsa猜想证明过程的工作。陶哲轩大声呼吁,数学家一定要会用AI。 可解释的人工智能的实现需要开发新的算法和工具,通过可视化技术、自然语言解释或简化决策逻辑的表示,以提供关于AI决策过程的深入洞察。 综上,可解释的人工智能在医疗、科学研究等严肃领域具有巨大的商业应用价值。在这些领域,决策的透明度和可信度至关重要,AI的大规模严肃应用必须在较高的置信度上给客户以流程控制和质量控制的选项和权利。
搜索增强生成(Retrieval-Augmented Generation,简称RAG)是一种结合了信息检索和文本生成的AI技术。它旨在通过从“外部”数据源检索信息来增强和改善生成模型的输出质量。 RAG使得大型语言模型能够访问外部信息,帮助它们产生更准确、更具上下文意识的回应,其目标在于提高语言模型生成内容的准确性和相关性。 在RAG系统中,当模型接收到一个查询时,首先执行一个检索步骤,查找与查询相关的信息。然后,这些相关信息被融入生成过程,实现生成内容准确性和相关性的显著改善。 以病人的需求为例,我的朋友曾亲自尝试ChatGPT 4.0搜索增强的能力。病人在服药后发生间歇性尿失禁,但尿失禁到底是不是服药的不良反应呢?在药品说明书上找不到,医生也不确定。 朋友最初给AI的问题是“卡培他滨(Capecitabine)的副作用是否包含尿失禁?” AI的回答是:“尿失禁不是通常与卡培他滨直接关联的副作用。卡培他滨的副作用通常包括胃肠道症状,如腹泻、恶心、呕吐和口腔溃疡等。尿失禁可能是由其他因素引起的,如泌尿系统的问题、药物的其他副作用、或是与患者的整体健康状况相关。” 如果把提问改成:“搜索英文专业医学资料,卡培他滨的副作用是否包含尿失禁?”,AI开始自动用Bing搜索互联网,然后它真的搜到了多个医学文献。 AI说:“根据我找到的英文专业医学资料,尿失禁被列为卡培他滨的罕见副作用之一,发生率在0.01%到0.1%之间。这表明尿失禁确实可能是卡培他滨使用的潜在副作用,尽管它并不常见。” AI可以给出它得出这个结论的多个可靠信息来源。AI如何搜索到这些信息、如何加快搜索的速度、如何综合多个搜索结果做出推理和结论,是更强的增强搜索要做的事情。 RAG在企业级商业应用中具有显著优势。因为在面向客户的场景中,生成内容的准确性至关重要。RAG能够减少生成型AI中的“幻觉”问题。“幻觉”指的是生成听起来合理但实际上是错误的回答。在信息不对称领域,用户不能判断幻觉内容的对错。这导致AI的应用受限。 此处说一个题外话,为什么上面的例子需要指明搜索“英文”专业医学资料?因为在某些不指明英文的情况下,Bing搜索引擎用中文搜索,在中文互联网上找不到匹配的关联信息。如果用最常用的某中文搜索引擎搜索,搜索到的结果大部分是广告和商业网站上意义不相关的信息。 中文搜索引擎和中文互联网的质量堪忧是AI发展的重大问题之一。因此,和大模型相比,想办法打造更强的搜索增强生成技术,也许是在中文互联网开发产品致胜的关键。
上面搜索增强生成的讨论,已经包含了自动代理的部分功能。 当AI经过自我学习和模型升级,当它了解到我总在搜索专业文献后,当我再次询问药物副作用同样模式的问题时,AI会自己启动搜索专业互联网的动作,而不需要我再做指示。就像我的秘书了解我的习惯、不需要我吩咐就把事情做了一样。这是自动代理的用例之一。 自动代理是一种能够自动独立执行任务和做出决策的AI系统。这些代理展现了一定程度的自主性和主动性,能够理解其所处的环境、设定目标,并采取行动实现目标,不再需要人类额外指导。 有一个开源项目叫AutoGPT,它自动分解任务的动作,然后自动分步执行,就像自动执行上面的搜索任务一样。 自动代理在多个领域具有广泛的应用前景。 2024年的订外卖服务也许会变成:你只要和AI说中午订三份我常吃的外卖和客户一起吃,不要辣。AI会自动分析你常吃的外卖、剔除辣的;它知道你是和客户吃,要吃好一点、贵一些;它根据送达的时间和午餐的时间选择商家,然后自动买一份准时达保险。这些步骤在几秒内自动完成。 不止订餐服务,个人日常助理会是自动代理的一个重要应用场景。如果苹果在2024年入局AI,Siri会变成一个更高级的自动代理。现在,你只可以指示Siri打开一个app,Siri还有点愚钝。 自动代理和硬件结合,会有新的产品形态。使用AI加持的苹果公司会是自动代理领域最有实力的竞赛选手。 Humane公司开发的AI Pin是由Sam Altman支持的创新型可穿戴人工智能设备。AI Pin可以夹在衣服上,像校徽一样。它能够响应触摸、语音指令和手势,主要用于搜索和翻译信息、导航等功能,通过语音和AI聊天机器人来交流信息。这款产品预计将在2024年3月开始向消费者发货。 这意味着:未来的每个人都可以有一个随身携带的小秘书,它记录你的会议、见闻、聊天、思想,随叫随到,直到复制出你的数字生命,就像电影《流浪地球》里的数字生命一样。 显然,自动代理需要完整的闭环生态构建和安全管控,它需要打通交互、采购、物流、支付全环节。我相信在2024年,此闭环生态将露出雏形,重量级选手会入场。 |
|
个性签名:无
|
针对ZOL星空(中国)您有任何使用问题和建议 您可以 联系星空(中国)管理员 、 查看帮助 或 给我提意见