知乎上线“AI搜索”功能 中文语料资源短缺有待破解
稀土掘金
发表于 2024-3-21 18:17:35
214
0
0
据知乎创始人、董事长兼CEO周源介绍,知乎的AI搜索集搜索、实时问答和追问功能于一体,而且与其他大模型提供的内容不同,知乎AI搜索的内容均来自社区专业创作者的可信赖内容。
上图为记者测试知乎AI搜索
记者测试发现,在知乎AI搜索中提问“如何使用大模型”,除了其他语言大模型都有的文字回答外,知乎AI搜索还在结果上面列入了内容来源,比如记者测试的问题答案,就有6位答主参与了贡献,并且可以通过点击直接跳转至这些回答页面。
知乎COO、高级副总裁、社区业务负责人张宁在接受21世纪经济报道记者采访时表示,知乎的AI产品一定是建立在社区生态上面的。“我们一直在思考的是,AI搜索搜出的结果,如何再反哺给创作者,让创作者感觉到内容是被更多人看到的”。
所以在内容呈现上,知乎有别于其他模型,会在回答内容中标注内容来源,这样既提升了内容的可溯源性,加大了对创作者的曝光,同时也大大增强了用户对内容的信任度
记者了解到,知乎的AI搜索功能是以AI创业公司面壁智能的大模型产品为基础。面壁智能成立于2022年8月,创始成员全部来自清华大学NLP实验室。2023年3月,知乎作为领投方参与了面壁智能的天使轮融资,同年4月,知乎联合面壁智能发布了“知海图AI”中文大模型。
周源此前曾向21世纪经济报道记者表示,在AI时代,生产力的三要素分别是应用场景、专有数据和基础模型。其中,知乎在应用场景和专有数据方面,占据独特优势。而在基础模型方面,投资面壁智能并与其进行模型共建,是知乎构建基础模型层能力时,选择的一条捷径。
而这次“AI搜索”功能上线,算是知乎在大模型技术应用上的一个阶段性成果。张宁告诉21世纪经济报道,知乎针对AIGC的布局,在ToC产品上会聚焦于“AI搜索”。
“因为AI搜索跟知乎用户的心智是高度对齐的,用户希望在知乎解决问题,希望获得专业可信赖的优质解答,而正是AI搜索所提供的能力”。张宁说。
所以接下来,知乎也会在AI搜索方面投入更多精力,包括在特定的专业领域上进行更多的数据标注,以提高生成内容的可信度。
目前,市面上做AI搜索的公司已经不少,对知乎而言,其拥有的一大优势就是高质量的中文语料。公开数据显示,截至2022年底,知乎累计拥有6310万名内容创作者,他们贡献了约5.06亿条问答内容,覆盖超过1000个垂直领域。
在大模型训练过程中,训练预料质量将直接影响大模型输出内容质量。各个厂商为了提升模型质量,往往会投入大量资源对数据进行标注。但张宁向记者表示,知乎在数据标注上的投入,远低于其他厂商。
张宁进一步表示,知乎AI搜索的第一个版本在春节前一周就已经上线,后面经过一个多月的灰度测试,“我们收到的整体反馈是,回答质量要高于预期”。
在张宁看来,这个结果也印证了知乎中文语料的优质。“说实话,这么短的时间内我们不太可能做特别大规模的数据标注,但取得这样的结果,说明我们的数据底子好。过去大家一直说知乎的内容质量高,这次也通过AI训练的方式进行了验证”。
不过,按照大模型的发展速度,知乎储备的中文语料数据未来或也将捉襟见肘。今年年初,周源在接受记者采访时也曾提到中文语料短缺的问题。他说,中文优质数据的稀缺,导致国内许多从事大模型开发的研究机构和企业在进行模型训练时,不得不依赖于外文标注数据集、开源数据集,或是爬取网络数据。
在他看来,解决中文语料资源短缺的问题,实际上应该是先构建“水库”,然后再去合理使用的过程。但是现在,行业对构建“水库”的工作重视不够,反而都比较看重怎么去“打水”,所以未来几年,中文语料资源短缺都将是一个特别严重的问题。
CandyLake.com 系信息发布平台,仅提供信息存储空间服务。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
猜你喜欢
- 明年支持中文!苹果的首台AI手机iPhone 16来了
- 苹果中文AI明年见 换机周期能否开启?
- iPhone 16系列亮相!苹果AI明年支持中文 起售价5999元!一文看清苹果今年最重大发布会
- 铜价长期将飙升?必和必拓:AI浪潮将加剧铜短缺
- 何小鹏驾驶“全球首款AI汽车”亮相云栖大会 深化与阿里云AI算力合作
- 黄仁勋“凡尔赛”感叹:芯片短缺让客户近失控 焦虑情绪满天飞
- 陈睿:B站已上线自研大语言模型 日均支持数十万非中文稿件翻译
- 高通CEO:AI热潮不会导致全球芯片短缺重演
- G20经济体进口贸易限制措施激增,WTO:会造成贸易短缺、价格波动和不确定性
- 人民币重回全球第四大最活跃货币 占比升至3.89%
-
生成式人工知能(AI)が巻き起こす技術の波の中で、電力会社は意外にも資本市場の寵児になった。 今年のスタンダード500割株の上昇幅ランキングでは、Vistraなどの従来の電力会社が注目を集め、株価が2倍になってリ ...
- xifangczy
- 3 天前
- 支持
- 反对
- 回复
- 收藏
-
隔夜株式市場 世界の主要指数は金曜日に多くが下落し、最新のインフレデータが減速の兆しを示したおかげで、米株3大指数は大幅に回復し、いずれも1%超上昇した。 金曜日に発表されたデータによると、米国の11月のPC ...
- SNT
- 前天 12:48
- 支持
- 反对
- 回复
- 收藏
-
長年にわたって、昔の消金大手の捷信消金の再編がようやく地に着いた。 天津銀行の発表によると、同行は京東傘下の2社、対外貿易信託などと捷信消金再編に参加する。再編が完了すると、京東の持ち株比率は65%に達し ...
- SNT
- 前天 12:09
- 支持
- 反对
- 回复
- 收藏
-
グーグルは現地時間12月19日、新しい「推理」モデルとしてGemini 2.0 Flash Thinkingを発売すると発表した。紹介によると、このモデルはまだ実験段階であり、訓練を経た後、モデルが反応を起こした時に経験した「思 ...
- 地下水
- 3 天前
- 支持
- 反对
- 回复
- 收藏