• 近日,国产大模型DeepSeek在全球AI领域异军突起,其在展现出“史诗级”技术实力的同时也面临外部网络攻击威胁。1月28日,360集团创始人周鸿祎宣布将无偿为DeepSeek提供全方位网络安全防护,“以实际行动践行民族大义,坚决捍卫国产AI技术的尊严与安全”。
    近日,国产大模型DeepSeek在全球AI领域异军突起,其在展现出“史诗级”技术实力的同时也面临外部网络攻击威胁。1月28日,360集团创始人周鸿祎宣布将无偿为DeepSeek提供全方位网络安全防护,“以实际行动践行民族大义,坚决捍卫国产AI技术的尊严与安全”。
    0 Comments ·0 Shares ·57 Views ·0 Reviews
  • DeepSeek团队规模不大,不到140人,但“人才密度”极高,成员多是来自清华、北大、北航等顶尖高校的应届博士毕业生、在读生以及硕士生。值得一提的是,团队没有“海归”,完全本土人才。
    DeepSeek团队规模不大,不到140人,但“人才密度”极高,成员多是来自清华、北大、北航等顶尖高校的应届博士毕业生、在读生以及硕士生。值得一提的是,团队没有“海归”,完全本土人才。
    0 Comments ·0 Shares ·68 Views ·0 Reviews
  • 1. 关于DeepSeek的潜力
    DeepSeek虽暂不及英伟达与台积电,但其在AI芯片架构上展现了潜力。中国在AI芯片研发上投入巨大,如寒武纪、华为昇腾系列均取得突破,显示中国具备原创能力,而非仅靠模仿。
    2. 关于造假问题
    个别造假事件不能代表整体科研水平。清华在2022年Nature指数中排名全球第一,中国科研论文数量连续多年全球第一。这些成就说明中国科研生态已具备全球竞争力。
    3. 台积电与英伟达股价波动
    股价波动更多因估值较高与市场情绪。尽管中国厂商如中芯国际崛起短期难撼动台积电,但中国在半导体供应链上的投入(全球设备采购占比33%)体现了长期布局。
    4. 中国科技能否超越美国
    在5G、无人机、光伏等领域,中国已全球领先,如光伏组件出货量占全球70%以上。虽在高端芯片领域存在差距,但差距逐步缩小,华为5G专利数领先美国即为典型案例。
    中国科技发展不可低估,DeepSeek虽短期难威胁英伟达与台积电,但长期潜力值得重视。在投资上,与其过度担忧,不如关注趋势,把握机遇。
    1. 关于DeepSeek的潜力 DeepSeek虽暂不及英伟达与台积电,但其在AI芯片架构上展现了潜力。中国在AI芯片研发上投入巨大,如寒武纪、华为昇腾系列均取得突破,显示中国具备原创能力,而非仅靠模仿。 2. 关于造假问题 个别造假事件不能代表整体科研水平。清华在2022年Nature指数中排名全球第一,中国科研论文数量连续多年全球第一。这些成就说明中国科研生态已具备全球竞争力。 3. 台积电与英伟达股价波动 股价波动更多因估值较高与市场情绪。尽管中国厂商如中芯国际崛起短期难撼动台积电,但中国在半导体供应链上的投入(全球设备采购占比33%)体现了长期布局。 4. 中国科技能否超越美国 在5G、无人机、光伏等领域,中国已全球领先,如光伏组件出货量占全球70%以上。虽在高端芯片领域存在差距,但差距逐步缩小,华为5G专利数领先美国即为典型案例。 中国科技发展不可低估,DeepSeek虽短期难威胁英伟达与台积电,但长期潜力值得重视。在投资上,与其过度担忧,不如关注趋势,把握机遇。
    0 Comments ·0 Shares ·94 Views ·0 Reviews
  • 华尔街周一紧张评估“DeepSeek风暴”之际,这家中国公司再度甩出新品:在图像生成基准测试中超越OpenAI“文生图”模型DALL-E 3的多模态大模型Janus-Pro,同样也是开源的。
    华尔街周一紧张评估“DeepSeek风暴”之际,这家中国公司再度甩出新品:在图像生成基准测试中超越OpenAI“文生图”模型DALL-E 3的多模态大模型Janus-Pro,同样也是开源的。
    Love
    1
    · 0 Comments ·0 Shares ·98 Views ·0 Reviews
  • DeepSeek-R1发布后全世界都忙疯了,这可不是中国逼他们的,因为最终他们发现,中国人用更少的资源搞出了比美国任何一个大模型都优秀的AI,账目对不上了,各大AI投资人都在担心自己花出去的千亿美元资金能不能收回本金的问题!
    DeepSeek-R1发布后全世界都忙疯了,这可不是中国逼他们的,因为最终他们发现,中国人用更少的资源搞出了比美国任何一个大模型都优秀的AI,账目对不上了,各大AI投资人都在担心自己花出去的千亿美元资金能不能收回本金的问题!
    0 Comments ·0 Shares ·91 Views ·0 Reviews
  • 星期一美国股市大震撼
    盘前交易股价
    辉达和台积电股价下杀10%以上
    美国科技股像遭到大地震袭击

    大杀盘的原因只有一个
    美国几家专业及学术机构认证
    最新出炉的AI模型
    「深寻」或「深度求索」DeepSeek
    与OpenAI的ChatGPT较量
    有过之而无不及

    OpenAI的ChatGPT要使用
    大量昂贵的辉达AI晶片
    要用台积电的高端制程
    要花费钜资盖豪华的算力中心
    还要耗尽庞大的电力

    更令人讶异的是
    DeepSeek都不需要
    不需要昂贵的辉达AI晶片
    所以辉达股价下挫
    也不需要台积电的高端制程
    所以台积电股价下杀

    原本ChatGPT开创出来的
    演算法已经走在AI前沿
    打败Google和Amazon的AI演算法
    带着辉达和台积电风光了两年

    没想到DeepSeek横空出世
    开创出来另一条AI模型新捷径
    目前被认定可能会像
    抖音把YT挤到老二那样子
    DeepSeek把ChapGPT挤到老二
    连带拉AMD和华为
    让辉达无法唯我独尊
    更让拜登和雷蒙多这两个蠢货
    要遏止中国AI的念头成了一场白日梦

    DeepSeek 的设计者是一群
    北京大学和清华大学的博士
    这下子有好戏看了
    中美竞争刚开始
    美国认为不卖辉达晶片给中国
    中国的AI就没搞头
    虽然中国晶片目前还输美国
    美国没料到中国却在AI模型硬超车
    看看美国还有什么法宝
    可以遏制中国的AI?
    星期一美国股市大震撼 盘前交易股价 辉达和台积电股价下杀10%以上 美国科技股像遭到大地震袭击 大杀盘的原因只有一个 美国几家专业及学术机构认证 最新出炉的AI模型 「深寻」或「深度求索」DeepSeek 与OpenAI的ChatGPT较量 有过之而无不及 OpenAI的ChatGPT要使用 大量昂贵的辉达AI晶片 要用台积电的高端制程 要花费钜资盖豪华的算力中心 还要耗尽庞大的电力 更令人讶异的是 DeepSeek都不需要 不需要昂贵的辉达AI晶片 所以辉达股价下挫 也不需要台积电的高端制程 所以台积电股价下杀 原本ChatGPT开创出来的 演算法已经走在AI前沿 打败Google和Amazon的AI演算法 带着辉达和台积电风光了两年 没想到DeepSeek横空出世 开创出来另一条AI模型新捷径 目前被认定可能会像 抖音把YT挤到老二那样子 DeepSeek把ChapGPT挤到老二 连带拉AMD和华为 让辉达无法唯我独尊 更让拜登和雷蒙多这两个蠢货 要遏止中国AI的念头成了一场白日梦 DeepSeek 的设计者是一群 北京大学和清华大学的博士 这下子有好戏看了 中美竞争刚开始 美国认为不卖辉达晶片给中国 中国的AI就没搞头 虽然中国晶片目前还输美国 美国没料到中国却在AI模型硬超车 看看美国还有什么法宝 可以遏制中国的AI?
    Love
    1
    · 0 Comments ·0 Shares ·64 Views ·0 Reviews
  • 高盛集團(Goldoldman Sachs)1月24日發布最新《機構經紀業務專報》顯示,全球避險基金正加速撤離科技類股部位。根據路透社獨家取得該份涵蓋1月17日至24日交易數據的報告,這波資金轉移已從核心科技板塊擴散至相關基礎設施產業,包括資料中心營運商與電動車充電網絡開發商等「算力基建概念股」。

    這份重量級市場分析指出,儘管AI技術突破持續為電力供應與能源系統升級產業帶來「綠色溢價」,但機構投資人正重新評估美國科技業的戰略價值。值得關注的是,避險基金單周淨賣出額創下去年第四季以來新高,其中半導體設備與雲端服務類股遭減持幅度最為顯著。

    「當中國深度求索(DeepSeek)這類新創能以十分之一成本開發出同級AI模型,華爾街不得不質疑矽谷的技術壟斷能否持續。」艾倫資本管理公司(Erlen Capital Management)董事總經理布魯諾·施奈勒(Bruno Schneller)接受訪問時強調,美國科技產業雖坐擁年均2,300億美元的AI投資規模,但在全球競爭版圖中首度出現結構性挑戰。

    市場觀察家指出,這波撤資潮恰逢美國聯邦通訊委員會(FCC)重審科技巨頭數據壟斷條款之際,投資機構正透過「超前部署」策略,將部分資金轉進再生能源與智慧電網等具政策紅利的概念股。高盛報告特別點名北美三大區域電網運營商,近期機構持股比例逆勢增長達18%,反映市場對AI算力基礎建設的長期押注
    高盛集團(Goldoldman Sachs)1月24日發布最新《機構經紀業務專報》顯示,全球避險基金正加速撤離科技類股部位。根據路透社獨家取得該份涵蓋1月17日至24日交易數據的報告,這波資金轉移已從核心科技板塊擴散至相關基礎設施產業,包括資料中心營運商與電動車充電網絡開發商等「算力基建概念股」。 這份重量級市場分析指出,儘管AI技術突破持續為電力供應與能源系統升級產業帶來「綠色溢價」,但機構投資人正重新評估美國科技業的戰略價值。值得關注的是,避險基金單周淨賣出額創下去年第四季以來新高,其中半導體設備與雲端服務類股遭減持幅度最為顯著。 「當中國深度求索(DeepSeek)這類新創能以十分之一成本開發出同級AI模型,華爾街不得不質疑矽谷的技術壟斷能否持續。」艾倫資本管理公司(Erlen Capital Management)董事總經理布魯諾·施奈勒(Bruno Schneller)接受訪問時強調,美國科技產業雖坐擁年均2,300億美元的AI投資規模,但在全球競爭版圖中首度出現結構性挑戰。 市場觀察家指出,這波撤資潮恰逢美國聯邦通訊委員會(FCC)重審科技巨頭數據壟斷條款之際,投資機構正透過「超前部署」策略,將部分資金轉進再生能源與智慧電網等具政策紅利的概念股。高盛報告特別點名北美三大區域電網運營商,近期機構持股比例逆勢增長達18%,反映市場對AI算力基礎建設的長期押注
    Love
    1
    · 0 Comments ·0 Shares ·73 Views ·0 Reviews
  • 中國人工智慧新創公司DeepSeek憑藉低成本、高效能的大語言模型強勢崛起,近日在國際市場投下震撼彈,掀起全球對美國AI技術主導地位的質疑聲浪。受此衝擊,美股三大指數今(25)日開盤全面重挫,半導體類股更成重災區,輝達(NVIDIA)股價盤初暴跌逾3%,引發市場高度關注。

    ▌美股開盤速報

    道瓊工業指數:下跌275.4點(跌幅0.62%),報44,148.84點

    標普500指數:重挫132.2點(跌幅2.17%),報5,969.04點

    那斯達克綜合指數:暴跌720.3點(跌幅3.61%),報19,234.04點

    ▌科技股領跌 晶片巨頭承壓
    以AI晶片龍頭輝達為首的半導體族群首當其衝,分析師指出,DeepSeek透過演算法優化大幅降低運算資源需求,若此技術趨勢擴散,恐削弱市場對高階晶片的依賴。值得注意的是,DeepSeek成立僅一年即憑開源策略快速滲透市場,其模型效能直逼國際大廠卻僅需1/10訓練成本,技術突破令業界咋舌。

    ▌產業衝擊波持續發酵
    儘管DeepSeek尚未公佈商業化具體規劃,但其技術路線已撼動資本市場信心。華爾街交易員透露,部分機構投資人正重新評估AI硬體供應鏈的長期前景,導致相關類股遭逢獲利了結賣壓。市場關注本週將公佈的企業財報與聯準會政策會議,能否為科技股注入止跌動能。
    中國人工智慧新創公司DeepSeek憑藉低成本、高效能的大語言模型強勢崛起,近日在國際市場投下震撼彈,掀起全球對美國AI技術主導地位的質疑聲浪。受此衝擊,美股三大指數今(25)日開盤全面重挫,半導體類股更成重災區,輝達(NVIDIA)股價盤初暴跌逾3%,引發市場高度關注。 ▌美股開盤速報 道瓊工業指數:下跌275.4點(跌幅0.62%),報44,148.84點 標普500指數:重挫132.2點(跌幅2.17%),報5,969.04點 那斯達克綜合指數:暴跌720.3點(跌幅3.61%),報19,234.04點 ▌科技股領跌 晶片巨頭承壓 以AI晶片龍頭輝達為首的半導體族群首當其衝,分析師指出,DeepSeek透過演算法優化大幅降低運算資源需求,若此技術趨勢擴散,恐削弱市場對高階晶片的依賴。值得注意的是,DeepSeek成立僅一年即憑開源策略快速滲透市場,其模型效能直逼國際大廠卻僅需1/10訓練成本,技術突破令業界咋舌。 ▌產業衝擊波持續發酵 儘管DeepSeek尚未公佈商業化具體規劃,但其技術路線已撼動資本市場信心。華爾街交易員透露,部分機構投資人正重新評估AI硬體供應鏈的長期前景,導致相關類股遭逢獲利了結賣壓。市場關注本週將公佈的企業財報與聯準會政策會議,能否為科技股注入止跌動能。
    Haha
    1
    · 0 Comments ·0 Shares ·69 Views ·0 Reviews
  • #全球掀起deepseek复现狂潮硅谷巨头神话崩塌
    #全球掀起deepseek复现狂潮硅谷巨头神话崩塌
    全球掀起DeepSeek复现狂潮,硅谷巨头神话崩塌
    news.hot166.com
    本文来自微信公众号:新智元,作者:新智元,原文标题:《全球掀起DeepSeek复现狂潮,硅谷巨头神话崩塌,30刀见证啊哈时刻》,题图来自:视觉中国这些天,硅谷彻底处于中国公司带来的大地震余波中。全美都在恐慌:是否全球人工智能的中心已经转移到了中国?就在这当口,全球复现DeepSeek的一波狂潮也来了。诚如LeCun所言:“这一次,正是开源对闭源的胜利!”在没有顶级芯片的情况下,以极低成本芯片训练出突破性模型的DeepSeek,或将威胁到美国的AI霸权。大模型比拼的不再是动辄千万亿美元的算力战。OpenAI、Meta、谷歌这些大公司引以为傲的技术优势和高估值将会瓦解,英伟达的股价将开始动摇。种种这些观点和讨论,让人不禁怀疑:数百亿美元支出,对这个行业真的必要吗?甚至有人说,中国量化基金的一群天才,将导致纳斯达克崩盘。从此,大模型时代很可能会进入一个分水岭:超强性能的模型不再独属于算力巨头,而是属于每个人。一、30美金,就能看到“啊哈”时刻来自UC伯克利博士生潘家怡和另两位研究人员,在CountDown游戏中复现了DeepSeek R1-Zero。他们表示,结果相当出色!实验中,团队验证了通过强化学习RL,3B的基础语言模型也能够自我验证和搜索。更令人兴奋的是,成本不到30美金(约217元),就可以亲眼见证“啊哈”时刻。这个项目叫做TinyZero,采用了R1-Zero算法——给定一个基础语言模型、提示和真实奖励信号,运行强化学习。然后,团队将其应用在CountDown游戏中(这是一个玩家使用基础算术运算,将数字组合以达到目标数字的游戏)。模型从最初的简单输出开始,逐步进化出自我纠正和搜索的策略。在以下示例中,模型提出了解决方案,自我验证,并反复纠正,直到解决问题为止。在消融实验中,研究人员运行了Qwen-2.5-Base(0.5B、1.5B、3B、7B四种参数规模)。结果发现,0.5B模型仅仅是猜测一个解决方案然后停止。而从1.5B开始,模型学会了搜索、自我验证和修正其解决方案,从而能够获得更高的分数。他们认为,在这个过程中,基础模型是性能的关键。他们还验证了,额外的指令微调(SFT)并非必要的,这也印证了R1-Zero的设计决策。这是首个验证LLM推理能力的实现可以纯粹通过RL,无需监督微调的开源研究。基础模型和指令模型两者的区别:指令模型运行速度快,但最终表现与基础模型相当;指令输出的模型更具结构性和可读性。此外,他们还发现,具体的RL算法并不重要。在PPO、GRPO、PRIME这些算法中,长思维链(Long CoT)都能够涌现,且带来不错的性能表现。而且,模型在推理行为中非常依赖于具体的任务:对于Countdow任务,模型可以学习进行搜索和自我验证;对于数字乘法任务,模型反而学习使用分布规则分解问题,并逐步解决。苹果机器学习科学家Yizhe Zhang对此表示,太酷了,小到1.5B的模型,也能通过RL涌现出自我验证的能力。二、7B模型复刻,结果令人惊讶港科大助理教授何俊贤的团队(共同一作黄裕振、Weihao Zeng),只用了8K个样本,就在7B模型上复刻出了DeepSeek-R1-Zero和DeepSeek-R1的训练。结果令人惊喜——模型在复杂的数学推理上取得了十分强劲的结果。项目地址:https://github.com/hkust-nlp/simpleRL-reason他们以Qwen2.5-Math-7B(基础模型)为起点,直接对其进行强化学习。整个过程中,没有进行监督微调(SFT),也没有使用奖励模型。最终,模型在AIME基准上实现了33.3%的准确率,在AMC上为62.5%,在MATH上为77.2%。这一表现不仅超越了Qwen2.5-Math-7B-Instruct,还可以和使用超过50倍数据量和更复杂组件的PRIME和rStar-MATH相媲美!其中,Qwen2.5-7B-SimpleRL-Zero是在Qwen2.5-Math-7B基础模型上仅使用纯PPO方法训练的,仅采用了MATH数据集中的8K样本。Qwen2.5-7B-SimpleRL则首先通过Long CoT监督微调(SFT)作为冷启动,然后再进行强化学习。在这两种方法中,团队都只使用了相同的8K MATH样本,仅此而已。大概在第44步的时候,“啊哈时刻”出现了!在模型的响应中,出现了自我反思。并且,在这个过程中,模型还显现了更长的CoT推理能力和自我反思能力。在博客中,研究者详细剖析了实验设置,以及在这个强化学习训练过程中所观察到的现象,例如长链式思考(CoT)和自我反思机制的自发形成。与DeepSeek R1类似,研究者的强化学习方案极其简单,没有使用奖励模型或MCTS(蒙特卡洛树搜索)类技术。他们使用的是PPO算法,并采用基于规则的奖励函数,根据生成输出的格式和正确性分配奖励:如果输出以指定格式提供最终答案且正确,获得+1的奖励;如果输出提供最终答案但不正确,奖励设为-0.5;如果输出未能提供最终答案,奖励设为-1。该实现基于OpenRLHF。初步试验表明,这个奖励函数有助于策略模型快速收敛,产生符合期望格式的输出。三、第一部分:SimpleRL-Zero(从头开始的强化学习)接下来,研究者为我们分享了训练过程动态分析和一些有趣的涌现模式。训练过程动态分析如下所示,所有基准测试的准确率在训练过程中都在稳步提高,而输出长度则呈现先减少后逐渐增加的趋势。经过进一步调查,研究者发现,Qwen2.5-Math-7B基础模型在初始阶段倾向于生成大量代码,这可能源于模型原始训练数据的分布特征。输出长度的首次下降,是因为强化学习训练逐渐消除了这种代码生成模式,转而学会使用自然语言进行推理。随后,生成长度开始再次增加,此时出现了自我反思机制。训练奖励和输出长度基准测试准确率(pass@1)和输出长度自我反思机制的涌现在训练到第 40 步左右时,研究者观察到:模型开始形成自我反思模式,这正是DeepSeek-R1论文中所描述的“aha moment”(顿悟时刻)。四、第二部分:SimpleRL(基于模仿预热的强化学习)如前所述,研究者在进行强化学习之前,先进行了long CoT SFT预热,使用了8 000个从QwQ-32B-Preview中提取的MATH示例响应作为SFT数据集。这种冷启动的潜在优势在于:模型在开始强化学习时已具备long CoT思维模式和自我反思能力,从而可能在强化学习阶段实现更快更好的学习效果。与RL训练前的模型(Qwen2.5-Math-7B-Base + 8K QwQ知识蒸馏版本)相比,Qwen2.5-7B-SimpleRL的平均性能显著提升了6.9个百分点。此外,Qwen2.5-7B-SimpleRL不仅持续优于Eurus-2-7B-PRIME,还在5个基准测试中的3个上超越了Qwen2.5-7B-SimpleRL-Zero。训练过程分析训练奖励和输出长度基准测试准确率(pass@1)和输出长度Qwen2.5-SimpleRL的训练动态表现与Qwen2.5-SimpleRL-Zero相似。有趣的是,尽管研究者先进行了long CoT SFT,但在强化学习初期仍然观察到输出长度减少的现象。他们推测,这可能是因为从QwQ提取的推理模式不适合小型策略模型,或超出了其能力范围。因此,模型选择放弃这种模式,转而自主发展新的长链式推理方式。最后,研究者用达芬奇的一句话,对这项研究做了总结:简约,便是最终极的精致。五、完全开源复刻,HuggingFace下场了甚至,就连全球最大开源平台HuggingFace团队,今天官宣复刻DeepSeek R1所有pipeline。复刻完成后,所有的训练数据、训练脚本等将全部开源。这个项目叫做Open R1,当前还在进行中。发布到一天,星标冲破1.9k,斩获142个fork。项目地址:https://github.com/huggingface/open-r1研究团队以DeepSeek-R1技术报告为指导,将整个复刻过程划分为三个关键步骤。步骤 1:通过从DeepSeek-R1蒸馏高质量语料库,复现R1-Distill模型。步骤 2:复现DeepSeek用于创建R1-Zero的纯强化学习(RL)流程。这可能需要为数学、推理和代码任务策划新的大规模数据集。步骤 3:展示我们如何通过多阶段训练,从基础模型发展到经过RL调优的模型。六、从斯坦福到MIT,R1成为首选一个副业项目,让全世界科技大厂为之惶恐。DeepSeek这波成功,也成为业界的神话,网友最新截图显示,这款应用已经在APP Store“效率”应用榜单中挤进前三。在Hugging Face中,R1下载量直接登顶,另外3个模型也霸占着热榜。a16z合伙人Anjney Midha称,一夜之间,从斯坦福到MIT,DeepSeek R1已经成为美国顶尖高校研究人员“首选模型”。还有研究人员表示,DeepSeek基本上取代了我用ChatGPT的需求。中国AI,这一次真的震撼了世界。参考资料:https://x.com/junxian_he/status/1883183099787571519https://x.com/jiayi_pirate/status/1882839370505621655本文来自微信公众号:新智元,作者:新智元
    0 Comments ·0 Shares ·61 Views ·0 Reviews