Skip to content

huntforpc/world-sets-notes

Repository files navigation

综述

世界观、角色、言辞、论据、思辨等文字集合。文件比较散。

迭代

虽然经过了从6月到9月的迭代,且10、11、12陆续重构,但用于LLM角色扮演,AI在理解时依然会无视事实狡辩,需要继续迭代。

时间线

  • 2025.3之前,确认deepseek无法用作LLm角色扮演。
  • 2025.4~5月左右测试豆包,豆包的api和对应文档稀烂,且审查苛刻。
  • 2025.11之前,重点测试Gemini系列。效果无法让人满意,不是语言歧义,而是LLm本身的刻板印象和智商,如同傻子和变态,同时还是个二极管。
  • 2025.12左右,重点测试deepseek,便宜。问题是,太弱,不及Gemini

2025LLM表现

定性:(截止2025年末,针对Gemini全系列和deepseek全系列)

  1. LLM依然可以用‘弱智’‘固执’‘二极管’三个词语概括【强逻辑/重思辨】时的表现。
  2. 小黄文都能胜任,无非审查问题,但,小黄文没有意义。
  3. 在强逻辑需求时,若AI犯错。此时继续对线AI,是自己寻找痛苦。
  4. 中国公司的AI中,单论角色扮演,deepseek是最强的。已测试豆包系列、百度系列、智谱清言系列(chatglm)、千问系列
  5. gemini强弱
  • 论代码,gemini实测并不比deepseek强。很多时候,deepseek更靠谱,尤其涉及格式问题。这里实测的gds代码能力。
  • 论角色扮演,gemini比deepseek强得多,但容易出多国语言混杂得输出。
    • 个人体验:很多情况下,2025年末的deepseek,体验等同2024年末的未曾降智的gemini flash。
    • 2025年末,‘deepseek3.2 reason’ 和 ‘gemini2.5flash think’,各有千秋。geminiPro则是独领风骚。(限gemini对比中国公司的ai产品)

About

世界观、角色、言辞、论据、思辨等文字集合

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published