メインコンテンツにスキップ

On different aspects of neural networks

One Nural in Transformer

如何觀察

  • step 1: observe active nural
  • step 2: remove active nural -> you can set value to 0 or average

One layer of Nural

  • 我們觀察到一個動作可能是由一組vector 去控制的

如何找到所有 function vector

  • solution: Space Auto Encoder (SAE)

Nural Network

Puring (Network Compression) (知識抽取)

  • 將LLM縮小,且Input Output(我們所關注的)值不變。
  • 產生出來新的LLM called Circuit ,重點在可解釋性

Logit Lens

  • 可以分析每一層的 unembedding 後的的結果