Wednesday, February 27, 2008
<數位之牆>通知:來自好友wendy的強烈推薦
|
Tuesday, February 26, 2008
Long-tail related.....
不僅如此,長尾市場的規模還大得驚人;把冷門商品的市場規模加總,甚至可與暢銷商品抗衡。背後的數學很簡單:將一個非常龐大的數字(長尾中的利基商品量)乘以一個相當小的數字(單項長尾商品的銷售量),仍能得到超級大的數字。
長尾理論已是許多企業成功的秘訣。舉例來說,Google的主要利潤不是來自大型企業的廣告,而是小公司(廣告的長尾)的廣告;eBay的獲利主要也來 自長尾的利基商品,例如典藏款汽車、高價精美的高爾夫球桿等。此外,一家大型書店通常可擺放十萬本書,但亞馬遜網路書店的書籍銷售額中,有四分之一來自排 名十萬以後的書籍。這些「冷門」書籍的銷售比例正以高速成長,預估未來可占整體書市的一半。
長尾理論的來臨,將改變企業行銷與生產的思維,帶動另一波商業勢力的消長。執著於培植暢銷商品的人會發現,暢銷商品帶來的利潤越來越薄;願意給長尾商品機會的人,則可能積少成多,累積龐大商機。
長尾理論不只影響企業的策略,也將左右人們的品味與價值判斷。大眾文化不再萬夫莫敵,小眾文化也將有越來越多的擁護者。唯有充分利用長尾理論的人,才能在未來呼風喚雨。
作者簡介
克里斯.安德森(Chris Anderson)
自二○○一年起擔任美國《連線》雜誌(Wired)總編輯。在他的領導之下,《Wired》雜誌五度獲得「美國國家雜誌獎」(National Magazine Award)的提名,並在二○○五年獲得「卓越雜誌獎」(General Excellence)首獎。他在同一年也獲《廣告年代》(Advertising Age)封為「年度編輯」(editor of the year)。他曾服務於《經濟學人》(The Economist)、《自然》(Nature)、以及《科學》(Science)等雜誌。他也曾在Los Alamos國家實驗室擔任研究員,並在交通部(Department of Transportation)擔任首席科學家的研究助理。他目前和妻子與四個小孩住在北加州。聯絡網頁為:www.thelongtail.com
Sunday, February 24, 2008
【轉錄】Google搜尋的強大用法
1.或. Google 正常來說會搜尋你打在搜尋格子裡的字,不過如果你希望找到有兩個字眼或兩個字眼其中之一的頁面,可以使用OR運算子(譬如說 -- 或是 |)節省你尋找的時間,搜尋[正妹 | 林志玲],這樣出來的結果就可能會有林志玲和正妹的或者是兩者皆有的頁面
2.絕對. 如果你想要搜尋特定連結在一起的字彙,就用""把這個字會框起來,搜尋的結果就不會出現把這些字打散的頁面了,譬如說搜尋["正妹林志玲"]這樣的話,就只會出現有這五個字連在一起的頁面,而不會有正妹和林志玲分開的結果
3.排除. 如果你不想在搜尋結果裡看見包含什麼字眼的話,就用 - 把這個字眼排除,譬如搜尋[正妹 -許純美],就不會有許純美是正妹的頁面出現了,我想這兩個字本來就沒有什麼交集了XD
4.相似詞. 使用"~"去尋找相似的字眼,譬如說[~正妹 林志玲 -正妹]這樣搜尋出來的結果,只會有類似美女林志玲,模特兒林志玲的頁面出現,而不會有正妹林志玲的頁面
5.任意字. "*"是個超強的字眼,就好像是撲克牌的鬼牌一樣,想當什麼就可以當什麼,如果你想搜尋中間聽不清楚的歌詞,例如說[If a man could be * part]出來的結果就會有類似[If a man could be two part]了
6.進階搜尋. 如果你想記不起這些運算子,你可以使用Google內的進階搜尋功能http://www.google.com/advanced_search
7.定義. 使用"define:"做出快速的定義,譬如說[define:beauty]Google就會告訴你beauty的定義了
8.計算機. 當然啦,Google也算是最方便的計算機了,你把運算式輸入到Google裡,譬如說[5*5+1]Google就會顯示答案囉
9.數字範圍. 這個功能可能比較少人知道,搜尋[best movie 2000..2007](兩個"."而已喔),搜尋結果會有2000年到2007年最棒的電影喔
10.特定站點. 使用"site:"運算子,你可以搜尋在某個網域裡的特定關鍵字,譬如說[site:www.pixnet.net 正妹],這樣你就能在法鵝的網域內找到正妹的相關頁面了,如此一來就不會有無名和Pchome的結果(大家盡量別用無名了,那個爛東西不值得用)
11.連結. "link:"運算子能搜尋到有連結到特定網址的頁面,譬如說[link:www.kmu.edu.tw]可以找到所有有連結到www.kmu.edu.tw的網站,不過這個的功能現階段不是那麼強大就對了
12.深入搜尋. Google有分類更細的搜尋系統,譬如用http://video.google.com/能搜尋到影片的結果,而http://www.google.com/codesearch能搜尋到很多程式的原始碼,諸如此類..
13.單位轉換. 譬如說你搜尋[台幣=?美金]就會出現Google的統計結果,當然啦,匯率會變,如果轉換標準單位,是很方便的
14.檔案格式. Google能搜得當然不只網頁,如果你用"filetype:"運算子,就能搜尋到很多特定檔案格式的結果,譬如說[filetype:pdf]就能找到很多PDF檔啦,如果用doc和swf也能找到很多東西喔
15.出現地方. 一般搜尋出現的結果是在檔案裡面,如果想要搜尋的關鍵字在標題或網址裡,可以使用"inurl:", "intitle:", "intext:"運算子,第一個是搜尋在網址裡的結果,第二個是搜尋標題,第三個是一般的,搜尋內文
16暫存檔案. 網路上的變化豈止瞬息萬變,有的網站可能開不到幾天就倒閉了,這時候那些資料真的找不到了嗎?不,假如運氣夠好的話,Google裡可能會有他們之前搜尋得暫存檔,用"cached:"運算子,你就能搜尋到Google伺服器暫存的資料了
17.世間萬物的答案. 如果搜尋the answer to life, the universe, and everything,Google將會告訴你答案XD不明白吧?Wikipedia裡有很詳盡的解釋http://0rz.tw/0d2IK
以上的文章本來是用英文打的,所以我在翻譯之後,搜尋結果有些不盡理想箇中奧妙,就請大家慢慢體會吧~
Monday, February 18, 2008
About Decision Tree決策樹
決策樹 Decision Tree
根部 root:資料從根部的節點進入決策樹
子節點 child node:每一個節點代表「是」或「否」的問題點。答案代表前往下一個問題的前進路徑。
葉部節點 leaf node:決策過程一再重複,直到資料到達葉部節點為止
形式:二分式、三分式、 混合式
Attribute屬性選擇的準則:
-
Information Gain(Entropy) :
-
Information Gain Ratio :
-
Gini Index(population diversity : measure the impurity of an attribute respect to classes
-
MDL : Minimum Description Length
選擇 ”最重要的屬性” 做為分隔變數
-
分散度定義:一群物件分散的程度,能使"分散度"or"亂度" 降得最低,即為最佳分隔變數,有以下三種測量方法:
-
Min (P1, P2)
-
P1*P2
-
Entropy(亂度)-P1logP1-P2logP2
-
-
停止的條件(當Leaf Node滿足下列條件 即停止)
-
objects 皆為同一類
-
沒有屬性可以降低"分散度"
用lift來判定經由data mining所產生的績效
-
-
Lift =p(class sample)/p(class population) 樣本/母體
例如:當我們寄信件給整個母體中的 60%個顧客時所得到的回應是當中的80%
則LIFT為: LIFT=0.8/0.6=1.3
-
Decision Tree 之錯誤率
每個Leaf Node 之錯誤率先計算
再將所有 Node加權 算出平均錯誤率
CART (Classification And Regression Tree)
-
找出起始的分隔
-
培養出整棵樹The building phase: constructs a "perfect" tree. The pruning phase: prevents "over-fitting", but there is no single best pruning algorithm
評估每個節點的錯誤率
計算整個決策樹的錯誤率
修剪決策樹
確認入選的分支決策樹
評估分支樹
評估最佳的分支樹
將代價列入考量
應用
-
電腦輔助診斷與判病結局
-
物理學上微粒判定
-
行銷上的預測
CHAID (Chi-xquared
-
培養決策樹
-
選擇分隔變數
-
卡分分析檢驗
-
重新分隔類別
-
評鑑入選的分隔變數
-
限制決策樹的成長
1R
-
對於資料中的每一種屬性都建立一個1 level的決策樹,假若有n個屬性那我們就會有n個決策樹,
-
從這些決策樹中取分類錯誤率最小,當作預測新資料類別的規則。
decision-tree induction
決策樹的推導(Decision tree induction)是一種使用樹狀架構的方法來做分類,結點代表不同的feature,樹枝為feature的值,而樹葉則是不同的分類類別(class label)。
這 種方式是先找一個最佳的特徵作為根節點,所有的資料以此根節點為判斷根據,進行分類,分類在每一個分支的資料再選出最佳的特徵作為根節點,再進行分類,形 式一棵子樹,如此的過程一直重複,直到在一個分支內的所有資料都屬於同一個類別,推導過程才算結束,這個最終的分支就會形式樹葉,裡面記載著該樹葉內的資 料所屬的類別,這樣就會形式一棵決策樹。
詳細的決策樹推導演算法如下:
樹的大小決定於分支的節點數,希望用最少的節點就可以分出結果,因此要如何才能選到最好的feature呢?原則上希望使分支後的每ㄧ個節點,就所要預測的變數而言,同質性越高越好(homogeneous),可利用Information theory 的entropy理論來定義評估標準,同質性高者包含較少資訊,因此entropy比較小。
若ㄧ個節點包含S種預測值,且每ㄧ種預測值在該節點中的出現頻率為則該節點的entropy為
ㄧ個好的feature應該使得其subset的entropy最小,因此一個好的分類結點應該有最大的information gain,其定義為:
(split 前該結點的entropy) –(split 後各子結點的entropy的總和平均),因為希望split後子結點的entropy的總和平均越小越好,所以gain 越大越好。
【轉錄】我們的老祖宗定下的十二生肖含義
用點心閱讀,去體會,去思考,相信讀了這段故事的人也能夠有所得。
可能酒喝多了,一位某國的貴族站了起來,諷刺說:"你們中國人都是屬什麼豬啊!狗啊!老鼠啊!不像我們,都是金牛座、獅子座、仙女座……真不知道你們祖先怎麼想的?"
當時這些貴族聽完哈哈大笑,還互相碰杯,先前的優雅完全不見了。
按理說,人家在罵你祖宗了,你即使沒有話說,起碼可以掀桌子啊!但所有人都坐著不吭聲,也可能是還沒反應過來,我當時只好平和地告訴在場所有外賓:"中國人的祖先是很實在的,我們十二生肖兩兩相對,六道輪回,體現了我們祖先對中國人全部的期望跟要求。"
這時,現場氣氛雖然從嬉鬧轉為安靜,但是他們臉上還是一副不屑的樣子。
我說:"第一組是老鼠和牛。老鼠代表智慧,牛代表勤奮。智慧和勤奮一定要緊緊結合在一起。如果光有智慧不勤奮,那就變成小聰明;而光是勤奮,不動腦筋,那就變成愚蠢。所以這兩者一定要結合,這是我們祖先對中國人的第一組期望和要求,也是最重要的一組。"
"第二組是老虎和兔子。老虎代表勇猛,兔子代表謹慎。勇猛和謹慎一定要緊緊結合在一起,才能做到所謂的膽大心細。如果勇猛離開了謹慎,就變成了魯莽,而你沒有勇猛,一味的謹慎,謹慎就變成膽怯。這一組也非常重要,所以放在第二。"
我看著這些貴族,補上一句:"所以當我們表現出謹慎的時候,千萬不要以為我們中國人沒有勇猛的一面。"
"實際上,我們祖先追求的是一種和諧的智慧和圓融,從來不會單獨給一個要求和任務。"
看著大家陷入沉思,我繼續往下說。
"第三組是龍和蛇。龍代表剛猛,蛇代表柔韌。所謂剛者易折,太剛了容易折斷,但是如果只有柔的一面,就易失去主見,所以剛柔並濟是我們歷代的祖訓。"
"接下來是馬和羊。馬代表一往直前,直奔目標,羊代表和順。如果一個人只顧自己直奔目標,不顧周圍,必然會和周圍不斷磕碰,最後不見得能達到目標。但是一個人如果光顧著和周圍和順,之後他連方向都沒有了,目標也失去了。所以一往無前的秉性一定要與和順緊緊結合在一起,這是我們祖先對中國人的第四組期望。"
"再接下來是猴子和雞。猴子代表靈活,至於雞呢,以前的年代沒有鐘,都是聽雞鳴聲決定一天的開始,所以雞定時打鳴,代表穩定。靈活和穩定一定要緊緊結合起來。
如果你光靈活,沒有穩定,再好的政策最後也得不到收穫。但如果說你光是穩定,一潭死水、一塊鐵板,那就不會有我們今天的改革開放了。只有它們之間非常圓融的結合,一方面具有穩定性,保持整體的和諧和秩序,另一方面又能不斷變通地前進,這才是最根本的要旨。"
"最後是狗和豬。狗是代表忠誠,豬是代表隨和。一個人如果太忠誠,不懂得隨和,就會排斥他人。而反過來,一個人太隨和,沒有忠誠,這個人就失去原則。所以無論是對一個民族國家的忠誠、對團隊的忠誠,還是自己理想的忠誠,一定要與隨和緊緊結合在一起,這樣才容易真正保持內心深處的忠誠。"
"這就是我們中國人一直堅持的外圓內方,君子和而不同。"
"中國人每個人都有屬於自己的生肖,有的人屬豬,有的人屬狗,這意義何在?實際上,我們的祖先期望我們要圓融,不能偏頗,要求我們懂得到對應面切入。比如屬豬的人能夠在他的隨和本性中,也去追求忠誠;而屬狗的人則在忠誠的本性中,去做到隨和。"
解釋完十二生肖,我說:"不知道你們那些寶瓶座啊、射手座啊、公羊座啊,體現了你們祖先哪些期望和要求?也希望不吝賜教。"
結果呢,這些貴族老爺們很長時間都沒說話,全場鴉雀無聲,一根針掉在地上都能聽見。
最後貴族們紛紛由衷地表示對中國人和中國人的祖先非常敬佩:"沒有想到中國的十二生肖有這麼深刻而實在的意義。"