Icon語言
Icon是一門領域特定的高階程式語言,有着「目標(goal)導向執行」特徵,和操縱字串和文字模式的很多設施。它衍生自SNOBOL和SL5字串處理語言[6]。Icon不是物件導向的,但在1996年開發了叫做Idol的物件導向擴充,它最終變成了Unicon。
編程範型 | 多範式:面向文字, 結構化 |
---|---|
設計者 | Ralph Griswold |
釋出時間 | 1977年 |
目前版本 | |
型態系統 | 動態 |
許可證 | 公有領域 |
網站 | www |
主要實作產品 | |
Icon, Jcon | |
衍生副語言 | |
Unicon | |
啟發語言 | |
SNOBOL[3], SL5[4], ALGOL | |
影響語言 | |
Unicon, Python[5], Goaldi |
歷史
在1971年8月,SNOBOL的設計者之一Ralph Griswold離開了貝爾實驗室,成為了亞利桑那大學的教授[7]。他那時將SNOBOL4介入為研究工具[8]。
作為最初在1960年代早期開發的語言,SNOBOL的語法帶有其他早期程式語言的印記,比如FORTRAN和COBOL。特別是,語言是依賴列的,像很多要錄入到打孔卡的語言一樣,有着列佈局是很自然的。此外,控制結構幾乎完全基於了分支,而非使用塊,而塊在ALGOL 60中介入之後,已經成為了必備的特徵。在他遷移到亞利桑那的時候,SNOBOL4的語法已然過時了[9]。
Griswold開始致力於用傳統的流程控制結構如if ~ then ~
,來實現SNOBOL底層的成功和失敗概念。這成為了SL5,即「SNOBOL Language 5」的簡寫,但是結果不令人滿意[9]。在1977年,他考慮設計語言的新版本。他放棄了在SL5中介入的非常強力的函數系統,介入更簡單的暫停和恢復概念,並為SNOBOL4自然後繼者開發了新概念,具有如下的原則[9]:
- SNOBOL4的哲學和語意基礎;
- SL5的語法基礎;
- SL5的特徵,排除廣義的過程機制。
新語言最初叫做SNOBOL5,但因為除了底層概念外,全都與SNOBOL有着顯著的差異,最終想要一個新名字。在這個時候Xerox PARC發表了他們關於圖形化使用者介面的工作,術語「icon」從而進入了電腦詞彙中。起初確定為「icon」而最終選擇了「Icon」[9]。
基本語法
Icon語言衍生自ALGOL類的結構化編程語言,因而有着類似C或Pascal的語法。Icon最類似於Pascal的地方,是使用了:=
語法的賦值,procedure
關鍵字和類似的語法。在另一方面,Icon使用C風格的花括號來結構化執行分組,並且程式開始於執行叫做main
的過程。
Icon還在很多方面分享了多數手稿語言(還有SNOBOL及SL5)的特徵:變數不需要聲明,類型是自動轉換的,就說數字和字串可以自動來迴轉換。另一個常見於很多而非全部的手稿語言的特徵,是指令碼中缺少行終止字元;在Icon中,對於不結束於分號的行,由Icon編譯器自動的插入分號來終結,而這種插入的前提是它不會導致跨行的表達式遭到錯誤的分隔。
過程是Icon程式的基本建造塊。儘管它們使用Pascal名稱,但工效上更像C函數並可以返回值;在Icon中沒有function
關鍵字。
Icon允許任何過程,分別執行return
或suspend
陳述式,來返回一個單一值或所要返回的多個值中的一個值。過程已經執行到它的end
處,或者執行了fail
陳述式,它會返回&fail
。例如:
呼叫f(5)
將返回1
,而呼叫f(-1)
將返回&fail
。這將導致不明顯的行為,比如write(f(-1))
由於f(-1)
失敗而導致write()
也跟着中止了;還有x := f(-1)
對x
賦值也不會發生[10]。
目標導向執行
Icon的關鍵概念之一就是其控制結構基於表達式的「成功」或「失敗」,而非大多數其他程式語言中的布林運算。這個特徵直接衍生自SNOBOL,在其中表達式求值、模式匹配和模式匹配連帶替換,都可以跟隨着成功或失敗子句,用來指定在這個條件下要分支到一個陳述式標籤。例如,下列代碼列印「Hello, World!」五次[11]:
* 打印Hello, World!五次的SNOBOL程序
I = 1
LOOP OUTPUT = "Hello, World!"
I = I + 1
LE(I, 5) : S(LOOP)
END
要進行迴圈,在索引變數I
之上呼叫內建的函數LE()
(小於等於),並且S(LOOP)
測試它是否成功,即在I
小於等於5
之時,分支到命名標籤LOOP
而繼續下去[11]。
Icon保留了基於成功或失敗的控制流程的基本概念,但進一步發展了語言。一個變更是將加標籤的GOTO
式的分支,替代為面向塊的結構,符合在1960年代後期席捲電腦工業的結構化編程風格[9]。另一個變更是允許失敗沿着呼叫鏈向上載遞,使得整個塊作為一個整體的成功或失敗。這是Icon語言的關鍵概念。而在傳統語言中,必須包括基於布林運算的測試成功或失敗的代碼,並接着基於產出結果進行分支,這種測試和分支是原生於Icon代碼的,而不需要明確的寫出[12]。考慮如下複製標準輸入到標準輸出的簡單代碼:
它的含義是:「只要讀取不返回失敗,呼叫寫出,否則停止」[13]。在Icon中,read()
函數返回一行文字或&fail
。&fail
不同於C語言中的特殊返回值EOF
(檔案結束),它被語言依據上下文明確理解為意味着「停止處理」或「按失敗狀況處理」。這裏即使read()
導致一個錯誤它都會工作,比如說如果檔案不存在。在這種情況下,陳述式a := read()
會失敗,而write()
簡單的不被呼叫。
呼叫鏈傳遞
成功和失敗將沿着呼叫鏈向上載遞,意味着可以將函數呼叫嵌入其他函數呼叫內,在巢狀的函數呼叫失敗時,它們整體停止。例如,上面的代碼可以精簡為[14]:
在read()
命令失敗的時候,比如在檔案結束之處,失敗將沿着呼叫鏈上載,而write()
也會失敗。while
作為一個控制結構,在失敗時停止。Icon稱謂這個概念為「目標導向執行」,指稱這種只要某個目標達到執行就繼續的方式。在上面的例子中目標是讀整個檔案;讀命令在有資訊讀到的時候成功,而在沒有的時候失敗。目標因此直接編碼於語言中,不用再去檢查返回碼或類似的構造。
成敗測試
Icon使用目標導向機制用於進行傳統的布林測試,儘管有着微妙的差異。一個簡單的比較如if a < b then write("a is smaller than b")
,這裏的if
子句,不像在多數語言中那樣意味着:「如果測試運算求值為真」;轉而它的意味更像是:「如果測試運算成功」。在這個例子情況下,如果這個比較為真,則<
運算成功。如果if
子句測試這個表達式成功,則呼叫then
子句,如果它失敗了,則呼叫else
子句或下一行。結果同於在其他語言中見到的傳統if ~ then ~
,它表示如果a
小於b
為真,則執行then
關聯的陳述式。微妙之處是相同的比較表達式可以放置在任何地方,例如:
另一個不同是<
算子如果成功,返回它的第二個運算元,在這個例子中,如果b
大於a
,則導致b
的值被寫出,否則什麼都不寫。因為並非測試本身,而是一個算子返回一個值,它們可以串聯在一起,允許如下這樣的鏈式測試[14]:
在多數語言中的平常類型的比較之下,同樣的語意必須寫為兩個不等式合取,比如(a < b) && (b < c)
。
需要注意如果測試一個變數比如c
,意圖確定它是否已初始化,它在未初始化時返回一個值&null
,所以對它的測試總是成功的,故而需要測試c === &null
或c ~=== &null
[10]。
回溯
目標導向執行的一個關鍵方面,是程式可能必須在一個過程失敗時倒轉到以前的狀態,這個任務叫做回溯。例如,考慮設置一個變數為一個開始位置,並接着進行可以改變這個值的操作,這是在字串掃描中常見情況,這裏前進游標通過它所掃描的字串。如果這個過程失敗了,任何對這個變數的後續讀取都返回最初的狀態,而非被內部操縱後的狀態是很重要的。對於這種任務,Icon有一個「可逆賦值」算子<-
,和「可逆交換」算子<->
。
例如,考慮如下嘗試在一個更大字串內找到一個模式字串的代碼塊:
這個代碼塊開始於移動i
到10
,這是尋找的開始位置。但是,如果find()
失敗,這個塊將作為整體失敗,作為一個不想要的副作用,它導致i
的值遺留為10
。故而應將i := 10
替代為i <- 10
:
在這個塊失敗時,i
會被重設為它以前的值。這提供了在執行中的類似於原子性的東西。
例外
將成功和失敗的概念與例外的概念相對比是很重要的:異常是不尋常的狀況,不是預期的結果;而例外是預期的結果,比如讀取檔案時到達檔案的結束處,是預期的例外狀況而不是異常。Icon沒有傳統意義上的例外處理,儘管失敗經常被用於類似例外的狀況下。例如,如果要讀取的檔案的不存在,read()
失敗而不指示出特殊狀況[13]。在傳統語言中,沒有指示這些「其他狀況」的自然方式,典型的例外處理是throw
「投擲」一個值。例如Java使用try
/catch
語法來處理例外:
try {
// 读取文件等等。
} catch (EOFException e) {
// 遇到文件结束例外
} catch (IOException e) {
// 发生IO异常
}
生成器
在Icon中表達式經常返回一個單一的值,例如5 > x
,將求值並且如果x
的值小於5
則成功並返回x
,否則失敗。但是,Icon還包括了過程不立即返回成功或失敗,轉而每次呼叫它們之時返回一個新值的概念。這些過程叫做生成器,並且是Icon語言的關鍵部份。在Icon的用語中,一個表達式或函數的求值產生一個「結果序列」。結果序列包含這個表達式或函數生成的所有可能的值。在結果序列被耗盡的時候,這個表達式或函數失敗。
因為整數列表在很多編程場景都是很常見的,Icon包括了to
中綴表達式來構造整數生成器:
遍歷生成器所生成的所有結果,可以使用表達式every expr1 do expr2
,這裏的do
子句是可選的,它針對expr1
生成的每個結果求值expr2
,在expr1
不再產生結果時失敗。
中綴表達式to
的優先級高於賦值算子。在這種情況下,從i
到j
的值,將注入到write()
並寫出多行輸出[10]。它可以簡寫為:
還可以結合上合取算子&
,它的使用方式類似於其他語言中的布林算子and
,需要注意不同於C語言的情況,&
的優先級低於賦值算子:=
[15]:
這段代碼呼叫整數生成器並得到其初始值0
,它被賦值給x
。接着進行合取的右手端,因為x % 2
確實等於0
而成功,進而合取x := 0 to 10 & x % 2 == 0
成功,隨即執行write()
寫出x
的值。接着再次呼叫這個生成器,它賦值1
到x
,這使得合取的右手端失敗進而合取失敗,故而不寫出任何東西。最終結果是寫出從0
到10
的一個列表中的所有偶數[15]。
生成器的概念對於字串操作是很強大的。在Icon中,find()
函數是個生成器。下面的例子代碼,在一個字串中找出"the"
的所有出現位置:
find()
在每次被every
恢復的時候,將返回"the"
的下一個實例的索引,最終達到字串結束處並失敗。
在想要在一個字串的某點之後的進行尋找之時,目標導向執行也能起效:
如果找出的"the"
出現在位置5
之後,則比較成功並返回右手側的結果,否則比較失敗進行下一次尋找。這裏把find()
放置到這個比較的右手側是重要的。
交替表達式
最常見類型的生成器建造器是|
即交替(alternation)表達式,求值交替者的嚴格語法描述為:expr1 | expr2 : x1, x2, ...
,expr1 | expr2
首先生成expr1
的結果,然後生成expr2
的結果,最終產生多個值x1, x2, ...
。它可以用來構造值的任意列表。例如可以在任意的一組值上進行迭代:
Icon不是強型別的,所以交替表達式形成的列表可以包含不同類型的專案:
這將寫出1
、"hello"
和在x < 5
的情況下出現的5
。
交替表達式能履行其他語言中的布林算子or
功能。例如:
這段代碼中的|
符號起到了邏輯或的作用:如果y
小於x
或者5
,那麼寫出y
的值。實際上x | 5
是生成器的一種簡寫形式,它依次返回這個列表的值直到脫離於這個列表結束處,而這個列表的值被注入到這裏的<
運算之中。首先測試y < x
,如果x
實際上大於y
,則這次測試成功並且if
子句成功;否則這次測試失敗而交替運算繼續,從而再次測試y < 5
。如果直到交替運算完成而所有測試都未通過,則if
子句失敗。在if
子句成功之後,才會執行then
子句write()
寫出y
的值。
函數只有在求值它們的參數成功之後才會被呼叫,所以這個例子可以簡寫為:
暫停表達式
要將一個過程轉換成一個生成器,可以使用表達式suspend expr1 do expr2
,這裏的do
子句是可選的;它暫停當前過程,將expr1
生成的每個結果作為這個過程所產生結果返回。在再次呼叫這個過程之時於這個暫停之處恢復執行,此時先求值expr2
再恢復expr1
;如果expr1
是生成器並產生了新結果,則再次暫停並返回它的結果;如果expr1
不是生成器或者是生成器但不再產生新結果,則繼續執行後面的陳述式。
例如:自己定義一個ItoJ
生成器[13]:
它建立一個生成器,它返回一系列的數,開始於i
並結束於j
,接着在它們之後返回&fail
。suspend i
停止執行,並返回i
的值,而不重設這個函數的任何狀態。當對相同函數做出另一次呼叫的時候,在這一點上於以前的狀態下恢復執行。它接着進行i +:= 1
,然後迴圈回到while
的開始處,接着返回下一個值並再次暫停。這個迴圈將持續直到i <= j
失敗,這時呼叫fail
退出。這裏的fail
在不是必需的,因為它緊前於end
,增加它是為了清晰性。這種機制允許輕易的構造迭代器[13]。
數據結構
Icon將值的搜集稱為「結構」,包括:記錄、列表、集合和表格。
記錄是固定大小的並且它們的值通過欄位名來提及。記錄像過程那樣聲明並且對整個程式而言是全域的,一個記錄的實例可以通過記錄構造子來建立。例如:
記錄的欄位通過名字.字段
形式的表達式來提及,例如clerk.salary
。
列表在Icon有兩個角色。它是可用下標定位的一維陣列(向量),也是可用專屬訪問函數操縱從而增長或縮短的堆疊和佇列。因為Icon是無類型的,列表可以包含任何不同類型的值:
就像其他語言中的陣列,Icon允許專案按編號從1
開始的位置來尋找,例如salary := clerk[4]
。在Icon中,可以通過指定範圍來獲得列表的分節(section),就像陣列分片那樣,索引設立在元素之間,比如clerk[2:4]
產生列表[36, "123–45–6789"]
。在列表內的專案可以包括其他結構。Icon包括了list()
列表建立函數,用來建造更大的列表;例如vector := list(10, 0.0)
,生成10
個0.0
的一個列表。
集合類似於列表,但是只包含任何給定值的一個單一成員。Icon包括了++
來產生兩個集合的併集,**
用於交集,和--
用於差集。可以通過用單引號包圍字串來建造Cset
,例如:
Icon包括一些預定義的Cset
,即包含各種字元的集合,它有四個標準Cset
:&ucase
、&lcase
、&letters
和&digits
。
表格是有序對的搜集,有序對被稱為元素,它由鍵和對應的值組成。表格在其他語言中叫做關聯陣列、對映或字典。表格類似於列表,但是它的鍵或稱為「下標」不必須為整數而可以是任何類型的值:
表格建立函數table()
建立了使用的0
作為任何未知鍵的預設值的一個表格。接着向它增加了兩個專案,具有鍵"here"
和"there"
,及其各自的值1
和2
。
搜集遍歷
搜集可以通過原生的生成器來遍歷。例如針對檔案的read()
、針對佇列的get()
和針對堆疊的pop()
:
使用如前面例子中見到的失敗傳播,可以組合測試和迴圈:
字首算子!x1
,其嚴格語法描述為!x1 : x2, x3, ..., xn
,從一個運算元x1
生成多個值x2, x3, ..., xn
:
- 如果
x1
是一個檔案,!x1
生成x1
餘下的諸行。 - 如果
x1
是一個字串,!x1
生成x1
的一個字元的諸子串,並且如果x1
是變數則產生諸變數。 - 如果
x1
是一個列表、表格或記錄,!x1
生成具有x1
諸元素的諸變數。產生次序,對於列表和記錄是從開始至結束,而對於表格是不可預測的。 - 如果
x1
是一個集合,!x1
以不可預測的次序生成x1
的諸成員。
遍歷搜集可以使使用嘆號語法進一步簡化:
在這種情況下,在write()
內的!lines
,導致從列表lines
一個接一個的返回一行文字,並且在結束處失敗。而!&input
,類似於從標準輸入檔案&input
讀取一行的read()
,一個接一個讀取並返回諸行直到檔案結束。
在Icon中,字串是字元的列表,可以使用「嘆號語法」來迭代:
這將在獨立行上列印出字串的每個字元。
子字串提取
字串是字元的列表,可以使用在方括號內的一個範圍規定從字串中提取出子字串。子字串範圍規定,可以返回到一個單一字元的一個點,或字串的一個分節(section)或分片(slice)。
字串可以從左或從右索引。在一個字串內的位置,被定義為在字元之間:1A2B3C4
,也可以從右規定:−3A−2B−1C0
。例如:
這裏最後例子採用了x1[i1+:i2] : x2
表達式,產生x1
在i1
和i1 + i2
之間的子字串。
子字串規定可以用作字串內的左值。這可以被用來把字串插入到另一個字串,或刪除字串的某部份。例如:
Icon的下標索引是在元素之間的。給定字串s := "ABCDEFG"
,索引是1A2B3C4D5E6F7G8
。分片s[3:5]
是在索引3
和5
之間的字串,它是字串"CD"
。
字串掃描
對處理字串的進一步簡化是「掃描」系統,通過?
來發起,它在一個字串上呼叫函數:
Icon稱呼?
的左手端為「主語」,並將它傳遞到字串函數中。所呼叫的生成器函數find()
接受兩個參數,尋找的文字作為參數一,而要在其中尋找的字串是參數二。使用?
,第二個參數是隱含的,而不由編程者來指定。在多個函數被依次呼叫在一個單一字串上的常見情況下,這種風格可以顯著的所見結果代碼的長度並增加清晰性。
?
不是簡單的一種語法糖,它還為任何隨後的字串操作,建立一個「字串掃描環境」。這基於了兩個內部變數,&subject
和&pos
,這裏的&subject
是要掃描的字串,而&pos
是在這個主語字串內的當前位置或「游標」。
表達式x ? expr : x
,儲存當前的主語和位置,並接着分別設置它們為x
和1
,接着求值expr
;它的產出就是expr
的產出,在從expr
退出時它將主語和位置復原為儲存的值。例如:
將產生:
subject=[this is a string] pos=[1]
內建和用戶定義的函數,可以被用於在要掃描的字串上移動。所有內建函數預設採用&subject
和&pos
,來允許用上掃描語法。比如函數tab (i) : s
,它設置掃描位置:產生&subject[&pos:i]
,並將i
賦值到&pos
。下列例子代碼,寫出在一個字串內,所有空白界定出的word
:
將產生:
this
is
a
string
這個例子介入了一些新函數。pos()
返回&pos
的當前值。為何需要這個函數,而不簡單的直接使用&pos
的值,不是顯而易見的;原因是&pos
是一個變數,而不能呈現值&fail
,而過程pos()
能。因此pos()
提供對&pos
的輕量級包裝,它允許輕易使用Icon的目標導向控制流,而不用針對&pos
提供手寫的布林測試。在這種情況下,測試是「&pos
是0
」,在Icon的字串位置的特異編碼中,0
是行結束。如果它不是0
,pos()
返回&fail
,它通過not
反轉而使得迴圈繼續。
many()
從當前&pos
開始,找到提供的Cset
參數的一個或多個例子。在這種情況下,它尋找空格字元,所以這個函數的結果是在&pos
之後的第一個非空格字元的位置。tab()
移動&pos
到那個位置,這種情況下再次具有潛在的&fail
,例如many()
在字元結束處脫離。upto()
本質上是many()
的反函數;它返回緊前於提供的Cset
的例子的位置,接着由另一個tab()
來設置&pos
。這裏的交替用來在行結束處也停止。
這個例子通過使用更合適的「字分隔」Cset
,可以包括句號、逗號和其他標點,還有其他空白字元如tab和不換行空格,能夠變得更加健壯。這個Cset
可以接着用於many()
和upto()
。
結合了生成器與字串掃描的一個更複雜的例子:
將產生:
Mon Dec 8
表達式=s1
等價於tab(match(s1))
。表達式*x
計算x
的大小。算子||
串接兩個字串。這裏介入了內建函數match (s1,s2,i1,i2) : i3
,它匹配初始字串:如果s1 == s2[i1+:*s1]
,產生i1 + *s1
,否則失敗;它設定有預設值:s2
為&subject
;i1
在s2
預設時為&pos
,否則為1
;i2
為0
。
參見
參照
- ^ https://github.com/gtownsend/icon/releases/tag/v9.5.23a.
- ^ Release 951. 2013年6月5日 [2023年9月19日].
- ^ Griswold, Ralph E.; Poage, J.F.; Polonsky, Ivan P. The SNOBOL 4 Programming Language 2nd. Englewood Cliffs NJ: Prentice-Hall. 1971. ISBN 0-13-815373-6.
- ^ Ralph E. Griswold, David R. Hanson, "An Overview of SL5", SIGPLAN Notices 12:4:40-50 (April 1977)
- ^ Schemenauer, Neil; Peters, Tim; Hetland, Magnus. PEP 255 -- Simple Generators. 2001-12-21 [2008-09-05]. (原始內容存檔於2020-06-05).
- ^ Griswold, Ralph E.; Griswold, Madge T. History of the Icon programming language. Bergin, Thomas J.; Gibson, Richard G. (編). History of Programming Languages II. New York NY: ACM Press. 1996.
- ^ Griswold 1981,第609頁.
- ^ Griswold 1981,第629頁.
- ^ 9.0 9.1 9.2 9.3 9.4 Griswold & Griswold 1993,第53頁.
- ^ 10.0 10.1 10.2 Tratt 2010,第75頁.
- ^ 11.0 11.1 Lane, Rupert. SNOBOL - Introduction. Try MTS. 26 July 2015 [2022-02-03]. (原始內容存檔於2022-05-09).
- ^ Tratt 2010,第73頁.
- ^ 13.0 13.1 13.2 13.3 Tratt 2010,第74頁.
- ^ 14.0 14.1 Griswold 1996,第2.1頁.
- ^ 15.0 15.1 Tratt 2010,第76頁.
參考書目
- Griswold, Ralph; Griswold, Madge. The Icon Programming Language (third edition). Peer-to-Peer Communications. 2002 [2020-09-19]. ISBN 1-57398-001-3. (原始內容存檔於2020-11-09).
- Griswold, Ralph; Griswold, Madge. History of the Icon Programming Language. Communications of the ACM. March 1993, 23 (3): 53–68.
- Griswold, Ralph. A History of the SNOBOL Programming Languages. Wexelblat, Richard (編). History of Programming Languages. Academic Press. 1981.
- Griswold, Ralph. An Overview of the Icon Programming Language; Version 9. Department of Computer Science, The University of Arizona. 2 March 1996 [2022-02-03]. (原始內容存檔於2022-04-08).
- Tratt, Laurence. Experiences with an Icon-like expression evaluation system (PDF). Proceedings of the 6th symposium on Dynamic Languages. 18 October 2010: 73–80 [2022-02-03]. doi:10.1145/1869631.1869640. (原始內容 (PDF)存檔於2021-11-04).
外部連結
- Icon homepage(頁面存檔備份,存於互聯網檔案館)
- Oral history interview with Stephen Wampler, Charles Babbage Institute, University of Minnesota. Wampler discusses his work on the development Icon in the late 1970s.
- Oral history interview with Robert Goldberg, Charles Babbage Institute, University of Minnesota. Goldberg discusses his interaction with Griswold when working on Icon in the classroom at Illinois Institute of Technology.
- Oral history interview with Kenneth Walker, Charles Babbage Institute, University of Minnesota. Walker describes the work environment of the Icon project, his interactions with Griswold, and his own work on an Icon compiler.
- The Icon Programming Language page (頁面存檔備份,存於互聯網檔案館) on The Rosetta Code comparative programming tasks project site